Controle de Qualidade de Dados de NGS com FastQC e Trimmomatic

Frederico Schmitt Kremer
omixdata
Published in
2 min readOct 17, 2019

Olá pessoal! No tutorial mostro como podemos realizar o controle de qualidade de dados brutos de sequenciamento de nova geração com as ferramentas FastQC (para geração de relatórios de qualidade) e Trimmomatic (para filtragem, trimming e clipping).

Qual a função do controle de qualidade no NGS?

O sequenciamento de nova geração (next generation sequencing, ou NGS) permite a geração de um grande volume de dados para fragmentos de DNA com alta velocidade, mas nem todas as leituras produzidas por estas plataformas são de alta qualidade, e mesmo leituras cuja qualidades médias são altas podem apresentar bases com qualidade baixa. Além disso, é possível também ter a qualidade de um resultado de sequenciamento de NGS sendo comprometida por conta de sequências contaminates, como restes de primers ou outras sequências adaptadoras utilizadas durante o processo de preparo de biblioteca.

No caso do sequenciamento de Sanger, este processo de controle de qualidade era realizado muitas vezes manualmente, com inspeção visual dos picos dos cromatogramas e edição das sequências, mas no caso do NGS, com arquivos de dados brutos contendo 50 Gb ou mais de sequências, isso não é exequível. Por conta disso, ferramentas de preprocessamento foram criadas para realizar esta etapa, que é orientada a partir de inferências feitas a partir de uma visão global dos dados brutos. Com elas, podemos remover leituras com baixa qualidade (filtering), remover bases com baixa qualidade das extreminadades das leituras (trimming) ou sequências de adaptadores / primers (clipping), dentre outras abordagens.

Exemplo de controle de qualidade de dados de sequenciamento de Sanger, com picos bem definidos nas bases com alta confiabilidade e picos sobrepostos nas bases com baixa confiabilidade.

Instalando dependências

Para este tutorial precisaremos dos programas fastqc e trimmomatic para controle de qualidade e sra-toolkit, para obtermos o dataset de exemplo. Estes problemas podem ser instalados no Ubuntu com o seguinte comando:

$ sudo apt install fastqc trimmomatic sra-toolkit

Baixando o dataset

O dataset que usaremos é do sequenciamento do genoma de uma cepa de Escherichia coli obtido usando a plataforma MiSeq, e pode ser obtida a partir do NCBI SRA.

$ mkdir raw
$ cd raw
$ fastq-dump ERR654980

Tutorial

--

--