Entendendo o NGS (parte 4): Aplicações

Frederico Schmitt Kremer
omixdata
Published in
10 min readAug 25, 2019

Este é o artigo final de uma série que estou escrevendo sobre as tecnologias de sequenciamento de DNA de nova geração (next generation sequencing, ou apenas “NGS”). Nos posts anteriores descrevi as diferentes plataformas de sequenciamento de nova geração, os seus tipos de bibliotecas e os formatos de arquivos são são produzidos por cada uma. Para finalizar esta série, comentarei um pouco sobre as algumas das diferentes aplicações do NGS nas ciências ômicas.

Whole Genome Shotgun

O sequenciamento completo de genomas (whole-genome shotgun, ou WGS) é umas das principais aplicação das plataformas de NGS, e consiste geralmente em três etapas principais: sequenciamento, montagem e anotação.

O processo de montagem de um genoma pode ser realizado de duas formas: de novo e com referência (reference-guided). A montagem de novo é geralmente realizada nos casos onde não há genoma disponível para o organismo de interesse, ou no caso de genomas microbianos, visto que estes possuem uma alta plasticidade e a incorporação de novos genes por transferência horizontal ou eventos de alteração estrutural são processos relativamente frequentes. Já a montagem reference-guided é geralmente utilizada como parte da análise de variantes, em organismos modelo. Neste caso, o objetivo é a identificação de variantes genéticas, sendo geralmente tratada como um tópicos separado.

A montagem de novo consiste em produzir, a partir das leituras geradas durante o sequenciamento, sequências maiores denominadas contigs. As principais estratégias usadas para isso são: Overlap-Layout-Consensus (OLC) e os grafos de Bruijn.

A abordagem OLC consiste em produzir alinhamentos entre as leituras e identificar sobreposições (overlap), agrupar elas em contigs (layout) e então produzir uma sequência consenso (consensus). Esta metodologia foi empregada no início do NGS para a montagem de genomas com dados derivados da plataforma Roche 454, mas caiu em desuso por ser pouco eficiente na montagem de dados de leituras curtas e com alta cobertura, como os produzidos pela plataforma Illumina; para este caso, os grafos de Bruijn se tornaram o padrão. Mais recentemente, no entanto, a abordagem OLC foi retomada para ser utilizadas nas plataformas de terceira geração.

Na montagem por método de Bruijn, as leituras são fragmentadas em sequências menores de tamanho fixo “k” denominadas “k-mers”. Por padrão recomenda-se que o valor de k seja um número ímpar para evitar problemas decorrentes de sequências palindrômicas. Os k-mers são então conectados em um grafo por meio das sobreposições “k-1”, e a sequência do genoma é reconstruída percorrendo-se o grafo até se encontrar o menor conjunto de caminhos independentes.

Diferença no processo de montagem “overlap-layout-consensus” (OLC) e por grafo de Bruijn.

As contigs tem esse nome pois são sequências “contínuas”, ou seja, não possuem “interrupções” (gaps), apesar de poderem possuir base mal identificadas (representadas com a letra “N”). Dificilmente uma genoma é reconstruído por completo, em uma única sequência, após o processo de montagem, visto que diferentes fatores intrínsecos (ex: sequências repetitivas, genes duplicados) e extrínsecos (ex: limitações da plataforma, tamanho de leitura, erro de sequenciamento, erro de montagem), podem afetar este processo. Dependendo do grau de fragmentação da montagem produzida, é possível se empregar diferentes estratégias de pós-montagem, o que inclui a integração dos resultados gerados por diferentes programas de montagem (montadores); geração de scaffolds a partir das contigs utilizados dados de leituras pareadas ou genomas similares; fechamento de gaps; e identificação e correção de erros de montagem.

Geralmente, chamamos de genomas rascunho (draft genome) aqueles que estão fragmentados em contigs e scaffolds, e genomas finalizados aqueles que possuem a estrutura cromossômica reconstruída. O processo de conversão de um genoma rascunho em finalizado é chamado “finalização” ou “fechamento”.

Por fim, a anotação consiste na identificação dos elementos estruturais e funcionais do genoma, como genes, regiões codificantes (coding DNA sequence, CDS), regiões regulatórias, sequências repetitivas, promotores, dentre outras. No caso de genomas procarióticos, o fato da estrutura gênica ser mais simples torna mais fácil a predição ab initio, ou seja, sem o uso de dados experimentais. Neste caso, os programas de predição precisam basicamente identificar regiões abertas para a leitura (ORFs) e verificar se alguns parâmetros como conteúdo CG% e tamanho da região codificante, bem como a presença de sequências sinalizadores (ex: Shine-Dalgarno). Já no caso de organismo eucariotos, a fragmentação da região codificante em exons e introns e a possibilidade de splicing alternativo tornam a predição ab initio muito mais complexa e reduzem a sua acurácia. Como alternativa, dados experimentais, como sequências de proteínas e de RNA-Seq, são geralmente utilizados para a construção de modelos de genes.

Utilização de dados de predição ab initio e experimentais na anotação de genomas eucariotos.

Single-cell genome

Recentemente, técnicas de amplificação de DNA não baseadas em PCR, como a multiple displacement amplification (MDA), passaram a ser empregadas na análise de genomas de células isoladas (single-cell sequencing). Esta abordagem utiliza combinações aleatórias de hexanucleotídeos como primers, e é realizada em temperatura constante. Esta amplificação é realização in situ, com uso de micromanipuladores, mas também pode ser realizada de forma automatizada com uso de métodos de microfluídica. A grande vantagem desta abordagem é a possibilidade de se analisar alterações pontuais e estruturais em populações de células com grande variabilidade, como em linhagens de câncer, e permite um melhor entendimento do grau de instabilidade genética se comparado ao sequenciamento a partir de DNA total.

Ciclo de amplificação da técnica MDA.

Análise de Variantes

A análise de variantes consiste na identificação de alterações genética (ex: substituições de base, inserções, deleções, alterações estruturais) em uma amostra a partir da comparação com uma sequência de referência. Esta abordagem geralmente é realizada a partir de dados de sequenciamento de genoma completo, mas também pode ser realizada a partir de amplicons de painéis de gene, e também a partir de regiões “capturadas” de DNA, como é realizada na análise de exoma.

O processo de análise de variantes inicia com o alinhamento das leituras de sequenciamento contra a sequência de referência do organismo de interesse (este processo é também chamado “mapeamento”). Posteriormente, as leituras são comparadas base a base com a sequência de referência, e as posições com divergência são identificadas. Estas divergências (variantes) podem ser então comparadas com a anotação do genoma de modo a se identificar eventuais impactos funcionais. Como cada leitura é gerada a partir de um fragmento de DNA específico, com um número suficiente de leituras é possível se identificar diferentes alelos de um SNP em uma mesma amostra, como mostrado abaixo, o que possibilita o uso do NGS na genotipagem em larga escala.

Uso de NGS na caracterização de variantes em diferentes genótipos.

A análise de exoma é uma alternativa interessante para aplicações clínicas da análise de variante pois grande parte da alterações genéticas com impacto fenotípico estão em regiões de DNA codificante, e esta compõe menos de 3% do genoma humano. Ao se utilizar apenas a fração codificante no processo de sequenciamento, é possível se garantir uma maior cobertura nas regiões alvo, e assim se ter maior confiabilidade na identificação de alterações pontuais. Para se selecionar estas regiões, o DNA é fragmento e passado por colunas que capturam os fragmentos que pertencem à regiões de exon por pareamento de base. Cada protocolo e kit possui um conjunto definido de regiões alvo, mas geralmente cobre > 99% dos exons anotados no genoma humano.

Processo de captura de fragmentos de origem exônica.

Metagenômica e Microbioma

O conjunto de microorganismos presentes e em uma determinada amostra é denominado microbioma. Já o metagenoma consiste no conjunto de material genético destes organismos, sendo também chamado genoma ambiental. A análise de microbioma com NGS permite identificar e quantificar em larga escala os diferentes microorganismos de uma amostra a partir de marcadores moleculares conservados, como os genes das sub-unidades ribossomais 16S e 18S e espaçador ITS (internal transcribed spacer). Já o metagenoma, por ser o DNA total, permite a análise funcional, visto que é possível identificar os genes presentes nos organismos da amostra e predizer sua função com uso de bancos de dados de referência. Posteriormente, é possível utilizar estes dados, por exemplo, para a prospecção de novas enzimas com potencial biotecnológico (ex: celulases, lipases, amilases).

No caso do microbioma, antes do sequenciamento é necessário se realizar a geração de amplicons do gene marcador de interesse. Na análise com gene 16S e plataforma Illumina MiSeq, por exemplo, são utilizados primers que amplificam as regiões “V3” e “V4” deste gene, que são porções que apresenta alta variabilidade entre os diferentes gêneros de bactéria.

Regiões variáveis do gene da subunidade ribossomal 16S.

Após a amplificação, o produto é então submetido ao processo de preparo da biblioteca, e então ao sequenciamento propriamente dito. Após isso, os dados são comparados com bancos de dados de 16S, como o SILVA, e cada leitura é vinculada a uma OTU (Operational Taxonomic Unit), que consiste em um grupo de organismos que possuem um certo grau de similaridade de sequência para um determinado marcador (geralmente 97%).

A análise de microbioma tem servido de base para diferentes aplicações na indústria e na medicina de precisão. Através da análise quantitativa dos organismos em uma amostra é possível identificar, por exemplo, contaminações em diferentes pontos da cadeia de produção dentro de uma fábrica, o que é particularmente relevante na indústria alimentícia. Além disso, a análise do microbioma intestinal tem sido cada vez mais empregada como método diagnóstico complementar, visto que a microbiota reflete e tem efeito sobre diferentes processos fisiopatológicos do organismo. Como exemplo de empresas que realizam estas análises no Brasil temos a Neoprospecta e a Bioma4me.

Já no caso do metagenoma, o processo de amplificação não é realizado, sendo utilizado no preparo da biblioteca o DNA total extraído da amostra. Após o sequenciamento, é possível se realizar a montagem de novo da sequência com montadores específicos, de forma similar à análise de genomas, e posteriormente o processo de anotação para identificação de genes e suas respectivas funções. Também é possível se identificar o organismo de origem de cada contig que foi gerada durante o processo de montagem, sendo neste caso este processo chamado binning.

Processo de binning de contigs em análise de metagenoma.

RNA-Seq

Chamamos de RNA-Seq a aplicação das plataformas de NGS na análise do transcriptoma, sendo esta técnica uma evolução das abordagens utilizadas nas plataformas de sequenciamento clássico, como as técnicas baseadas em Expressed Sequence Tags (ESTs) e o método Serial Analysis of Gene Expression (SAGE). Na maioria das plataformas, o sequenciamento de RNA é feito indiretamente através do uso do cDNA. Este processo envolve o uso da enzima transcriptase reversa, que produz uma fita de DNA complementar a partir de uma fita de RNA template. E exceção a este requisito é a plataforma Oxford Nanopore, que permite a detecção direta do RNA (direct RNA-Seq). Da mesma forma que no WGS, a análise de RNA-Seq pode ser realizada tanto com uma sequência de genoma de referência quanto sem (de novo).

A análise de novo é particularmente importante no estudo de organismos eucarióticos não-modelo (que não possuem genoma disponível). Neste caso, a análise do transcriptoma permite a caracterização do repertório gênico destes organismos, bem como de eventuais isoformas de cada gene, sem que sejam necessário se reconstruir toda a sequência genômica.

Processo de montagem de novo de transcriptoma.

Outra aplicação importante do RNA-Seq é na análise da expressão gênica diferencial. Neste caso, as informações do sequenciamento do transcriptoma são usados para se quantificar, com abundância relativa, o grau de expressão de cada gene de um organismo em amostradas submetidas a diferentes tratamentos. Por meio desta análise, é possível identificar genes que tem sua expressão aumentada (up-regulated) ou diminuída (down-regulated) em uma determinada condição (célula/organismo e tratamento).

Resultado de análise de expressão diferencial.

Além dos genes codificantes, a análise de RNA-Seq podem ser empregada também não análise de RNA não-codificantes (ncRNAs), como os microRNAs (miRNA).

Por fim, a análise single-cell também pode ser aplicada no contexto do RNA-Seq. Neste caso, o processo permite a discriminação de populações de células a partir de seus perfis de expressão gênica, sendo geralmente utilizadas técnicas de redução de dimensionalidade como a Análise de Componente Principal (PCA) e clustering para visualização de interpretação das semelhanças e diferenças nestes perfis. Nos gráficos abaixo, cada ponto é uma célula diferente.

Análise de populações de células a partir de dados de single-cell RNA-Seq.

Epigenômica

Entende-se por epigenoma o conjunto de modificações química e estruturais pelas quais o DNA, ou outras moléculas associadas (ex: histonas), pode passar e que tem como objetivo a alteração do perfil de expressão gênica sem ter efeito direto na sequência de nucleotídeos. Exemplos de alterações epigenéticas incluem os processos de metilação do DNA e de acetilação de histonas. Além disso, alterações de acessibilidade da cromatina mediada por proteínas que interagem com o DNA também podem ser consideradas alterações epigenéticas.

Uma das modificações epigenéticas mais estudadas é a metilação das bases citosina nas chamadas ilhas CpG, e resulta na redução da expressão gênica. A detecção destas alterações pode ser realizada nas plataformas de segunda geração com uso da técnica do bissulfito. Este reagente resulta na conversão das bases citosina em uracila, mas não afeta as citosinas metiladas. Após o tratamento do DNA com o reagente, é possível se utilizar a enzima transcriptase reversa para converter as bases U para T, e então é feito o sequenciamento do DNA seguindo o protocolo padrão. A identificação das regiões metiladas é feita com uma abordagem parecida com a análise de variantes, mas neste caso as bases não-metiladas ficarão identificadas como T, enquanto que as bases metiladas não terão alterações.

Reação de conversão do bisulfito.

O uso da técnica do bisulfito é particularmente comum na plataforma Illumina, e também foi utilizado na plataforma Roche 454. Já na plataforma PacBio, que permite acompanhamento em tempo real da cinética enzimática, a presença de alterações químicas nas bases podem ser inferida a partir de mudanças na velocidade da enzima, facilitando a caracterização deste tipo de alteração.

Análise em tempo real da cinética enzimática com a técnica de sequenciamento PacBio.

--

--