Entendendo o NGS (parte 1): plataformas de sequenciamento

Frederico Schmitt Kremer
omixdata
Published in
17 min readJul 28, 2019

Este é o primeiro artigo de uma série que pretendo escrever sobre as tecnologias de sequenciamento de DNA de nova geração (next generation sequencing, ou apenas “NGS”). Apesar da literatura em inglês ser farta sobre estas tecnologias, ainda há pouco material em português que as aborde de forma didática.

Primeira geração (sequenciamento de DNA clássico)

A primeira geração de métodos de sequenciamento de DNA, também denominada “sequenciamento clássico”, abrange das técnicas desenvolvidas por Sanger et al e Maxam & Gilbert, ambas publicadas em 1977. Até o advento destas técnicas, o sequenciamento de nucleotídeos era praticamente restrito à análises de sequências de RNA com técnicas de degradação química, em processos que eram pouco escaláveis e extremamente demorados.

O método de Maxam–Gilbert

A técnica de sequenciamento descrita por Allan Maxam e Walter Gilbert em 1977, conhecida por “método de Maxam-Gilbert”, utiliza quatro reações de degradação química separadas que removem bases da extremidade 5' dos fragmentos de DNA uma a uma. Duas destas reações são específicas para uma única base (‘G’ e ‘C’), enquanto outras duas podem clivar duas bases diferentes (‘A’ ou ‘G’ e ‘C’ ou ‘T’). Deste modo, as bases ‘A’ e ‘T’ são inferidas indiretamente. Após a degradação é possível se adicionar um fosfato marcado na extremidade, de modo a se revelar a distribuição de tamanhos de fragmento com uso de um filme fotográfico.

Esta metodologia se tornou popular no final dos anos 70 pois podia ser realizada diretamente a partir do DNA isolado e fragmentado, enquanto que o método de Sanger era tecnicamente mais complexo. Entretanto, o uso de moléculas radioativas e a dificuldade de se escalar e o procedimento acabaram por fazer com que esta técnica caísse em desuso.

O método de Sanger

A técnica desenvolvida por Frederick Sanger e sua equipe, conhecida como “método de terminação da reação em cadeia”, ou simplesmente “método de Sanger”. Este processo é similar à uma reação em cadeia da polimerase (“polymerase chain-reaction”, PCR), onde diferentes cópias de um fragmento são produzidas a partir da incorporação de nucleotídeos isolados (“deoxinucleotídeo trifosfatados”, dNTPs) em ciclos de desnaturação, anelamento e extensão. Entretanto, no caso do método de Sanger alguns desses nucleotídeos possuem uma hidroxila a menos, sendo denominados “ddNTPs” (“dideoxinucleotídeos trifosfatados”). A ausência desta hidroxila, que nos dNTPs está localizada no carbono 3', impede que o processo de extensão da cadeia de DNA continue após a incorporação de um ddNTP, resultando assim na interrupção da reação. Entretanto, como os ddNTPs são menos abundantes que os dNTPs, diferentes tamanhos de fragmentos são produzidos.

Diferença entre a estrutura de um açucar de dNTP (esquerda) e ddNTP (direita)

Originalmente o método de Sanger exigia que 4 reações separadas fossem realizadas, sendo em cada uma detectada uma base específica. Após realizar a reação de sequenciamento, um gel é corrido e as bandas produzidas são usadas para a identificação da sequência da amostra template. Para visualização das bandas, uma das técnicas mais utilizadas era baseada no uso de isótopos radioativos de fósforo nos dNTPs, de forma similar à utilizada no sequenciamento de Maxam-Gilbert.

Sequenciamento de Sanger capilar

O método de Sanger passou por vários aprimoramentos ao longo dos anos, como a utilização de fluoróforos para marcação dos ddNTPs, o que não apenas reduziu a necessidade de uso de reagentes radioativos, mas também possibilitou que as quatro reações fossem resumidas a uma única, onde cada base é indicada por uma cor diferente. Outro grande avanço foi o uso da eletroforese capilar, uma técnica onde os fragmentos gerados durante a reação do sequenciamento são corridas em capilares, dutos extremamente finos, o que facilita a análise automatizada dos fragmentos por detectores eletrônicos.

Sequenciador automático de Sanger

Os primeiros sequenciadores automáticos foram desenvolvidos nos anos 80, e nos anos 90 passaram a ser largamente utilizado para o desenvolvimento dos projetos genoma. As versões desenvolvidas para esta finalidade tinham suporte para até 96 amostras por vez, sendo cada fragmento sequenciado com tamanho de ~1 Kb geralmente.

Com um throughput de ~100 Kb por rodada, eram necessárias centenas, as vezes milhares, de rodadas para que fosse possível o sequenciar um genoma completo, mesmo no caso de organismos microbianos. Isso tornava estas iniciativas extremamente caras, e por isso era apenas realizadas para organismos com grande relevância para pesquisa básica e aplicada, como o ser humano (Homo sapiens), o verme Caenorhabditis elegans, a bactéria Escherichia coli, e plantas de elevado valor comercial, como o arroz (Oryza sativa). A demanda por métodos com menor custo e maior throughput motivou o desenvolvimento de novas tecnologias.

Segunda geração (high throughput e short-reads)

A segunda geração de plataformas de sequenciamento de DNA foi a primeira a ser chamada (NGS). Este termo foi inicialmente utilizado para se referir à plataforma Roche 454, mas posteriormente foi extendido para todas as tecnologias emergentes de sequenciamento com high throughput. Outra característica importante é a redução no tamanho das leituras geradas. No sequenciamento de Sanger, o tamanho das leituras obtidas é em torno de 1 Kb, enquanto que algumas plataformas de NGS produzem leituras de 30 bp. Por conta disso, o termo short-read (“leituras curtas”) passou a ser utilizado para se referir aos dados produzidos por estas plataformas, e esta característica, em conjunto com o high throughput, tornou necessário o desenvolvimento de novos algoritmos para o processamento destes dados.

Polonator

Um dos primeiros métodos propostos para o sequenciamento em larga escala de fragmentos de DNA foi o polony sequencing, que utiliza como base o conceito de polony (“polymerase colony” ou “colônia de polimerase”). Esta metodologia de sequenciamento permaneceu sem ser comercializada até 2009, quando foi implementada pela empresa Dover em um equipamento chamado Polonator, mas que teve pouca adesão.

Sequenciador Polonator

O processo de preparo de bibliotecas de polony inicia com a fragmentação do DNA, sendo seguido por uma etapa de end-repair que inclui a adição de caudas poli-A em cada extremidade. Posteriormente, moléculas sintéticas poli-T, que contêm também sítios de restrição da enzima MmeI, são usadas para realizar a circularização dos fragmentos. Esta enzima não cliva no seu sítio de reconhecimento, mas sim com algumas bases de distância, o que resulta na liberação de um inserto que contêm em cada ponta um fragmento de uma das extremidades do fragmento de DNA original, e no seu centro uma região poli-T.

Estes novos fragmentos recebem ainda adaptadores nas suas extremidades, que são usados para a ligação em nanoesferas (beads). Cada bead deve receber apenas 1 fragmento de DNA. Estas são então colocadas em uma solução de emulsão, onde ocorre o processo de amplificação do DNA (PCR em emulsão, ou “ePCR”). Posteriormente, um processo de centrifugação é feito para remover as beads que não receberam DNA ou não amplificaram.

Por fim, a biblioteca é espalhada em uma placa contendo gel de poliacrilamida e outros reagentes, e o processo de sequenciamento é realizado com uso de sonsas de DNA degeneradas de 9 bp contendo 1 base marcada com fluoróforo em uma “posição-chave”. A cada ciclo, uma sonsa diferente é testada, e o grau de hibridização é medido em cada bead com uso de um laser a partir da fluorescência.

Sequenciamento de DNA por polony

Roche 454 /Qiagen

Os sequenciadores da família 454 foram os primeiros sistemas comerciais de sequenciamento high-throughput de DNA, sendo o marco inicial de fato da era do sequenciamento de nova geração. A empresa 454, comprada pela farmacêutica Roche, implementou nestes equipamentos a tecnologia de pirossequenciamento, desenvolvida originalmente pela empresa Pyrosequencing AB, uma metodologia que utiliza uma cascata enzimática para detectar o processo de amplificação do DNA por meio da liberação de pirofosfato. A Qiagen também implementou esta mesma metodologia nos equipamentos da linha PyroMark.

Sequenciador Roche 454 FS FLX+

O processo de preparo da biblioteca inicia com a fragmentação do DNA e ligação de adaptadores nas extremidades. Estes adaptadores são usados para fixar os fragmentos em beads, e uma reação de ePCR é realizada. A beads são então colocada em um placa com nano-poços, onde são realizadas as reações de sequenciamento.

As reações de sequenciamento são realizadas em ciclo, sendo em cada ciclo adicionada uma base diferente pelo sequenciador. Em cada poço, enzimas polimerase realizam a amplificação dos fragmentos presentes nas beads. Quando uma base é incorporada, um pirofosfato é liberado, sendo este combinado com uma molécula de adenosina pirosulfato pela enzima ATP-sulfurilase, resultando em uma molécula de ATP, que é consumida pela enzima luciferase. A reação da luciferase resulta na liberação de luz.

Deste modo, sempre que uma reação de incorporação de base ocorrer em um poço, em algum ciclo de sequenciamento, um sinal luminoso é gerado. Em casos onde há sequências homopolimérica, a intensidade do sinal é proporcional ao número de repetições, mas esta relação não é linear, mas sim logarítmica. Por conta de limitações dos sensores, o número de bases em regiões deste tipo se torna difícil de ser inferido, resultando em artefatos de inserções e deleções (indels).

Reação do Pirossequenciamento

Illumina/Solexa

A Illumina surgiu nos anos 90 como uma empresa de tecnologia para diagnóstico genético baseada em micro-arranjos de DNA (DNA microarray). Em 2007 ela comprou a empresa Solexa, que detinha a patente de uma metodologia de sequenciamento de DNA chamada sequencing by synthesis (“sequenciamento por síntese”, “SBS”), e em 2009 lançou seu primeiro sequenciador comercial.

O processo de preparo de biblioteca inicia com a fragmentação do DNA, seguida da ligação de adaptadores em extremidades. Estes fragmentos são então fixados em uma placa de vidro através do pareamento dos adaptadores com fragmentos de DNA complementares presentes na sua superfície. Então, etapas de amplificação são realizadas dando origens a aglomerados de moléculas contendo a mesma sequência, chamados clusters. Estes clusters são compostos por fragmentos de fita simples, que posteriormente são usados como template por uma enzima DNA polimerase no processo de sequenciamento.

A reação de sequenciamento é realizada em ciclos, sendo em cada ciclo adicionada uma base diferente pelo equipamento. Nos clusters em que há incorporação da base pela DNA polimerase, um fluoróforo é liberado, sendo este é detectado por um sensor.

Reação de sequenciamento da plataforma Illumina

Este metodologia de sequenciamento foi implementada pelo Illumina em diferentes equipamentos, cobrindo diferentes tamanhos de leitura e valores de throughput. Destes, as linhas mais representativas são a MiSeq, com menor throughput e maior tamanho de leitura e velocidade, e a linha HiSeq, com menor tamanho de leitura, menor velocidade e maior throughput. Enquanto o MiSeq é utilizado para genomas microbianos e estudos de microbioma com 16S/18S/ITS, a plataforma HiSeq é mais usada para estudos exoma e RNA-Seq.

Diferentes sequenciadores da Illumina.

Recentemente a Illumina adquiriu a empresa Moleculo, que desenvolveu um protocolo para a geração de leituras longas “sintéticas”, sendo a tecnologia atualmente comercializada com o nome TrueSeq Long Reads(TSLR). Neste caso a amostra de interesse é quebrada em fragmentos de ~10 Kb, que são em uma placa de 384 poços. Cada poço recebe ~200 moléculas de acordo com o protocolo padrão. Os fragmentos de cada poço são então enriquecidos e marcados com barcodes. Depois, o sequenciamento é realizado com a metodologia tradicional da Illumina e os dados de leitura de cada poço são separados, sendo montados separadamente. Após esta etapa, as leituras não-montadas e contigs derivadas de todos os poços são unificadas, gerando as TSLR.

HelisCope

Foi uma plataforma de sequenciamento desenvolvida pela empresa Helicos Biosciences, sendo a primeira a utilizar a metodologia single molecule fluorescent sequencing (“sequenciamento fluorescente de molécula única”), que viria a ser posteriormente implementado na plataforma da empresa PacBio. A vantagem deste tipo de abordagem se deve à eventuais artefatos que são adicionados pelas enzimas polimerase durante muitos processos de enriquecimento de bibliotecas (muito utilizados em plataformas de segunda geração), mas sua implementação pode tornar o processo de sequenciamento mais demorado.

Sequenciador HelisCope

No HelisCope o processo de preparo do DNA inicia com a fragmentação, seguida da ligação de sequências homopoliméricas em suas extremidades (geralmente, sequências sintéticas poli-A). Estes adaptadores servem para fixar os fragmentos em uma placa de vidro que possui na sua superfície moléculas poli-T.

O processo de sequenciamento é realizado em ciclos, sendo a cada ciclo são adicionados dNTPs de uma base específicas marcados com fluoróforo e a enzima polimerase. Após a adição dos reagentes, a placa é scaneada com um laser que excita o fluoróforo e o sinal de cada molécula é detectado individualmente por um sensor de alta resolução. No entanto, esta varredura torna o sequenciamento extremamente demorado, mesmo para fragmentos de 25 bp. Ao final de cada ciclo a placa é lavada.

Diversos aspectos contribuíram para o fracasso comercial dessa tecnologia, como o alto custo dos reagentes e a incapacidade de se aumentar o tamanho das leituras geradas (25–35 bp).

Ciclo de sequenciamento da plataforma HelisCope

SOLiD

SOLiD (“Sequencing by Oligonucleotide Ligation and Detection”, “Sequenciamento por Ligação e Detecção de Oligonucleotídeo”) é uma plataforma de sequenciamento distribuída pela Applied BioSystems (ABI), uma empresa atualmente pertencente à Life Technologies. Esta metodologia utiliza como base a enzima ligase para detecção das bases presentes em cada fragmento de DNA, de forma similar ao sequenciamento por polony.

Sequenciamento da família SOLiD

De forma similar ao 454, o processo de preparo da biblioteca inicia com a fragmentação do DNA, e ligação de adaptadores. Os fragmentos são então ligados à beads e é realizado um processo de ePCR. Depois é realizado o processo de sequenciamento, sendo este baseado na hibridização de sondas contendo 2 bases conhecidas E 6 degeneradas. Nos casos onde há hibridização das primeiras bases, uma enzima ligase incorpora as 5 primeiras bases da sonda ao fragmento que está sendo estendido, e remove as ultimas 3. Este processo de clivagem resulta na liberação de um fluoróforo, que é detectado com uso de um laser. A cor emitida pelo fluoróforo varia de acordo como tipo de divergência entre as 2 bases (ex: transição, inversão), como indicado na figura abaixo.

Código de cores utilizado pela plataforma SOLiD

Este processo é repetido até o final do fragmento, e quando é terminado, as bases incorporadas são removidas e o processo é reiniciado, partindo do quadro de leitura -1. Deste modo, todas as bases do fragmento são lidas 2 vezes, cada vez gerando uma cor diferente. Por conta disso, este processo é chamado two-base enconding ou color encoding. De fato, o formato padrão de dados dos sequeciadored SOLiD é o csFASTA (color-space FASTA), onde as sequências são apresentadas por um código de cores.

Sequenciamento com plataforma SOLiD

A plataforma é capaz de produzir um altíssimo throughput (100 Gb), mas o tamanho curto de leituras torna o processo de montagem de genomas extremamente complexo. Por conta disso, é apenas utilizadas em análise em alguns estudos de deep sequencing e para análises de variantes que exigem alta cobertura. Além disso, o formato usado para armazenar os dados, o color-space FASTA, não é suportado nativamente pela maioria das ferramentas de bioinformática, sendo necessário converter para padrões abertos, como o FASTQ.

Ion Torrent

A tecnologia Ion Torrent, também distribuída pela Life Technologies, utiliza como base o sequenciamento em semi-condutor. Neste caso, o processo de sequenciamento é realizado em um chip, que possui em sua superfície micro-sensores de pH, que detectam o processo de amplificação do DNA a partir da liberação de íons H+ que são liberados no processo de incorporação de base.

Sequenciador Ion Torrent

O processo de preparo do DNA inicia com a fragmentação do DNA e ligação de adaptadores. Os fragmento são estão ligados à beads e amplificados em uma reação de ePCR.

A biblioteca é então “carregada” no chip de sequenciamento. A cada ciclo do sequenciador, uma base é adicionada pela equipamento no interior do chip, e quando ocorrem reações de incorporação de bases pela DNA polimerase, o sensor detecta os íons H+ liberados.

Da mesma forma que no 454, nos casos de regiões homopoliméricas há um aumento na intensidade do sinal detectado, mas este aumento não é linear. Deste modo, regiões com muitas repetições de uma mesma base podem resultar em erros de sequenciamento.

Sequenciamento com plataforma Ion Torrent

O fato das plataformas Ion Torrent e 454 compartilharem o mesma padrão de erro para regiões homopoliméricas permite que os protocolos sejam adaptados de uma para outra sem maiores dificuldades. Um dos maiores exemplos disso é o programa de montagem de genomas Newbler, distribuído pela Roche em uma suíte de programas que acompanhavam os sequenciadores. A qualidade das montagens geradas por ele para dados de Ion Torrent motivaram inclusive uma petição para a abertura de seu código-fonte logo após o anúncio da descontinuação do 454. Além disso, tanto o 454 quanto o Ion Torrent PGM, em suas primeiras versões, utilizaram o formato de arquivo SFF (Standard Flowgram Format) para armazenamento de seus dados brutos, o que possibilita o compartilhamento de ferramentas para correção de erro.

Complete Genomics / BGI

A empresa Complete Genomics desenvolveu a metodologia DNA nanoball Sequencing (“sequenciamento por nano-esfera de DNA”). O processo de preparo da biblioteca inicia com a fragmentação do DNA, sendo os fragmentos posteriormente ligados à adaptadores. Posteriormente, as nano-esferas são produzidas em um processo de amplificação circular, sendo incorporados nucleotídeos marcados com fluoróforos. Cada nano-esfera contêm diversas repetições de um mesmo fragmento de DNA de poucas centenas de pares de base. Após este processo, a biblioteca é disposta em uma placa com nano-poços, sendo em cada nano-poço alocada uma nano-esfera.

Sequenciamento por DNA nanoball

Em cada nano-poço, feixes de laser com diferentes comprimentos de onda são incididos para excitar cada base marcada com fluoróforo, e o sinal é detectado por uma câmera CDD de alta resolução. Os dados são então processados para se reconstruir a sequência de cada fragmento.

Em 2013 a empresa foi comprada pelo Beijin Genome Institute (BGI), um centro de pesquisa privado Chinês criado no final dos anos 90 para servir de representante da China em diversos projetos genoma, como o Projeto Genoma Humano. A tecnologia DNA nanoball sequencing foi então implementada no equipamento BGISEQ-500, o primeiro desenvolvido pelo BGI.

Sequenciador BGISEQ-500

Terceira geração (long reads)

Um dos principais problemas das plataformas de sequenciamento de segunda geração é o uso de short-reads, que tornam o processo de montagem de genomas e transcritos longos extremamente complexo. No caso de genomas, o problema é tanto na reconstrução de sequências de repetição em tandem (ex: LINE, SINE, SSR), quanto na reconstrução de genes que possuem muitas cópias no genoma, visto que em alguns casos é possível que o programa de montagem colapse as leituras de regiões parálogas em uma única contig. Já caso de transcritos longos, o problema é a dificuldade de se reconstruir com exatidão transcritos longos que apresentam muitas isoformas. Por conta disso, plataformas que suportassem leituras longas (long-reads) foram desenvolvidas.

PacBio

A tecnologia de sequenciamento SMRT (single-molecule real-time sequencing), comercializada pela empresa Pacific Biosciences (PacBio) também utiliza a abordagem de sequenciamento em tempo real, de forma similar à plataforma HeliScope. Entretanto, neste caso o tamanho de leituras gerados é substancialmente maior, chegando a ~20 Kb.

Sequenciador PacBio SMRT

Após a fragmentação do DNA, as extremidades de ambas as fitas dos fragmentos são unidas, formando uma única fita circular com auto-pareamento. A circularização permite que um mesmo fragmento de DNA seja lido por completo nas duas fitas. Entretanto, diferente das bibliotecas do tipo paired-end, neste caso uma única leitura é gerada, contendo as sequências de cada fragmento espaçadas pelos adaptadores. Estas leituras são chamadas CCS (clusters of circular consensus).

O processo de sequenciamento é realizando em nano-poços, sendo em cada um fixada uma enzima DNA polimerase. A cada ciclo, uma base diferente é adicionada pelo equipamento. No casos em que há incorporação de bases, um fluoróforo é liberado, mas no caso da PacBio os sensores conseguem detectar em tempo real a reação da enzima, bem como a velocidade com a qual era realiza a incorporação (cinética enzimática). Este controle permite a detecção de alterações epigenética, como metilações em bases específicas, visto que a afinidade da enzima é alterada neste casos.

Preparo de biblioteca para sequenciador PacBio

As primeiras versões da plataformas PacBio apresentavam uma taxa de erro ~10 das leituras brutas, tornando necessário o uso de técnicas de correção de leituras usando dados de plataformas de short-read, como a plataforma da Illumina. Entretanto, melhorias no processo de detecção de base tornaram este processo desnecessário.

Oxford Nanopore

Outra plataforma de sequenciamento de terceira geração é a Nanopore, comercializada pela empresa Oxford. Esta tecnologia utiliza sequenciamento em nanoporo, que consiste na detecção da sequencia de DNA a partir da análise de um sinal elétrico gerado pela passagem de cada fragmento por um poro proteico localizado em uma camada condutor.

Sequenciador Oxford Nanopore

A sequência é lida de 5 em 5 bases, e a assinatura elétrica detectada é usada para a inferência das bases presentes. Em suas primeiras versões, algumas combinações de bases eram mais suscetíveis a erros de sequenciamento, mas ajustes realizados no algoritmo de base calling reduziram este problema.

Processo de sequenciamento realizado pelo Oxford Nanopore

O grande diferencial desta plataforma é o tamanho reduzido de seu equipamento e a capacidade de sequenciar fragmentos de DNA, em teoria, com qualquer tamanho. O equipamento também é extremamente barato em relação às plataformas de NGS, custando U$ ~1.000,00 (algo em torno de 3.7000,00), enquanto que um sequenciador Ion Torrent PGM, por exemplo, pode custar em torno de R$ 200.000,00 no Brasil.

Qual plataforma escolher?

Atualmente a plataforma Illumina domina ~75% do mercado de sequenciamento de DNA, e isso se reflete de diversidade de ferramentas e protocolos para se utilizar a partir dos dados gerados por esta tecnologia. Isso se aplica tanto ao uso acadêmico quanto na indústria de diagnóstico molecular. Um pouco mais atrás, temos também a plataforma Ion Torrent, que em certos casos acaba sendo preferida por conta da velocidade das rodadas, mas cujas análises exigem um controle de qualidade criterioso para se evitar artefatos em regiões homopoliméricas. Já a plataforma 454 foi descontinuada pela Roche, e o ABI SOLiD vem caindo em desuso por conta do seu tamanho extremamente curto de leituras (35–75 bp).

Além disso, as plataformas de terceira geração estão se tornando cada vez mais populares, e não é por acaso que recentemente a Illumina pagou mais de 1 bilhão do dólares para comprar a PacBio. Também é provável que a esta plataforma ganhe cada vez mais espaço por conta da capacidade de detectar modificações em bases, o que abre diversas portas para o estudo de eventos epigenéticos. Por fim, A rápida evolução da plataforma Nanopore também indica que em poucos anos estas tecnologias serão o padrão para certas aplicações que exigem leituras longas, como montagem de genomas ou análise de transcritos longos.

E as plataformas clássicas? Estão (praticamente) mortas?

Sequenciador de Sanger ABI 3500 Dx

Apesar do sequenciamento de Sanger não ser mais (amplamente) usado para análises de genoma completo, transcriptoma ou metagenômica, ele ainda é amplamente utilizado como técnica de rotina em biologia molecular, seja para verificar a fase de um determinado inserto em um plasmídeo, a presença de algum patógeno em uma amostra, no diagnóstico de mutações em genes específicos, dentre outras aplicações. Apesar de possuir um maior custo por base, se comparado ao NGS, o sequenciamento de Sanger ainda possui o menor custo por rodada, bem como a maior velocidade por rodada. Por conta disso, é provável que ele continua a ser utilizado em diversos procedimentos de biologia molecular nas próximas décadas.

--

--