Entendendo o NGS (parte 2): bibliotecas de sequenciamento

Frederico Schmitt Kremer
omixdata
Published in
7 min readAug 4, 2019

Este é o segundo artigo de uma série que estou escrevendo sobre as tecnologias de sequenciamento de DNA de nova geração (next generation sequencing, ou apenas “NGS”). No primeiro artigo falei sobre as diferentes gerações de sequenciadores e as suas respectivas plataformas. Agora, vou explicar os diferentes tipos de bibliotecas de sequenciamento que podem ser utilizadas nestas plataformas, com foco nas de segunda e terceira geração.

O que são bibliotecas de sequenciamento?

O termos biblioteca de DNA (DNA library), ou biblioteca de sequenciamento, foi amplamente utilizado em biologia molecular para se referir a coletâneas de fragmentos de DNA de origem genômica, transcriptômica ou metagenômica que são propagados através de vetores biológicos, como plasmídeos, cosmídeos, cromossomos artificiais de bactérias (“bacterial artificial chromosomes”, BACs), cromossomos artificiais de leveduras (“yeast artificial chromosomes”, YACs), dentre outros. Cada tipo de vetor de clonagem possui uma capacidade de “tamanho de inserto”, ou seja, podem receber um determinado tamanho de fragmento de DNA. Geralmente plasmídeos permitem inserto de < 10 Kb, enquanto que YACs podem permitir ~1 Mb. No começa dos trabalhos com ciências ômicas, a construção destas bibliotecas era um processo necessário pois apenas 96 amostras de no máximo 1 Kb poderiam ser sequenciadas por vez em um equipamento, e muitas vezes poderia ser necessário se re-sequenciar um fragmento específico.

Os diferentes tipos de bibliotecas poderiam ser combinados em estratégias como o sequenciamento shotgun hierárquico (hierarchical shotgun), que consiste em inicialmente fragmentar o genoma em porções maiores e às clonar em BACs ou YACs, e posteriormente derivar destes fragmentos bibliotecas de plasmídeos que poderiam ser então sequenciadas. Apesar de extremamente trabalhosa, esta estratégia garantia uma maior rastreabilidade das sequências do genoma que estavam sendo sequenciadas e facilita o processo de montagem. No caso dos primeiros projetos genomas, por exemplo, metodologias de construção hierárquica permitiam que os milhares de fragmentos fossem distribuídos entre os vários centros de pesquisa que colaboravam com o projeto, e que os resultados dos diferentes fragmentos fossem montados região por região. Esta abordagem se contrasta com a metodologia de sequenciamento shotgun tradicional (whole-genome shotgun), onde a clonagem é feita diretamente em plasmídeos, e o processo de montagem é realizado usando todos os fragmentos de uma só vez.

Diferenção no processo de montagem por sequenciamento shotgun hierárquico (hierachical shotgun) e sequenciamento shotgun (whole-genome shotgun)

Com o advento do sequenciamento de nova geração, o uso de plasmídeos e outros vetores no processo de sequenciamento se tornou desnecessário, e o termo biblioteca passou a se referir ao resultado do processo de preparo do DNA, e não à uma forma de realizar o seu armazenamento ou propagação.

Métodos de fragmentação do DNA

O processo de preparo de bibliotecas geralmente inicia com a fragmentação do DNA. Com exceção da plataforma Oxford Nanopore, que virtualmente não tem limite de tamanho de fragmento, todas outras plataformas, independente da geração, possuem um intervalo de tamanho de fragmento suportado pelos seus protocolos.

Diferentes metodologias podem ser utilizadas para fragmentar o DNA, sendo estas divididas em métodos físicos e métodos químicos (ou enzimáticos).

  • Métodos físicos de fragmentação (ex: sonicação e nebulização).
  • Métodos químicos (ex: enzimas de restrição).

O processo de fragmentação deve ser o mais aleatório possível, e por conta disso os protocolos de degradação enzimática devem ser desenhados com certo cuidado. Como enzimas de restrição apresentam especificidade por determinadas sequências do genoma, é necessário se combinar diferentes enzimas e ajustar o protocolo para que o tempo de digestão seja abaixo do tempo ótimo para a degradação de cada uma. Além disso, dependendo do conteúdo CG da amostra de interesse, os parâmetros do procedimento, seja ele físico ou químico, também devem ser ajustados. Por conta das diferenças nas pontes de hidrogênio no pareamento de bases, enquanto sequências ricas am AT tendem a ser super-fragmentadas, regiões ricas em CG tendem a ser sub-fragmentadas, e isso pode afetar a cobertura destas regiões em sequenciamentos de genomas ou o número de reads geradas a partir de transcritos em análises de RNA-Seq.

Tipos de bibliotecas de segunda geração

As bibliotecas de sequenciamento de segunda geração são geralmente classificadas em single-end, paired-end e mate-pair. Uma representação das características destas bibliotecas está apresentada abaixo.

Diferença entre bibliotecas single-end, paired-end e mate-pair

Bibliotecas de fragmentos (single-end)

As bibliotecas do tipo single-end resultam no sequenciamento de apenas uma das extremidades do fragmento de DNA, sendo a metodologia mais simples e barata. Esta abordagem é utilizada por padrão nas plataformas Ion Torrent, SOLiD, e é suportada por todas as demais plataformas de sequenciamento de primeira e segunda geração. No caso da Illumina, com o barateamento do sequenciamento paired-end, o sequenciamento single-end passou a ser utilizado apenas em casos onde o não há vantagens no uso de leituras pareadas, como na análise de miRNAs.

Bibliotecas de extremidades pareadas (paired-end)

Nesta abordagem duas leituras são produzidas para cada fragmento de DNA sequenciado, uma referente à fita forward e outra à fita reverse. Para isso, o processo de sequenciamento é realizado em duas etapas, sendo em cada uma utilizado um primer específico para cada fita.

Em referência às metodologias de sequenciamento clássico, o fragmento de DNA em leituras paired-end é geralmente chamado de inserto, tendo geralmente tamanho < 1 Kb. Enquanto o tamanho das leituras é geralmente fixo, o tamanho do fragmento pode variar dentro de um certo intervalo. Deste modo, dependendo do protocolo, é possível haver uma espaçamento entre as leituras, ou sobreposição parcial.

O sequenciador identifica que as leituras pertencem a um mesma fragmento e às vincula a um mesmo ID. Nas plataformas Illumina, por exemplo, após o processo de base-calling, as leituras referentes à fita forward são armazenadas no em arquivos “R1”, enquanto que as referentes à fita reverse são colocadas em arquivos “R2”. A ordem dos fragmentos é a mesma em ambos arquivos. Alternativamente, alguns sequenciadores armazenam as leituras de ambas extremidades em um mesmo arquivo, intercalando as leituras forward e reverse.

A principal vantagem do uso de bibliotecas paired-end é na montagem de novo, onde a informação de conexão entre as leituras podem ser utilizada para a produção de scaffolds (como indicado na figura abaixo), ou para o fechamento de gaps. Além disso, esta estratégia permite se contornar em parte que as limitações de tamanho de fragmentos de algumas plataformas de sequenciamento através do processo de merging das leituras. Leituras pareadas também pode ser usadas em análises de alterações estruturais do genoma, e também para identificar erros de montagem.

Scaffolding usando leituras pareadas

Quando em alguns protocolos podem haver uma sobreposição entre as leituras pareadas, é possível realizar um processo de merging com ferramentas como o PEAR, resultando em pseudo-leituras maiores. Esta abordagem é particularmente útil em análises de microbioma 16S, onde leituras maiores garantem maior capacidade de discriminação entre as OTUs.

As bibliotecas paired-end são a metodologia padrão para sequenciamento com a plataforma Illumina, e também foram suportadas pela plataforma 454.

Bibliotecas de salto cromossômico (mate-pair)

Outro tipo de biblioteca com leituras pareadas é a mate-pair. Neste caso, o tamanho do inserto é expressivamente maior que o utilizada em bibliotecas paired-end, podendo ter vários Kb de extensão. Entretanto, estes fragmentos não podem ser usados diretamente nas plataformas de sequenciamento, sendo necessário realizar etapas de circularização e digestão do DNA para unir as extremidades e então sequenciar apenas as pontas. Apesar dos fragmentos de DNA originais terem alguns Kb em tamanho, o tamanho das leituras geradas varia entre 30 e 100 bp dependendo da plataforma e protocolo.

Diferentes metodologias de construção de bibliotecas mate-pair

As bibliotecas do tipo mate-pair são conceitualmente similares às bibliotecas paired-end tags (PET) e chromosome jump utilizadas antigamente em projetos genoma baseados em método de Sanger. É uma abordagem útil para construir scaffolds em genomas de organismos complexos, com grande conteúdo de regiões repetitivas, mas a complexidade dos protocolos de sequenciamento torna os kits de reagentes extremamente caros, e com custo injustificável para boa parte das análises de dia-dia.

A abordagem mate-pair é suportada pelas plataformas Illumina, Ion Torrent, 454 e SOLiD, com pequenas variações de protocolo entre elas.

Bibliotecas de terceira geração

Pelo fato das tecnologias de sequenciamento de terceira geração serem capazes de produzir leituras longas, muitas vezes maiores que os próprios fragmentos usados em bibliotecas mate-pair, os protocolos de sequenciamento de segunda geração baseados em leituras pareadas se tornam desnecessários. Entretanto, as plataformas Oxford Nanopore e PacBio permitem realizar o sequenciamento de ambas as fitas dos fragmentos de modo a reduzir o erro na identificação de bases.

No caso da plataforma Oxford Nanopore, é possível realizar o sequenciamento com as metodologias “1D” e “2D”. O sequenciamento 1D consiste na análise de apenas uma das fitas de DNA, o que torna o processo mais rápido e o protocolo de preparo mais simples e barato, enquanto que no 2D as duas fitas são lidas pelo equipamento, o que torna o processo mais demorado mas a sequência final com maior confiabilidade. Já a plataforma PacBio utiliza exclusivamente a sua própria metodologia de leitura 2D, denominada CCS (circular of consensus sequence).

Representação da uma CCS de PacBio gerada a partir do consenso entre as leituras de ambas as fitas

--

--