RNA-seq aplicado à biologia vegetal: desenho experimental

Frederico Schmitt Kremer
omixdata
Published in
7 min readJan 13, 2021

Olá pessoal! No post de hoje iremos falar sobre a técnica de RNA-seq. Este post foi escrito pelo Doutor em Fisiologia Vegetal Marcelo do Amaral (PNPD pelo Programa de Pós-graduação em Fisiologia Vegetal da UFPel) e pela Doutora em Fisiologia Vegetal Isabel Lopes Vighi (PNPD pelo Programa de Pós-graduação em Biotecnologia da UFPel). A ilustração foi feita pela aluna de doutorado em Biotecnologia Rafaela Formoso (UFPel).

As plantas por serem organismos sésseis acabam necessitando de uma notável flexibilidade em seus programas de transcrição para lidar com as exposições ambientais diárias e os desafios que enfrentam, no qual se manifestam a nível de atividade transcricional entre genes distribuídos em diferentes tipos celulares.

A técnica do RNA-Seq (sequenciamento de RNA) é uma abordagem que utiliza tecnologia de sequenciamento de nova geração (NGS) e está conduzindo análises cada vez mais rápidas, acessíveis e de alta resolução de transcriptomas de plantas por meio do sequenciamento de suas populações de cDNA (DNA complementar).

Desde que entrou no roll das tecnologias de criação de perfil de genoma há apenas alguns anos, o RNA-seq provou ser uma ferramenta poderosa com diversificadas aplicações. Dentre essas aplicações, podemos citar: a geração de dados genômicos para espécies até então não sequenciadas, expandindo assim os limites do que havia sido considerado “organismos modelo”, elucidar as redes gênicas estruturais e regulatórias, revelando como as plantas respondem aos sinais de desenvolvimento e seu ambiente, permitindo uma melhor compreensão das relações entre os genes e seus produtos, e unindo os campos “ômicos” da transcriptômica, proteômica e metabolômica em sistemas agora comuns no paradigma da biologia.

Um experimento típico de RNA-Seq consiste basicamente em isolar o RNA, convertendo-o em DNA complementar (cDNA), preparando a biblioteca de sequenciamento e o sequenciamento em uma plataforma NGS. No entanto, muitos detalhes experimentais, dependendo dos objetivos do pesquisador, devem ser considerados antes de realizar o RNA-Seq.

1) Desenho experimental

Um pré-requisito crucial para um estudo de RNA-seq bem-sucedido é que os dados obtidos possam responder às questões biológicas de interesse do pesquisador. Isto só é possível através de um desenho experimental adequado, ou seja, escolhendo o tipo ideal de biblioteca, profundidade do sequenciamento e número de repetições apropriado para o sistema biológico em estudo. Nesta seção, discutimos ambas as considerações.

2) Isolamento de RNA

A primeira etapa do sequenciamento do transcriptoma é o isolamento do RNA de um tecido vegetal. Para garantir resultados confiáveis, o RNA deve ser de qualidade suficiente para produzir uma biblioteca para sequenciamento. Portanto, o RNA de alta qualidade é uma etapa crucial para experimentos de RNA-Seq bem-sucedidos. A qualidade do RNA é normalmente medida usando um Agilent Bioanalyzer, através de uma eletroforese em gel e análise das proporções das bandas ribossômicas 28S a 18S, que produz um número de integridade de RNA (RIN) entre 1 e 10, sendo o valor 10 as amostras com menor degradação. O RNA de baixa qualidade (RIN <6), ou seja, com níveis mais elevados de degradação, pode afetar substancialmente os resultados de sequenciamento e levar a conclusões biológicas errôneas.

3) Preparo da biblioteca de sequenciamento

Após o isolamento do RNA, o próximo passo é a criação de uma biblioteca de sequenciamento, que pode variar de acordo com a espécie de RNA que desejamos estudar e entre as plataformas de sequenciamento (next-generation sequencing — NGS). A construção das bibliotecas envolve principalmente o isolamento das moléculas de RNA desejadas, a transcrição reversa do RNA em cDNA, a fragmentação ou amplificação de moléculas de cDNA e a ligação de adaptadores de sequenciamento.

Para isolar a espécie de RNA devemos escolher um protocolo de preparação de biblioteca apropriado que irá enriquecer ou esgotar uma amostra de RNA “total” para as espécies particulares de RNA que desejamos estudar. Quando realizamos uma extração de RNA total, isso inclui RNA ribossomal (rRNA), RNA mensageiro precursor (pré-mRNA), mRNA e várias classes de RNA não codificador (ncRNA). Na maioria das células, os rRNAs são responsáveis ​​por mais de 90% do RNA celular total, e portanto, precisam ser removidos antes da construção da biblioteca, para que possibilite a detecção de outros RNAs menos abundantes. Para isso, os dois protocolos mais utilizados se concentram no enriquecimento de moléculas de mRNA através da seleção de RNAs poliadenilados (poli-A). Alternativamente, podemos esgotar seletivamente o rRNA usando kits comerciais, facilitando a quantificação de espécies de RNA não codificantes que podem não ser poliadeniladas e, portanto, excluídos das bibliotecas poli-A. Após o isolamento e seleção do RNA e síntese de cDNA, os próximos passos são a ligação de adaptadores, amplificação por PCR, sequenciamento e análise.

4) Análise de dados de RNA-seq

A primeira fase consiste na geração de arquivos no formato FASTQ que contém leituras (“reads”) sequenciadas de uma plataforma NGS, posterior alinhamento dessas leituras a um genoma de referência anotado (na ausência de um genoma de referência, podemos utilizar a montagem de novo). A fase 2 quantifica o número de leituras associadas a cada gene ou transcrito (uma matriz de expressão). Este processo pode envolver um ou mais subestágios distintos de alinhamento, montagem e quantificação. Além disso, há uma terceira fase crucial em que as contagens brutas são normalizadas (TMM, RPKM e FPKM) para dar conta das diferenças técnicas entre as amostras. A fase final é a caracterização de genes diferencialmente expressos (DEGs), onde realizamos uma modelagem estatística dos grupos de amostra e covariáveis, para calcular estatísticas de confiança relacionadas à expressão diferencial (Figura 1).

A primeira etapa mais comum no processamento desses arquivos é mapear as leituras em um transcriptoma conhecido (ou genoma anotado), convertendo cada sequência obtida em uma ou mais coordenadas genômicas. Este processo tem sido tradicionalmente realizado usando ferramentas de alinhamento distintas, como TopHat, STAR ou HISAT, que dependem de um genoma de referência. Como o cDNA sequenciado é derivado de RNA, que pode abranger os limites do exon, essas ferramentas realizam um alinhamento emendado permitindo lacunas nas leituras quando comparado ao genoma de referência (que contém íntrons e éxons). Se nenhuma anotação de genoma de alta qualidade contendo limites de exon conhecidos estiver disponível, ferramentas de montagem de novo como Trinity, StringTie e SOAPdenovo-Trans podem ser utilizadas.

Uma vez que as leituras foram mapeadas para localizações genômicas ou transcriptômicas, a próxima etapa no processo de análise é atribuí-las a genes ou transcritos específicos, para determinar medidas de abundância. As ferramentas de quantificação de uso comum incluem RSEM, CuffLinks, MMSeq e HTSeq, as quais geralmente descartam leituras que são multi-mapeadas (mapeadas em mais de uma região). Os resultados da etapa de quantificação são geralmente combinados em uma matriz de expressão, com uma linha para cada característica de expressão (gene ou transcrição) e uma coluna para cada amostra, com os valores sendo contagens reais de leitura ou abundâncias estimadas.

Para estimar com maior precisão a expressão gênica, as contagens de leituras devem ser normalizadas para corrigir a variabilidade da técnica de RNA-seq, como o tamanho do fragmento da biblioteca, viés de composição de sequência e profundidade de leitura. A maioria dos métodos de normalização computacional baseia-se em duas premissas principais: primeiro, que os níveis de expressão da maioria dos genes permanecem os mesmos em grupos replicados; e segundo, que diferentes grupos de amostra não exibem uma diferença significativa nos níveis gerais de mRNA. Determinar qual melhor método de normalização pode ser difícil, porém uma opção é tentar uma análise usando vários métodos e, em seguida, comparar a consistência dos resultados. Entretanto, atualmente o método de normalização TMM, que utiliza a média aparada dos valores M (Trimed Mean of M values) para calcular os tamanhos efetivos das bibliotecas, é amplamente utilizado.

Por último, precisamos determinar quais transcritos mudaram seu nível de expressão, e existem diversas ferramentas que são utilizadas para fazer isso. Algumas realizam as contagens de expressão em nível de gene, enquanto outros contam com estimativas em nível de transcrição. As ferramentas em nível de gene normalmente utilizam contagens de leituras alinhadas e usam modelos lineares generalizados, incluindo ferramentas como edgeR e DESeq2. Ferramentas como CuffDiff, MMSEQ e Ballgown, calculam a expressão diferencial de variantes de transcritos (isoformas), entretanto tendem a exigir mais poder computacional e a variar mais em seus resultados.

Figura 1 — Fluxo de trabalho utilizando as principais ferramentas para análise de RNA-seq. Figura adaptada de Stark et al. (2019). Para maiores detalhes, acesse: https://doi.org/10.1038/s41576-019-0150-2.

Um exemplo de fluxo de trabalho para RNA-Seq está apresentada na figura 1. A análise computacional para obtenção de Genes Diferencialmente Expressos (DEGs) começa com as “reads” de sequenciamento de RNA bruto (RNA-seq) no formato FASTQ e pode seguir vários caminhos. Três fluxos de trabalho mais utilizados (A, B e C, representados pelas linhas sólidas) são dados como exemplos e algumas das ferramentas alternativas mais comuns (representadas pelas linhas tracejadas) são indicadas. No fluxo de trabalho A, softwares de alinhamento como TopHat, STAR ou HISAT2 usam um genoma de referência para mapear “reads” em localizações genômicas e, em seguida, ferramentas de quantificação, como HTSeq e featureCounts. Após a normalização, realizamos análises estatísticas usando ferramentas como edgeR, DESeq2 e limma + voom, e uma lista de genes ou transcritos diferencialmente expressos é gerada para posterior visualização e interpretação. No fluxo de trabalho B, ferramentas mais novas e sem alinhamento, como Kallisto e Salmon, montam um transcriptoma e quantificam a abundância em uma única etapa. A saída dessas ferramentas é geralmente convertida em estimativas de contagem e executada pela mesma normalização e modelagem usada no fluxo de trabalho A, para gerar uma lista de genes ou transcritos diferencialmente expressos. Alternativamente, o fluxo de trabalho C começa alinhando as “reads” (normalmente realizado com TopHat, embora STAR e HISAT também possam ser usados), seguido pelo uso de CuffLinks para processar “reads” brutas e o pacote CuffDiff2 para produzir estimativas de abundância de transcritos e uma lista de genes ou transcritos diferencialmente expressos.

Quais os próximos passos?

Bom, agora que temos em mãos a lista de genes diferencialmente expressos, os próximos passos são a utilização de programas para fazer uma análise funcional, como MapMan, Bast2GO, agriGO, KEGG, entre outros que já foram citados no post anterior!!

--

--