Aplicação da bioinformática em estudos de metagenômica voltados a saúde humana

Guilherme Sousa
omixdata
Published in
9 min readJul 21, 2021

Olá pessoal! No post desta semana vamos abordar a importância da metagenômica e bioinformática na saúde humana.

Introdução

O microbioma humano tem efeito sobre várias funções metabólicas e vem se tornando uma alternativa interessante para o diagnóstico e identificação de tratamento de doenças. Os rápidos avanços na tecnologia de sequenciamento e da biologia computacional durante a última década estimularam uma maior valorização das inúmeras maneiras pelas quais as comunidades microbianas associadas ao organismo humano influenciam na saúde e nas doenças, além de transformar a pesquisa microbiana de métodos baseados em cultura em métodos baseados em genoma, chamados de metagenômica. Nesse sentido, um crescente número de estudos têm demonstrado grande interesse no perfil diagnóstico e na manipulação terapêutica da microbiota presente no trato intestinal, pele e cavidade oral. Porém, o que é o metagenoma?

Metagenoma: o metagenoma, DNA ambiental (eDNA) ou genoma ambiental é o material genético total presente em uma amostra complexa, geralmente contendo milhares de microrganismos diferentes (ex: bactérias, fungos e vírus). A partir do metagenoma é possível estimar o conjunto e as proporções de espécies de microrganismos presentes em uma amostra, sendo este denominado microbioma.

A dinâmica e função da microbiota associada aos humanos se expandiu drasticamente com o advento do Sequenciamento de Nova Geração (NGS), especificamente ao NGS metagenômico. O Sequenciamento de Nova Geração metagenômico (abreviado como mNGS) fornece um fluxo de trabalho universal para analisar genomas microbianos em misturas de células microbianas e hospedeiras(presentes em amostras clínicas). Este desenvolvimento foi acelerado pelo aumento da disponibilidade de tecnologias NGS, protocolos de processamento de amostra simplificados e ferramentas de análise de dados mais rápidas, fáceis de usar e mais abrangentes. Graças a esses avanços, os esforços de pesquisa e diagnóstico para perfis de microbiota são agora amplamente baseados em NGS.

Estudo do microbioma antes do NGS

A identificação do perfil das comunidades microbianas sempre foi um desafio antes do surgimento da tecnologia do NGS. Os primeiros estudos de microbiomas envolvendo o intestino humano realizaram a cultura dos micróbios presentes nas amostras e as interações entre táxons microbianos co-cultivados. Contudo, essas técnicas fornecem informações apenas sobre um conjunto limitado de taxa microbiana e suas interações, falhando principalmente na entrega de informações sobre a composição de toda comunidade presente na amostra e a dinâmica que ocorre entre os táxon que compõem a comunidade total.

Metagenômica na era da tecnologia do NGS

As tecnologias de NGS são muito importantes para a exploração da composição do microbioma e suas propriedades genéticas, funcionais e metabólicas. O sequenciamento do gene 16S do RNA ribossomal (rRNA) é um dos principais métodos utilizados para identificar táxons de microrganismos presentes em uma comunidade, visto que a sequência de DNA das regiões entre as áreas conservadas do rRNA do 16S variam entre diferentes espécies bacterianas, podendo ser específicas de acordo com a espécie.

A princípio, duas metodologias de sequenciamento são usadas para estudar comunidades microbianas e que podem fornecer resultados diferentes quando usados em análises metagenômicas, como é o caso do sequenciamento de amplicons e o sequenciamento shotgun. O sequenciamento baseado em amplicons corresponde à sequência de DNA a ser amplificada usando um conjunto de primers voltados ao gene 16S do rRNA para sequências de táxons bacterianos conhecidos. Por outro lado, o shotgun envolve uma abordagem voltada para todo genoma, na qual é utilizado sequências aleatórias de DNA genômico obtidas a partir da quebra do DNA total e combinação das sequências resultantes a um banco de dados anotados de sequências conhecidas usando marcadores de genes específicos.

Aplicações da Metagenômica

O tamanho pequeno de genomas virais, bacterianos e outros microrganismos torna possível determinar toda sua composição genética. Com as tecnologias de NGS, dezenas de milhões de leituras de sequências podem ser analisadas em genomas microbianos a partir de amostras clínicas. Essa abordagem realizada para sequenciar qualquer DNA, seja do hospedeiro, microbiano e até mesmo ambiental, é chamada de sequenciamento shotgun. Esse processo é realizado a partir de uma amostragem aleatória, na qual a sensibilidade para detecção de taxas menos abundantes e a integridade das sequências são determinadas pela profundidade do sequenciamento. É importante destacar que quanto mais leituras de sequências geradas, maior será a sensibilidade para táxons menos abundantes.

Uma das principais aplicações da metagenômica é a identificação de patógenos desconhecidos. Inicialmente, sua utilização era restrita somente em casos de infecções suspeitas, quando a causa não podia ser identificada por testes convencionais. Contudo, esta análise do microbioma vêm permitindo detectar diretamente marcadores genéticos para resistência antimicrobiana(AMR). Como não requer o uso de primers específicos para sequência a ser analisada, o teste metagenômico oferece vantagens diante da alta plasticidade genética e taxas de mutação, crescimento lento e natureza de muitos patógenos. Além disso, os grandes conjuntos de dados obtidos voltados ao genótipo-fenótipo dos microrganismos combinados com Machine Learning (aprendizado de máquina) têm sido usados para prever, por exemplo, Concentrações Inibitórias Mínimas(MIC) com base nas análises do genoma.

O sequenciamento metagenômico também pode ser usado para identificar fatores de patogenicidade, permitindo a diferenciação de cepas patogênicas de não patogênicas, além da tipagem molecular de alta resolução, proporcionando o rastreamento de cepas que são transmitidas em ambientes hospitalares ou na comunidade e a diferenciação de microrganismos que podem pertencer è mesma espécie, mas que estão ligados a diferentes fenótipos.

É notório que o potencial de aplicação da metagenômica se tornou indispensável e de rápido crescimento na ciência moderna. A metagenômica não está apenas ajudando a identificar e caracterizar o microbioma intestinal humano, mas também a reconhecer e analisar novos genes e vias microbianas. Atualmente, vários estudos estão avaliando a correlação entre o microbioma do intestino humano e o estado de saúde, na qual é relatado que quaisquer alterações qualitativas ou quantitativas no microbioma intestinal podem resultar em modificações funcionais e estruturais que são capazes de levar ao surgimento de doenças.

Ferramentas computacionais na análise de dados metagenômicos

Os avanços obtidos a partir do surgimento do NGS facilitaram aos pesquisadores conduzirem o sequenciamento completo de genomas. Isso resultou na produção de conjuntos de dados massivos que são cada vez mais difíceis de analisar. A análise desses conjuntos de dados gerados é complexa e requer uma abordagem inteligente e sistemática para processar os dados de forma eficiente.

A interpretação e compreensão dos estudos metagenômicos dependem de ferramentas computacionais que são utilizadas para investigar e extrair informações valiosas e úteis sobre as comunidades microbianas em estudo. Uma série de softwares são usados para análise metagenômica, especialmente para traduzir sequências brutas em dados significativos, com o objetivo de fornecer a capacidade de examinar a composição taxonômica e funcional de diversos metagenomas. Essas tecnologias permitem analisar marcadores gênicos em conjunto com as plataformas NGS. Os softwares comumente utilizados são o QIIME2, Mothur, MEGAN, phyloseq e DADA2, sendo ferramentas econômicas e seus pipelines analíticos são amplamente aceitos. As pipelines de análise comparativa levam em consideração a facilidade de uso e de acesso, disponibilidade de código aberto, capacidade de analisar conjuntos de dados metagenômicos e fornecer representações gráficas dos dados analisados. Porém, podem carecer de informações funcionais claras e podem produzir erros na diferenciação dos táxons. Abaixo, listamos alguns softwares e suas respectivas funções em análises metagenômicas:

QIIME2: projetado para a tarefa de analisar comunidades microbianas por meio de um sequenciamento de amplicon de um gene marcador (16S ou 18S do rRNA). Em seu pipeline, o QIIME realiza pré-tratamento de qualidade de leituras brutas, calcula estimativas de diversidade, anotações taxonômicas e comparação de dados metagenômicos. Site: http://qiime.org/.

Mothur: é um software expansível de código aberto usado para a análise de qualidade de leituras para classificação taxonômica, comparação de metaperfil de genes ribossomais e cálculo de estimativas de diversidade. Site: http://www.mothur.org/

MEGAN: é uma ferramenta de interface gráfica que permite análises taxonômicas e funcionais de leituras metagenômicas. É feita uma etapa de pré-processamento, onde o conjunto de leituras de DNA (ou contigs) é comparado com bancos de dados de sequências conhecidas usando BLAST ou outra ferramenta de comparação. O MEGAN pode então ser usado para calcular e explorar interativamente o conteúdo taxonômico do conjunto de dados, empregando a taxonomia NCBI para resumir e ordenar os resultados. Site: http://ab.inf.uni-tuebingen.de/software/megan/

Phyloseq: é uma ferramenta para pré-processamento de leituras brutas, análise de diversidade e produção de gráficos. Em geral, o Phyloseq busca facilitar o uso de R para análise eficiente, interativa e reproduzível de dados de sequenciamento filogenético de alto rendimento. Site: https://joey711.github.io/phyloseq/

DADA2: é um software que infere sequências de amostra e resolve diferenças de apenas um nucleotídeo. Em várias comunidades, o DADA2 pode identificar mais variantes reais e produzir menos sequências espúrias do que outros métodos. Site:https://benjjneb.github.io/dada2/tutorial_1_8.html

HMMER3: é um software gratuito e comumente usado para análise de sequências. É baseado nos Modelos Ocultos de Markov para realizar alinhamentos de sequências, além de permitir a identificação das sequências de nucleotídeos e proteínas homólogas. Site:http://hmmer.org/

SPades: é um algoritmo de montagem de genoma que foi projetado para conjuntos de dados bacterianos de célula única e multicélulas. Portanto, pode não ser adequado para grandes projetos de genomas. O SPAdes funciona com sequenciadores Ion Torrent , PacBio , Oxford Nanopore e Illumina. Site: https://cab.spbu.ru/software/spades/

Shotgun Functionalize R: é um pacote R para a avaliação funcional de dados metagenômicos. O pacote inclui ferramentas projetadas para importar, anotar e visualizar dados metagenômicos gerados por meio de sequenciamento de alto rendimento. Site: http://shotgun.math.chalmers.se/

Além disso, existem extensões dessas tecnologias, como é o caso da metagenômica shotgun, que embora seja cara e dependente computacionalmente, é uma ótima abordagem para capturar todos os genomas microbianos dentro da amostra. Os softwares mais usados ​​para analisar dados de metagenômica shotgun incluem SPades, MEGAHIT e MetaPhlAn2. Ainda, é possível citar a metatranscriptômica, muito utilizada para avaliar o nível de expressão gênica, sendo o software comumente usado SOAPdenovo.

Análise dos dados

A precisão, integridade e qualidade dos estudos metagenômicos dependem do uso de algoritmos de classificação de sequência e dos bancos de dados de sequência de referência. É importante ressaltar que os bancos de dados de sequência de referência são o centro de testes metagenômicos significativos, precisando ser o mais completos possível, pois as sequências de referência ausentes podem levar ao surgimento de resultados falso-negativos, por exemplo (ou seja, o organismo correto não é identificado). Essa análise de dados vêm apresentando rápidos avanços na última década e os tempos de análise diminuíram de dias ou semanas para minutos ou horas, com algumas ferramentas analisando mais de 1 milhão de leituras de sequenciamento por minuto.

Inicialmente, as células microbianas mistas são coletadas de amostras de um determinado local do corpo humano, como intestino, boca ou pele. Os DNAs são extraídos das células, seguido de fragmentação e amplificação para construir a biblioteca de DNA. A biblioteca de DNA é alimentada na máquina de sequenciamento seguindo o protocolo de sequenciamento. O sequenciador produz uma grande quantidade de leituras curtas de sequenciamento. As leituras das sequências obtidas podem ser usadas diretamente ou primeiro agrupadas em contigs, que são então comparados a um banco de dados disponível para a identificação de genes específicos. A predição do gene de novo também é possível, podendo identificar motivos com inferência funcional.

É também realizada as etapas de controle de qualidade e pré-processamento. O perfil taxonômico analisa os dados contra a árvore taxonômica para obter informações sobre a composição taxonômica do microbioma. O perfil funcional envolve etapas de montagem de sequência, predição de genes, busca em banco de dados para obter um catálogo de genes no microbioma, perfis de entidades funcionais e de genes. Após essas etapas de processamento, os dados de sequenciamento são convertidos em informações sobre os elementos de composição do microbioma.

Representação ilustrativa de um sequenciamento metagenômico e processamento de dados. Disponível em: https://www.researchgate.net/figure/The-basic-outline-of-metagenomic-sequencing-and-data-processing-Mixed-microbial-cells_fig1_309080952 [acessado em 18 de julho de 2021]

Perspectivas futuras e conclusões

A partir do uso de tecnologias modernas de sequenciamento de alto rendimento, é possível realizar uma caracterização abrangente de todos os microrganismos presentes em uma amostra. À medida que as abordagens metagenômicas se tornam mais desenvolvidas e clinicamente comprovadas, espera-se que essas análises se tornem um método de diagnóstico de doenças infecciosas acessível, rápido e amplamente disponível, e que permita levar ao desenvolvimento de novos medicamentos. Nesse sentido, a metagenômica pode ser usada para identificar patógenos potenciais, tanto conhecidos quanto novos, além de pode ser usada para avaliar o estado do microbioma de um indivíduo e explorar as mudanças que ocorrem neste microbioma. Por fim, o trabalho em conjunto com ferramentas de bioinformática, vêm melhorando significativamente as análises de metagenomas, tornando viável a exploração de comunidades microbianas e a diversidade existente em habitats extremos.

Se você tiver alguma sugestão de post, ou queira que seja abordado mais tópicos relacionados à metagenômica e bioinformática, por favor, deixe nos comentários, que iremos anotar 😃😃

--

--

Guilherme Sousa
omixdata
Editor for

Biotechnologist | Master’s student at PPG in Biotechnology -Bioinformatics and Proteomics Laboratory