Análise de metabolismo microbiano utilizando BlastKOALA e antiSMASH

Amanda Munari Guimarães
omixdata
Published in
7 min readMar 10, 2021

No post de hoje nós iremos apresentar pra vocês algumas estratégias de análises de metabolismo para agentes microbianos. Iremos utilizar duas ferramentas bem importantes da bioinformática: o BlastKOALA e o antiSMASH.

Para que servem análises de metabolismo?

O metabolismo é a força motriz por trás do desenvolvimento e manutenção da biosfera do planeta. Os organismos eucarióticos, como plantas e animais, normalmente dependem de moléculas orgânicas para energia, crescimento e reprodução. Os procariontes, por outro lado, podem metabolizar uma ampla variedade de matéria orgânica e inorgânica. Ou seja, o metabolismo e os metabólitos são essenciais para a manutenção da vida. Nesse sentido, as análises tanto qualitativas quanto quantitativas de metabólitos e metabolismo, têm como objetivo principal reunir a maior quantidade possível de informações metabólicas de um organismo ou sistema biológico.

Mapear os sistemas metabólicos possibilita entender diversos mecanismos e utilizar dos recursos metabólicos tanto para avaliar a diversidade biológica, entender a relação entre patógeno/hospedeiro e a doença, o papel dos microorganismos na natureza, como desenvolver de métodos moleculares para diagnóstico e controle dos microrganismos, desenvolver métodos de controle dos processos de deterioração de materiais e reciclagem de materiais.

BlastKoala

O BlastKOALA é uma ferramenta automática de anotação metabólica que implementa o blast, porém com genes presentes no banco de dados KEGG. Mas o que é anotação metabólica? O que é banco de dados KEGG? O que é blast? Como funciona o BlastKOALA?

Anotação metabólica:

Anotação de um forma geral engloba processos de identificação das regiões de DNA codificante (coding DNA sequences, ou CDSs), regiões de genes de RNAs não-codificantes (ex: tRNAs, rRNAs), proteínas e rotas metabólicas. A anotação metabólica em si consiste na identificação e atribuição de funções aos genes metabólicos, ou seja, genes que codificam enzimas e proteínas de transporte. Existem diversas ferramentas que cumprem esse propósito, no entanto nesse post vamos falar especificamente do BlastKOALA.

Caso você queira saber mais sobre anotação veja nossas publicações do tema: “Montagem de novo e anotação de genomas microbianos”.

Bando de dados KEGG:

Já o banco de dados KEGG (Kyoto Encyclopedia of Genes and Genomes) é uma ferramenta web para análise de interações moleculares baseadas em seqüências de genomas. É um banco que possui uma base de dados de vias que é divida em vias metabólicas e vias de regulação. O KEGG possue uma base de dados que conta com 18 bancos, os quais são amplamente categorizados em informações de sistemas, informações genômicas, informações químicas e informações de saúde, que são diferenciadas pela codificação de cores das páginas da web. Ou seja, cada categoria do banco possui uma cor de identificação. O maior destaque do banco de dados KEGG são as redes moleculares — redes moleculares de interação, reação e relação que representam funções sistêmicas da célula e do organismo.

Blast:

Por fim, o Blast é uma ferramenta básica de pesquisa de alinhamento local, a qual através da comparação de sequências biológicas primárias, como as sequências de aminoácidos de proteínas ou os nucleotídeos das sequências de DNA e/ou RNA realiza a busca em banco de dados que contém uma grande quantidade de informações.

Caso você queira saber mais sobre Blast, temos dois posts aqui no blog: “Entendendo o BLAST (parte I)” e “Entendendo o BLAST (parte II)”.

Como usar a ferramenta BlastKOALA:

Para acessar o web server do BlastKOALA basta clicar aqui. E você verá a seguinte interface:

O arquivo de entrada para fazer a análise com essa ferramenta é um arquivo no formato .fasta que contém sequências de aminoácidos. Vejo o exemplo do arquivo abaixo.

No caso do nosso exemplo, estamos usando um genoma anotado de bactéria. Então, o primeiro passo é fazer o upload do seu arquivo .fasta contendo as sequências de aminoácidos. Em seguida, você vai selecionar o grupo taxonômico que o organismo pertence. Existe, também, a possibilidade de você identificar esse grupo taxonômico pelo ID. Esse ID você encontra buscando o genoma desse organismo no NCBI. Nesse caso foi selecionado o grupo das bactérias, como demonstrado abaixo.

Após selecionar o grupo taxonômico, nós precisamos informar qual a base de dados que será utilizada, no nosso caso iremos utilizar a base de dados que contém informações sobre gêneros de procariotos. Veja abaixo:

Por fim, você precisa colocar um e-mail para validar a requisição do trabalho:

Após clicar em “Request for email confirmation” você ira receber o seguinte email:

Quando você clicar em “Submit” ele vai rodar o programa e o resultado será enviado para o seu email. Quando você receber o resultado da análise, você será direcionado para a seguinte página:

Cada cor representa uma categoria de grupo de rotas metabólicas mapeadas. O gráfico de pizza demosntra a distribuição de cada grupo, ou seja, conseguimos saber quais grupos de rotas estão em maior ou menor porcentagem. Além disso, podemos saber pelo “summaryquantos porcento do genoma foi anotado. Nesse caso, para esse genoma foi possível anotar 54,9% do genoma. Além disso, podemos ver que os mapeamentos funcionais com maior porcentagem nesse genoma tem relação com metabolismo de carboidratos, proteínas de sinalização e de processamento celular, e proteínas de processamento genético. Além desses dados, podemos fazer o download desses dados no formato .txt .

antiSMASH

O antiSMASH é uma ferramenta web que permite a rápida identificação, anotação e análise de genomas, a fim de identificar grupos de genes de biossíntese de metabólitos secundários. O antiSMASH utiliza os termos do GO(Gene Ontology), que é um vocabulário controlado para descrever processos biológicos, funções moleculares e componentes celulares de uma forma consistente para permitir a comparação destes entre diferentes espécies. Esse termos do GO são usados, nessa ferramente, para prever clusters de genes em eucariotos e bactérias.

Como podemos ver na imagem abaixo, o antiSMASH possui a possibilidade de três tipos de análises diferentes: análise para sequência de bacterias, análise para sequência de fungos, e análise de sequencia de plantas. No caso desse post, vamos utilizar sequência de bactérias.

Como usar a ferramenta antiSMASH:

Para acessar o web server do antiSMASH basta clicar aqui!

O primeiro passo é preencher com seu email:

O segundo passo vai ser fazer o upload das sequências a serem preditas. Para isso existem duas alternativas:

1- usar um arquivo com sequência de aminoácidos;

2- utilizar o código de acesso do genoma segundo o banco de dados do NCBI

No caso do nosso exemplo eu coloquei o código de acesso do genoma do NCBI.

Por fim, você pode selecionar features de predição extras. É sempre interessante ler a documentação do programa para pode entender o que cada configuração vai influenciar no resultado.

O resultado retorna relativamente rápido quando se trata de sequências de bactérias. No nosso exemplo, retornou o seguinte resultado:

O antiSMASH foi capaz de predizer 3 regiões de metabólitos secundários para o genoma de exemplo. Nesse caso, foram uma região para o metabólito xantoferrina, uma região para o metabólito “lankacidin C” e outra região para o metabólito xantomonadina.

Esse tipo de análise é importante pois podemos identificar metabólitos com diversas aplicação, desde identificar antibióticos, metabólitos que fazem parte do processo de patogenia, até identificar produtos interessantes para indústria de alimentos.

Esse post foi introdutório ao tema, logo mais iremos aprofundar em temas que tangem as análises metabólicas. Se você tiver alguma sugestão de post, por favor, deixe nos cometários. Será um prazer fazer um post sugerido por vocês.

--

--