Bancos de Dados Biológicos (Parte IV) — o Pfam

Guilherme Sousa
omixdata
Published in
9 min readApr 21, 2021

Olá pessoal! Nesta semana voltamos a dar continuidade à nossa série de posts destinados aos bancos de dados Hoje daremos prosseguimento à quarta parte da série, introduzindo o Pfam, escrito pelos alunos da Graduação do curso de Biotecnologia da Universidade Federal de Pelotas Guilherme Sousa e Kethlin Ferreira.

Sobre o PFAM

É um banco de dados de famílias de proteínas que inclui suas anotações e inúmeros alinhamentos de sequência gerados usando modelos ocultos de Markov. A versão mais recente, Pfam 33.1, foi lançada em maio de 2020 e contém 18.259 famílias.

Histórico

Em 1995 o Pfam foi fundado por Erik Sonhammer, Sean Eddy e Richard Durbin como uma coleção de domínios de proteínas de ocorrência comum que poderiam ser usados ​​para registrar os genes que codificam proteínas de organismos multicelulares. A diferença entre o Pfam e outros bancos de dados era a utilização de dois tipos de alinhamento para entradas: um alinhamento inicial menor verificado manualmente, bem como um alinhamento completo construído a partir do alinhamento de sequências pelos modelos ocultos de Markov (HMMs) de perfil construído a partir do alinhamento da sequência semente. Esse alinhamento de sementes menor foi mais fácil de atualizar à medida que novos lançamentos de bancos de dados de sequência surgiram e, portanto, representou uma solução promissora para o impasse de como manter o banco de dados atualizado conforme o sequenciamento do genoma se tornava mais eficiente e mais dados precisavam ser processados ​​ao longo do tempo.

Objetivo

O objetivo geral do banco de dados Pfam é fornecer uma classificação completa e precisa de famílias e domínios de proteínas. No início, a lógica por trás da criação do banco de dados era ter um método semiautomático de curadoria de informações sobre famílias de proteínas conhecidas para melhorar a eficiência da anotação de genomas. A classificação Pfam de famílias de proteínas foi amplamente empregada por biólogos devido à sua ampla cobertura de proteínas e convenções de nomenclatura possíveis. É usado por biólogos experimentais pesquisando proteínas específicas, por biólogos estruturais para identificar novos alvos para determinação de estrutura, por biólogos computacionais para organizar sequências e por biólogos evolucionistas rastreando as origens das proteínas. Os primeiros projetos de genoma, como o humano e a mosca, usaram o Pfam extensivamente para a anotação funcional de dados genômicos.

O site do Pfam permite que os usuários enviem sequências de proteínas ou DNA para pesquisar correspondências para famílias no banco de dados. Se o DNA for enviado, uma tradução de seis quadros será executada e cada quadro será pesquisado. Em vez de realizar uma pesquisa BLAST típica , o Pfam usa HMMs, que dão maior peso às correspondências em locais conservados, permitindo uma melhor detecção de homologia remota, tornando-os mais adequados para anotar genomas de organismos sem parentes próximos bem anotados. O Pfam também tem sido usado na criação de outros recursos, como o iPfam, que cataloga as interações domínio-domínio dentro e entre proteínas, com base em informações em bancos de dados de estruturas e no mapeamento dos domínios Pfam nessas estruturas.

Home page do Pfam

Tipos de informações armazenadas

Curadoria dos dados

O Pfam foi projetado para crescer com o número de novas sequências de proteínas depositadas. A escalabilidade é adquirida por ter um conjunto de sementes alinhadas com cada alinhamento contendo um conjunto representativo de sequências que são relativamente estáveis entre as versões da base de dados. Esses alinhamentos de sementes são então usados ​​para construir modelos ocultos de Markov (HMMs), que podem ser usados ​​para pesquisar bancos de dados de sequência por homólogos de uma forma muito sensível e precisa. Os homólogos que constam acima dos limites de inclusão selecionados são alinhados em relação ao perfil para fazer um alinhamento complet.

Entradas Pfam

As entradas do Pfam que foram identificadas como relacionadas são agrupadas em conjuntos chamados de “clãs”. Os clãs são agrupamentos de famílias que compartilham uma única origem evolutiva, conforme confirmado por comparações estruturais, funcionais e de sequência.

Para identificar possíveis relacionamentos entre os clãs, os curadores do Pfam usam informações de sequências como correspondências cruzadas, estruturas de proteínas conhecidas e comparação pelo software HMMER, que é empregado para pesquisar homólogos de sequência em bancos de dados e fazer alinhamentos de sequência, implementando os modelos probabilísticos HMMs de perfil. Ainda são utilizadas informações do ECOD (Classificação Evolutiva de Domínios de Proteínas), que é um banco de dados hierárquico semi-automatizado de famílias de proteínas com estruturas conhecidas, com famílias que mapeiam prontamente para entradas Pfam em níveis de homologia. O ECOD compila domínios ao invés de proteínas inteiras.

Em geral, as entradas de Pfam são classificadas em seis categorias diferentes, dependendo do comprimento e da natureza das regiões de sequência incluídas na entrada: família, domínio, repetições, motivos, super hélice e regiões desordenadas, conforme a figura abaixo.

Categorias de entradas do Pfam. Adaptado de: https://www.ebi.ac.uk/

A relação entre as entradas em um clã pode ser definida por:

  • similaridade de sequência;
  • similaridade de estruturas tridimensionais conhecidas;
  • similaridade funcional;
  • semelhança entre seus HMMs de perfil.

Para formação de cada clã, um subconjunto representativo de sequências é alinhado em um alinhamento de alta qualidade. As sequências para o alinhamento são retiradas principalmente do pfamseq (um banco de dados não redundante de proteomas de referência) com alguma suplementação do UniprotKB. Este alinhamento inicial é então usado para construir o HMMs de perfil usando HMMER . Esse HMMs de perfil é então pesquisado em bancos de dados de sequência e todos os resultados que atingem um limite de coleta com curadoria são classificados como membros dos clãs de proteínas. A coleção de membros resultante é então alinhada ao perfil HMMs para gerar um alinhamento completo. É importante destacar que a maioria dos clãs do Pfam são agrupamentos de domínios e famílias.

Determinação de limites

Parte do processo de construção de uma entrada envolve aparar o alinhamento completo para produzir um novo alinhamento inicial para cada rodada, um processo que inclui a determinação de limites. No Pfam é adotado abordagens diferentes para definir os limites corretos dentro do alinhamento:

  • Comparar sequências com estruturas de proteínas conhecidas;
  • Construir modelos e alterar os limites até que uma solução ótima seja encontrada;
  • Com base em informações derivadas de recursos externos, como literatura e / ou especialistas na área.

Domínios de função desconhecidas (DUFs)

Os domínios de função desconhecida representam a fração do banco de dados Pfam que desempenham um papel desconhecido e que foram encontrados conservados entre as espécies. Cada DUF descoberto é nomeado e são atualizados à medida que suas funções são identificadas. Normalmente, quando a função de pelo menos uma proteína pertencente a um DUF for identificada, a função de todo DUF é atualizada e a família é renomeada.

Significância de uma correspondência

O software HMMER que é usado para construir e pesquisar os modelos utiliza dois valores não independentes para determinar a significância de uma correspondência: a pontuação de bits e o e -value .

A pontuação de bits é uma medida que determina o quão bem uma sequência corresponde ao perfil HMM, isto é, se a sequência é homóloga ao modelo e é independente do tamanho do banco de dados. Já o e-value (valores E) determina a probabilidade de que a pontuação de bits teria sido alcançada, dado o tamanho do banco de dados, ou seja, mede o quão estatisticamente é significativa a pontuação de bits.

Exemplo de sequência Pfam demonstrando a pontuação de bits, e o e-value. Fonte: https://www.ebi.ac.uk/

Os Modelos Ocultos de Markov (HMMs)

São modelos estatísticos que podem ser aplicados em uma variedade de campos diferentes, como Bioinformática, processamento de linguagem e telecomunicações. Para a Bioinformática, esses algoritmos computacionais são usados para prever a estrutura e função de proteínas, identificar semelhanças significativas de sequências de proteínas, permitindo a detecção de homólogos e também analisar regiões específicas de sequências de DNA, como por exemplo trabalhos envolvendo as ilhas CpG. Neste caso, vamos introduzir de forma básica o uso deste algoritmo em entradas Pfam, chamados de HMMs de perfil.

Os HMMs de perfil utilizam de modelos de probabilidade que analisam a mudanças evolutivas que ocorreram em um conjunto de sequências relacionadas, ou seja, um alinhamento de sequência múltipla. Para isso, o algoritmo captura informações específicas da posição de cada aminoácido de cada coluna do alinhamento e avalia o quão conservado são estes aminoácidos. O modelo também detecta outras informações como o grau de variação da ocorrência de inserções e deleções de aminoácidos nas lacunas. Ao contrário de outros algoritmos de detecção de homologia de sequências, os HMMs de perfil usam penalidades de intervalo dependentes de posição e probabilidades de substituição que refletem melhor a realidade biológica.

HMM de perfil modelando um alinhamento de sequência múltipla. Adaptado de: https://www.ebi.ac.uk/

Outros projetos

O Pfam foi originalmente instalado em três sites espelho ao redor do mundo para preservar a redundância. Entre 2012 e 2014, o recurso Pfam foi transferido para o EMBL-EBI, o que possibilitou a hospedagem do site a partir de um domínio (xfam.org), usando datacenters independentes duplicados, o que permitiu uma melhor centralização das atualizações e agrupamento com outros projetos Xfam, como Rfam , AntiFam, TreeFam e DFam.

Rfam

O Rfam é um projeto relacionado ao banco de dados Pfam desenvolvido pelo Wellcome Trust Sanger Institute e atualmente sediado no Instituto Europeu de Bioinformática. Integra informações relacionadas à famílias de RNAs não codificantes (ncRNAs) e outros elementos de RNAs estruturados, fornecendo estruturas secundárias, alinhamentos e modelos de covariância.

Ao contrário das proteínas, os ncRNAs geralmente têm estrutura secundária semelhante, sem compartilhar muita semelhança na sequência primária. O Rfam divide os ncRNAs em famílias com base na evolução de um ancestral comum e tem como objetivo:

  • integrar os muitos alinhamentos de RNA estruturais com curadoria existentes (além de novos alinhamentos) em um formato anotado de estrutura comum, análogo aos alinhamentos de sementes com curadoria de Pfam;
  • usar software de modelo de covariância para pesquisar os bancos de dados de sequência crescente e manter alinhamentos gerados automaticamente de todos os homólogos detectáveis;
  • fornecer um sistema para analisar e anotar automaticamente sequências (incluindo sequências de genoma completas) para a presença de homólogos de RNAs estruturais conhecidos.
Homepage do Rfam

AntiFam

O AntiFam é um recurso do HMMs de perfil usado para identificar proteínas ilegítimas. Os HMMs de perfis AntiFam realiza duas formas de pesquisa:

  • Várias famílias Pfam de proteínas ilegítimas foram construídas no passado. Estas foram baseadas em previsões de genes erradas. Essas famílias de proteínas foram excluídas do Pfam e adicionadas ao AntiFam;
  • Identificação de perfis HMMs que foram criados a partir de traduções de RNAs não codificantes de ocorrência comum, como tRNAs.

TreeFam

O TreeFam é um banco de dados composto de árvores filogenéticas inferidas a partir de genomas de animais. Ele fornece previsões de genes ortólogos e parálogos, bem como a sua história evolutiva.

Homepage do TreeFam para pesquisas
Árvore filogenética do TreeFam. Para ter acesso completo, entre neste link: http://www.treefam.org/browse#tabview=tab2

Dfam

O banco de dados Dfam é uma coleção aberta de alinhamentos de sequência de DNA de elementos transponíveis a partir de modelos ocultos de Markov (HMMs) , sequências de consenso e anotações de genoma.

Homepage do Dfam

Atualizações

Foram realizadas melhorias na velocidade de atualização do banco de dados vindo na versão 24.0, com a introdução do HMMER3, que é quase 100 vezes mais rápido do que o HMMER2 e também mais sensível. Como as entradas em Pfam-A não cobrem todas as proteínas conhecidas, um complemento gerado automaticamente foi disponibilizado, denominado Pfam-B. Pfam-B continha um grande número de pequenas famílias derivadas de clusters produzidos por um algoritmo chamado ADDA. Apesar de apresentar uma qualidade menor, as famílias Pfam-B podem ser úteis quando nenhuma família Pfam-A for encontrada. O Pfam-B foi descontinuado na versão 28.0 e, posteriormente, reintroduzido na versão 33.1 usando um novo algoritmo de agrupamento, MMSeqs2. O Pfam passou por uma reorganização considerável nos últimos dois anos para reduzir ainda mais o esforço manual envolvido na curadoria e permitir atualizações mais frequentes.

Essa foi uma visão geral do que é encontrado no website e um pouco da história do banco de dados. Se você tiver alguma sugestão de post, por favor, deixe nos comentários, que iremos anotar 😃😃.

Mais informações podem ser encontradas no site do Pfam.

--

--

Guilherme Sousa
omixdata
Editor for

Biotechnologist | Master’s student at PPG in Biotechnology -Bioinformatics and Proteomics Laboratory