Bancos de Dados Biológicos (parte II): o UniProt

Frederico Schmitt Kremer
omixdata
Published in
6 min readMar 3, 2021

Olá pessoal! Nesta semana vamos dar continuidade à nossa série de posts sobre bancos de dados biológicos. No primeiro post da série apresentamos o NCBI, além de introduzirmos também alguns conceitos sobre bancos de dados biológicos, como a diferença de bancos primários e secundários. Também introduzimos o Entrez, o sistema de busca federado utilizado pelo NCBI.

Hoje vamos abordar o UniProt, o padrão de facto para obtenção de sequências e informações funcionais de proteínas. Diferente de muitos bancos do NCBI, o UniProt é um banco secundário, e, deste modo, não recebe informações diretamente, sendo ele apenas um centralizador e integrador de dados. Entretanto, o controle de qualidade e consistência das informações disponibilizadas tornam ele uma ferramenta de grande relevância para a bioinformática, sendo geralmente preferido em relação ao banco de dados de proteínas do NCBI.

História do UniProt

A primeira iniciativa de compilação de informações para sequências de proteínas foi o Atlas of Protein Sequence and Structure, criado por Margaret Dayhoff em 1965. Originalmente publicado na forma de livros, o Atlas centralizou informações de sequências, estruturas, funções e características fisico-químicas de proteínas que vinham sendo sequenciadas através de técnicas experimentais, como as descritas por Frederick Sanger e Pehr Edman, desde meados da década de 1940. Novos volumes e suplementos do Atlas foram publicadas ao longo da década posterior, ainda na forma impressa, até o ano de 1974.

Margaret Dayhoff, criadora do Atlas of Protein Sequence and Structure e “mãe” da bioinformática.

Em 1984, pouco após a morte de Dayhoff, o projeto Protein Information Resource (PIR) foi iniciado, sendo o sucessor direto do Atlas. Esta iniciativa visava prover de forma informalizada os dados originalmente contidos no Atlas, além de ferramentas para análise e comparação de sequências, muitas das quais também desenvolvidas originalmente por Dayhoff.

Ao mesmo tempo, outra iniciativa de banco de dados de proteínas surgiu na Europa. Coordenado por Amos Bairoch, o SwissProt consiste em uma coletância de sequências não-redundantes de proteínas revisadas manualmente a partir de uma ampla revisão bibliográfica. Posteriormente Bairoch disponibilizaria o SwissProt junto de muitas outras ferramentas para análise de sequências de proteínas através de uma plataforma chamada ExPASy, que foi lançada em 1993. Ao longo dos anos 90, também viria a colaborar com a criação do Swiss Institute of Bioinformatics (SIB) e do European Bioinformatics Institute (EBI).

Amos Bairoch, criador do SwissProt e do ExPASy.

O Universal Protein resource (UniProt) surgiu em 2003 como um esforço colaborativo para a centralização de informações de proteínas, tendo como membros fundadores o EBI, SIB e o PIR. A centralização das informações de proteínas em um único repositório, construído com a combinação de expertise das equipes de cada membro fundador, visava garantir uma maior cobertura de informação e também maior qualidade nos dados disponibilizados.

Curadoria

Os dados disponibilizados através do UniProt atualmente são derivados de duas fontes principais: SwissProt e TrEMBL. Os dados derivados do SwissProt (também denominados “revisados”), incluem as informações funcionais e estruturais revisadas pela equipe liderada por Bairoch (no contexto de bancos de dados biológicos, chamamos esse processo de revisão de “curadoria”).

Já os dados derivados do TrEMBL (também denominados “não revisados”) são extraídos do banco de dados ENA (European Nucleotide Archive), que recebe sequências de genes e genomas completos, incluindo aqueles também submetidos para o GenBank e DDBJ, tendo em vista que todos estas bancos são parte do International Nucleotide Sequence Database Collaboration (INSDC). Os dados de proteínas identificadas nas anotações disponibilizadas no ENA são extraídos e revisados por pipelines automáticas de controle de qualidade. Por conta da curadoria ser feita de forma automática (sem intervenção humana), os dados do TrEMBL possuem menor confiabilidade se comparados dos derivados do SwissProt.

Além de informar de qual banco cada entrada foi derivada, o UniProt informa também um annotation score, que representa o grau de evidência biológica de que aquela proteína existe e de que sua função está correta. Proteínas derivadas do SwissProt tendem a ter annotation score alto (ex: 5, que indica evidência experimental de existência e função), enquanto que as derivadas do TrEMBL tendem a ter valores mais baixos (ex: 1, que indica existência inferida apenas a partir da sequência de DNA). Um exemplo de proteína com score alto está apresentado abaixo.

Busca por Texto

A forma mais simples de se realizar consultas no UniProt é através da busca por texto, realizada na barra de busca disponível no menu superior. Quando não especificadas tags de consulta avançada, serão retornadas entradas que apresentam correspondência destas palavras em qualquer um de seus possíveis campos de texto (full text search). Esta consulta é mais simples de ser realizada, mas também costuma retornar muitas entradas não relevantes.

Por padrão, as buscas são realizadas no UniProt Knowledge Base (UniProtKB), que compreende todas as entradas disponível para sequências individuais, mas é possível também utilizar esta mesma interface para se selecionar outras bases de dados, como o UniRef, composto por clusters de proteínas que apresentam um certo grau de similaridade (ex: grupos proteínas que apresentam 95% são agrupadas em um mesmo cluster), e o UniProt Proteomes, que consiste em proteomas completos extraídos de genomas anotados.

Ao realizarmos uma consulta no UniProtKB, tanto dados derivados do SwissProt quanto TrEMBL poderão ser retornados. Na página de resultado, os dados do SwissProt são identificados com um ícone doutorado ao lado do nome da proteína com a denominação “Reviewed”, enquanto os derivados do TrEMBL recebem um ícone azul com a denominação “Unreviewed”.

O UniProt permite também a realização de consultas com palavras-chave, filtragem por campos específicos e combinação de múltiplos termos de consulta através de operadores Booleanos, de modo similar ao Entrez do NCBI.

Namespace

O UniProt utilizada um “espaço de nomes” (namespace) para organizar a disponibilização de dados de entradas de proteínas, tendo sido um dos primeiros repositórios biológicos a adotar as políticas sugeridas pelos proponentes da Web Semântica, como Tim Bernes-Lee. O namespace permite que cada entrada no UniProt seja referenciada por uma único URI (Universal Resource Identifier), composto pela URL (https://www.uniprot.org/uniprot/) e o UniProt ID de cada entrada. O URI fornece acesso a diferentes formatos de saída para uma mesma entrada, como ilustrado abaixo para a entrada da proteína Spike de SARS-Cov2 (UniProt: P0DTC2):

HTML:  
https://www.uniprot.org/uniprot/P0DTC2
FASTA:
https://www.uniprot.org/uniprot/P0DTC2.fasta
XML:
https://www.uniprot.org/uniprot/P0DTC2.xml
TXT:
https://www.uniprot.org/uniprot/P0DTC2.txt

Além disso, as próprias consultas no UniProt podem ser descritas na URL https://www.uniprot.org/uniprot/?query=Termos de busca , podendo-se informar também o número máximo (limit=) e entradas que se quer recuperar e o formato de interesse (format=). Por exemplo, Para se buscar proteínas de SARS-Cov2 ( query=taxonomy:sars-cov2) e recuperá-las em diferentes formatos é possível utilizar as seguintes URIs:

HTML:
https://www.uniprot.org/uniprot/?query=taxonomy:sars-cov2
FASTA:
https://www.uniprot.org/uniprot/?query=taxonomy:sars-cov2&format=fasta
XML:
https://www.uniprot.org/uniprot/?query=taxonomy:sars-cov2&format=xml
TXT:
https://www.uniprot.org/uniprot/?query=taxonomy:sars-cov2&format=txt

BLAST

O UniProt fornece também a busca por similaridade com uso da ferramenta BLAST, que aceita tanto sequências de proteínas (utilizando BLASTP) quanto de nucleotídeo (utilizando BLASTX). Também é possível se referenciar proteínas do próprio UniProt na consulta, passando-se o código de acesso ao invés das sequência.

Por padrão o BLAST é realizado contra o banco de dados que contêm todas as sequências do UniProt, denominado UniProtKB. Entretanto, é possível também se utilizar outros subsets, como bancos específicos para grupos taxonômicos específicos (ex: proteínas humanas).

SPARQL

Para usuários avançados, o UniProt disponibiliza também um sistema de consulta baseado em SPARQL, uma linguagem para filtragem de dados similar ao SQL. Esta tecnologia permite que as buscas cruzem dados de múltiplas fontes, desde que estas também possuam um endpoint SPARQL/RDF, como o Gene Ontology. Um exemplo de consulta escrita em SPARQL para recuperar dados de proteínas associadas a doenças e suas respectivas localizações sub-celulares está disponível abaixo:

Outras funcionalidades

O UniProt é uma base de conhecimento muito completa e é impossível cobrir todas as suas funcionalidades em um único post. Sendo assim, pretendemos dar uma maior cobertura a este banco futuramente 😃

--

--