Bancos de Dados Biológicos (parte I): o NCBI

Giuli Marques
omixdata
Published in
6 min readFeb 24, 2021

Olá pessoal! Hoje iniciamos uma nova série de posts com foco em bancos de dados biológicos. O foco deste primeiro post é o NCBI, um site que abriga diversos bancos de dados além de um sistema de buscas unificado entre os mesmos, o Entrez.

O que são bancos de dados?

Bancos de dados (BD) são estruturas de dados que armazenam informação de forma organizada. Esses dados se relacionam de forma a criar algum sentido e dar mais eficiência durante uma pesquisa ou estudo cientifico.

Bancos de dados biológicos

Os bancos de dados biológicos (BDB), da mesma forma que os BD, armazenam dados visando relacioná-los e tornar mais eficiente a manipulação dos mesmos. A diferença se dá no tipo de dado que é armazenado: BDB armazenam dados biológicos, em sua maioria derivados de experimentação.

Figura 1. Tipos de bancos de dados biológicos.

Os bancos de dados biológicos podem ser divididos em três categorias, como demonstrado na figura acima:

Primários — São BDs que não foram curados e analisados minuciosamente, podendo apresentar redundância de informações. Exemplos dessa categoria são: GenBank e Protein Data Bank (PDB).

Secundários — São BDs que receberam curadoria, apresentando dados não redundantes e de maior confiabilidade. Exemplos dessa categoria são: Swiss Prot e Protein Information Resources (PIR).

Especializados — São BDs que focam em pesquisas específicas, como BDs que somente possuem informações de um organismo ou dados de um mesmo tipo. Exemplos dessa categoria são: Ribosomal Database Project (RDP), Interferome e The Cancer Atlas.

National Center for Biotechnology Information (NCBI)

O NCBI é uma divisão da Biblioteca Nacional de Medicina (NLM, do inglês National Library of Medicine), pertencente ao Institutos Nacionais da Saúde (NIH, do inglês National Institutes of Health). A instituição foi fundada em 4 de novembro de 1988, como resultado do projeto de lei proposto pelo então senador Claude Pepper.

Figura 2. À esquerda, Claude Pepper, ex-senador dos Estados Unidos e criador do projeto de lei que deu origem ao NCBI; à direita, Walter Goad, pesquisador no Laboratório Nacional de Los Alamos (LANL) e criador do GenBank.

Em 1979, Walter Goad e colaboradores criaram o banco de dados de Los Alamos (Los Alamos Sequence Database), que em 1982 deu origem ao GenBank. A criação do GenBank foi financiada pelo NIH, pela Fundação Nacional da Ciência (NSF, do inglês National Science Foundation), pelo Departamento de Energia e pelo Departamento de Defesa. De 1989 à 1992, o projeto do GenBank transicionou para o NCBI.

Figura 3. Breve linha do tempo do NCBI. Uma versão mais detalhada do histórico pode ser vista aqui.
Figura 4. Página inicial do site do NCBI.

O website do NCBI, criado em 1994, pode ser acessado através do link: https://www.ncbi.nlm.nih.gov/. Ele é de uso gratuito e acolhe diversos BDBs, separados por categorias:

Literature — Repositório de textos médicos e científicos, possuindo livros, artigos na integra (gratuitos e restritos), entre outros. Um dos bancos mais utilizados dessa categoria é o PubMed Central, o qual abriga artigos completos.

Genes — São encontradas sequências gênicas e anotações para estudo de estrutura de ortólogos, expressão e evolução nessa categoria.

Proteins — Apresenta dados como sequências proteicas, estruturas tridimensionais (3D) e domínios proteicos.

Genomes — Possui bancos de assemblies de sequências genômicas, dados de genômica funcional em larga escala e origem de amostras biológicas. Um dos principais bancos dessa categoria é o Nucleotide, que tem o GenBank como um dos seus principais componentes.

BLAST — É uma ferramenta que realiza consultas em diferentes bancos de dados, como Nucleotide, Protein e SRA. Falamos mais sobre o BLAST e seu funcionamento nessa série de posts.

Clinical — São encontrados bancos com variantes de DNA herdáveis, associações com patologias humanas, além diagnósticos e tratamentos clinicos. São bancos bastante utilizados dessa categoria o dbSNP, que reúne dados de variações de nucleotídeos únicas, micro-satélites e pequenas inserções e deleções, e o ClinVar, que reúne dados de variação genômica e sua relação com a saúde humana.

PubChem — Repositório de informações químicas, rotas metabólicas e ferramentas para screening de atividade biológica.

Figura 5. Visão geral dos Bancos de Dados Biológicos disponíveis através do site do NCBI.

O Entrez

O principal diferencial do NCBI é que ele possui a ferramenta Entrez, que é um sistema de busca federado. Ele permite que sejam realizadas buscas com a mesma query em todos bancos de dados do sistema. Para a realização desta busca, deve ser utilizada uma síntaxe apropriada, que consta de:

“palavra-de-busca” [campo] <operador lógico> “palavra-de-busca” [campo] …

Palavra-de-busca demonstra a palavra ou frase a ser procurada naquele campo específico. Se você está procurando um trabalho pelo título, esse é o local para escrever o título. A palavra-de-busca não necessita obrigatoriamente estar entre aspas, porém é indicado que se realize a busca dessa forma.

Campo demonstra o campo onde a palavra-de-busca deve ser pesquisada. Ele deve ser informado entre colchetes, como no exemplo, e deve seguir a recomendação da ferramenta, que pode ser conferida aqui. Por exemplo, para pesquisar pelo nome do autor, utiliza-se [AUTH].

O operador lógico deve ser informado sem a adição de <> e deve ser escrito em caixa alta. Alguns dos mais utilizados são AND, OR e NOT.

Outras ferramentas

Além das consultas em bancos de dados, o NCBI possui diversas ferramentas para auxiliar em pesquisas. Além do BLAST e do Entrez, que já foram mencionados anteriormente, existem outras ferramentas bastante utilizadas, como:

CD Search (Conserved Domain Search Service) — É utilizado para busca de domínios em uma sequência proteica.

Genome workbench — É uma aplicação integrada para visualização e análise de sequências. É interessante mencionar a possibilidade de realizar análises com dados públicos e também com dados próprios.

Genome Data Viewer — Visualizador de informações genômicas, sendo possível procurar genes e ver relações filogenéticas, por exemplo.

Primer-BLAST — Utiliza o Primer3 e o BLAST para desenho de primers para PCR, utilizando uma sequência como modelo para criação dos primers.

ProSplign / Splign — O ProSplign realiza alinhamento de proteinas com sequências genômicas, enquanto o Splign realiza o alinhamento de sequências de cDNA. Devido ao algoritmo utilizado, essas ferramentas conseguem predizer sítios de splice e toleram pequenos erros na sequência.

PubChem Structure Search — Através dessa ferramenta é possível pesquisar compostos quimícos no banco de dados do PubChem Compound através de estruturas químicas ou fórmula molecular, por exemplo.

Taxonomy Browser — Permite pesquisar em árvores taxonômicas utilizando nomes taxonomicos parciais, nomes comuns, entre outros. Para cada nodo, são informados os dados relacionados encontrados no Entrez.

Vector Alignment Search Tool (VAST) — Utilizado para identificação de estruturas 3D similares.

Submissões

O NCBI possui um portal de submissões, onde as informações de submissão ficam centralizadas. Para diferentes tipos de dados, existe uma ferramenta correta para realizar a submissão. Uma das ferramentas mais utilizadas para submissão é o BankIt, que é utilizado para adicionar informações ao GenBank.

Figura 6. Página inicial do portal de submissões do NCBI, apresentando a ferramenta de auxílio para submissão.

Nesta versão do website, é possível digitar o tipo de sequência que se quer depositar e é retornada a ferramenta adequada para realizar aquela submissão. Na página da ferramenta, existem informações do que será pedido durante o processo, além das normas para a submissão, como formato do arquivo, por exemplo.

Nesse post falamos sobre o que são banco de dados e suas diferenças com bancos de dados biológicos e sobre o NCBI. Essa foi uma visão geral do que é encontrado no website e um pouco da história da instituição. Fiquem ligados nos próximos posts da série para descobrirem outros bancos de dados e instituições que forneçam acesso à eles.

--

--

Giuli Marques
omixdata

Técnica em química, pelo IFSUL. Biotecnologista, pela UFPEL. Mestranda do PPGBiotec na UFPEL.