Bancos de Dados Biológicos (Parte III) — o PDB

Guilherme Sousa
omixdata
Published in
13 min readMar 17, 2021

Olá pessoal! Nesta semana daremos continuidade à nossa série de posts destinados à bancos de dados biológicos. No primeiro post da série apresentamos o NCBI, além de introduzirmos também alguns conceitos sobre bancos de dados biológicos, e no segundo post foi abordado o UniProt, o padrão de facto para obtenção de sequências e informações funcionais de proteínas. Hoje daremos prosseguimento à terceira parte da série, introduzindo o Protein Data Bank (PDB), escrita pelos alunos da Graduação do curso de Biotecnologia da Universidade Federal de Pelotas Guilherme Sousa e Kethlin Ferreira.

Protein Data Bank (PDB)

O Protein Data Bank (http://www.rcsb.org/pdb/) é um arquivo mundial de dados estruturais de macromoléculas biológicas que contém informações sobre a estrutura 3D de proteínas, ácidos nucléicos e montagens complexas que ajudam alunos e pesquisadores a compreender diversos aspectos da biotecnologia e da biomedicina, desde a síntese de proteínas até a sua relação com a saúde e doenças. Esses dados são enviados por pesquisadores de todo o mundo e estão disponíveis em domínio público, podendo ser usados gratuitamente e sem limitações para todos os consumidores de dados.

É importante destacar que o PDB foi estabelecido como o primeiro recurso de banco de dados biológicos digitais de acesso aberto em toda a biologia e medicina, se tornando uma fonte global líder para obtenção de dados experimentais e para descobertas científicas. Conta com especialistas reconhecidos em áreas como, biologia estrutural, biologia celular e molecular, biologia computacional e tecnologia da informação, que atuam como consultores de dados dos arquivos recebidos no PDB.

História do PDB

Em meados de 1971, foi estabelecido no Brookhaven National Laboratories sob a liderança de Walter Hamilton um arquivo de estruturas cristalinas de macromoléculas biológicas chamado de Protein Data Bank (PDB). Entretanto, é importante ressaltar que o surgimento do PDB se deu a partir de uma reunião histórica realizada no mesmo ano no Cold Spring Harbor Laboratory, intitulada ‘’ Estrutura e função das proteínas em nível tridimensional ‘’, na qual foram descritas as primeiras estruturas 3D pelos pioneiros da biologia estrutural, bem como, proporcionou um espaço para conversas contínuas sobre o que significaria para todos os cientistas o acesso aos dados estruturais.

A partir daí, no início de sua criação, o PDB continha sete estruturas e, a cada ano, mais algumas eram depositadas. Após a morte prematura de Hamilton, Tom Koetzle começou a liderar o PDB em 1973, e depois Joel Sussman em 1994. Porém somente no ano de 1998, o Research Collaboratory for Structural Bioinformatics (RCSB), liderado por Helen M. Berman tornou-se responsável pela gestão do PDB , que vigora até hoje.

Na década de 1980, o número de estruturas depositadas começou a aumentar rapidamente, devido o aprimoramento de tecnologias voltadas ao processo cristalográfico, à adição de estruturas determinadas por métodos de ressonância magnética nuclear (NMR), além das mudanças de opiniões da comunidade sobre o compartilhamento de dados. No início da década de 1990, a maioria dos periódicos já exigia um código de acesso ao PDB e pelo menos uma agência de financiamento (National Institute of General Medical Sciences), que adotou as diretrizes publicadas pela União Internacional de Cristalografia (IUCr) exigindo a deposição de dados para todas as estruturas.

Em 2003, o modo de acesso aos dados do PDB mudou, devido ao surgimento de tecnologias melhoradas, notadamente com a disponibilidade da World Wide Web (WWW) substituindo a distribuição apenas por meio magnético. Além disso, a necessidade de analisar diversos conjuntos de estruturas exigiu o desenvolvimento de sistemas modernos de gerenciamento de dados. Inicialmente, o PDB foi limitado a um pequeno grupo de especialistas envolvidos na pesquisa estrutural e hoje, os depositantes do PDB têm experiência em variadas técnicas de determinação da estrutura cristalina de raios-X, ressonância magnética nuclear (NMR), microscopia crioeletrônica e modelagem teórica.

Helen Berman, responsável pela gestão do RCSB-PDB
Helen Berman, responsável pela gestão do RCSB-PDB

Atualmente, as estruturas e os dados experimentais são depositados e processados ​​pelos sites parceiros wwPDB na América (RCSB PDB; http://rcsb.org), Europa (PDBe; http://pdbe.org) e Japão (PDBj; http:// pdbj. org). Ainda, o BioMagResBank (BMRB) se juntou à parceria wwPDB para coletar e curar dados de NMR experimentais pertencentes às entradas do PDB. Essas subdivisões do wwPDB realizam todo processo de submissão dos dados e colaboram em todas as questões relacionadas ao arquivo, incluindo políticas de deposição e anotação, formatos, padrões de validação, requisições e procedimentos, descrição de componentes químicos, interações com revistas e atualizações semanais do arquivo.

Informações disponibilizadas no PDB

Compreender a forma de uma molécula ajuda a entender como ela funciona e esse conhecimento é fundamental para descobrir o papel de uma estrutura na saúde humana, doenças e no desenvolvimento de medicamentos. As informações disponibilizadas no portal PDB são organizadas por entradas. Nestas entradas, é possível encontrar informação nos seguintes critérios:

  1. Coordenadas 3D dos átomos: tipo de molécula (proteína, solvente ou ligante); nome do átomo; resíduo a que pertence (aminoácido); coordenadas x,y,z (em Å); B-factor (mede vibração dos átomos);
  2. Metadata acerca das condições experimentais;
  3. Estrutura secundária e quaternária;
  4. Mapeamento da densidade eletrônica.

As pastas PDB podem ser exportadas em dois formatos. O primeiro, a extensão .cif, permite exportar a informação cristalográfica. A extensão ”.cif” faz a ponte da informação incluída nas pastas PDB com softwares de visualização de moléculas. O Rasmol é um software que permite a integração da extensa informação contida nas pastas PDB e, realiza algumas funções que não seriam possíveis de se realizar manualmente, como:

  • Manipulação das coordenadas de correção da geometria molecular;
  • Visualização da estrutura tridimensional;
  • Conformação Ramachandran;
  • Análise de B-factor;
  • Análise da carga da superfície proteica.

Como realizar buscas no PDB

Busca básica: para realizar a busca simples no PDB, basta inserir o termo a ser pesquisado na barra de pesquisa superior do site. Após a inserção da palavra, o PDB mostrará sugestões em um menu suspenso, abaixo da barra de pesquisa. Essas sugestões são agrupadas de acordo com atributos referentes à palavra inserida na barra de pesquisa. Veja a imagem abaixo, um exemplo de pesquisa básica no PDB.

Busca avançada: a ferramenta de busca avançada permite que o usuário do PDB faça consultas mais específicas e complexas. As consultas baseadas em texto podem ser combinadas com pesquisas de similaridade de sequência e estrutura. Os resultados da pesquisa avançada podem apresentar uma variedade de formatos, como por exemplo, uma visualização resumida, uma visualização de galeria apenas de imagens ou em um formato de relatório. Ainda, é possível acessar a opção “Refinements” (refinamento), podendo selecionar outros critérios adicionais, permitindo com que a consulta e os resultados se tornem mais refinados. Observe a imagem abaixo, exemplificando o formato da pesquisa avançada.

Busca por sequência: na mesma ferramenta de busca avançada, Advanced Search Query Builder , é possível inserir sequências de proteínas e ácidos nucléicos para encontrar moléculas semelhantes à estas no PDB. Basta inserir a sequência FASTA na barra de pesquisa “Sequence”, ou ainda adicionar o código ID do PDB da molécula de interesse. Veja a imagem abaixo, um exemplo de pesquisa por sequência no PDB.

Processamento dos dados:

Um dos processos mais importantes para a criação do arquivo público de informações é a captura e curadoria eficientes dos dados. O processamento de dados consiste na deposição, anotação e validação de dados. Os dados que serão disponibilizados no PDB (coordenadas atômicas, estruturas proteicas e restrições de NMR) podem ser enviados por e-mail ou através da Ferramenta de Entrada AutoDep (ADIT; http: //pdb.rutgers. Edu / adit /) desenvolvido pelo RCSB. A ferramenta ADIT é construída sobre o dicionário mmCIF, que é um formato padrão de 1700 termos usado pelo Protein Data Bank que definem a estrutura macromolecular e as informações cristalográficas, além da utilização de um programa de processamento de dados denominado MAXIT (Macromolecular Exchange Input Tool). A integração desses sistemas permite assegurar que os dados enviados sejam consistentes com o dicionário mmCIF, que define os tipos de dados, enumera intervalos de valores permitidos quando possível e descreve os relacionamentos permitidos entre os valores dos dados.

Após o depósito da estrutura usando os sistemas citados , um identificador PDB é enviado ao autor dando início ao processo de carregamento das estruturas no banco de dados. Diante disso, a ferramenta ADIT auxilia no diagnóstico de erros ou inconsistências nos arquivos, além de passar por um processo de revisão das informações recebidas. Depois dessas etapas realizadas, ocorre a entrada do arquivo no banco de dados do núcleo interno, estando prontas para distribuição.

Os dados coletados pelo PDB são considerados primários, que contém, além das coordenadas, informações gerais necessárias para todas as estruturas depositadas e informações específicas para o método de determinação da estrutura. Geralmente as informações enviadas sofrem alterações à medida que novos métodos de coleta de dados, determinação da estrutura e refinamento evoluem.

Validação dos dados:

Após a etapa de processamento dos dados, ocorre o procedimento de validação das estruturas depositadas para avaliar se esses modelos se ajustam aos dados experimentais (validação experimental).O PDB valida as estruturas usando padrões aceitos pela comunidade como parte do sistema integrado de processamento de dados da ADIT. Abaixo, veremos algumas verificações realizadas pelo PDB para validação dos dados depositados:

  1. Validação estereoquímica: Todos os centros quirais de proteínas e ácidos nucléicos são verificados quanto à sua estereoquímica correta.
  2. Nomenclatura do átomo: A nomenclatura de todos os átomos é verificada conforme os padrões da União Internacional de Química Pura e Aplicada (IUPAC).
  3. Ligantes e nomenclatura de átomo: Resíduos e nomenclatura do átomo são comparados com o dicionário PDB (ftp://ftp.rcsb. Org / pub / pdb / data / monomers / het_dictionary.txt) para todos os ligantes, bem como resíduos e bases padrão. Grupos de ligantes não reconhecidos são identificados e as discrepâncias aparentes em ligantes conhecidos são listadas como átomos extras ou ausentes.
  4. Distância entre os átomos: Determina as distâncias entre todos os átomos dentro da unidade assimétrica das estruturas cristalinas. Para estruturas cristalinas, os contatos entre moléculas relacionadas à simetria também são verificados.
  5. Comparação de sequências: As sequências depositadas no registro SEQRES( registro que contém a sequência de aminoácidos ou ácidos nucléicos em cada cadeia da macromolécula que foi depositada) do PDB é comparada com a sequência derivada dos registros de coordenadas. Nesta informação é disponibilizada uma tabela onde todas as diferenças ou resíduos ausentes são marcados. Durante o processamento da estrutura, as referências do banco de dados da sequência fornecida pelo DBREF e o registro SEQADV são verificadas quanto à precisão. O registro DBREF(Data Base Reference) fornece links de referência cruzada entre as sequências do PDB e as entradas correspondentes do banco de dados. Já o registro SEQADV identifica conflitos entre as informações de sequência nos registros SEQRES da entrada do PDB e a entrada do banco de dados da sequência fornecida pelo DBREF. Se nenhuma referência for fornecida, uma pesquisa no BLAST é usada para encontrar a melhor correspondência. É importante destacar que qualquer conflito entre os registros SEQRES do PDB e a sequência derivada dos registros de coordenadas é resolvido por comparação com vários bancos de dados de sequência
  6. Cálculo de Distância das Águas: São calculadas as distâncias entre todos os átomos de oxigênio da água e todos os átomos polares (oxigênio e nitrogênio) das macromoléculas, ligantes e solvente na unidade assimétrica. Átomos de solventes distantes são reposicionados usando simetria cristalográfica de modo que eles caiam dentro da esfera de solvatação da macromolécula.

Métodos de determinação das estruturas

Atualmente, diversos métodos são utilizados para determinar a estrutura de proteínas, como espectroscopia de ressonância nuclear magnética (NMR), cristalografia de raio-X, microscopia eletrônica 3D e modelagem integrativa. Para construção desses modelos a partir dessas metodologias, também é necessário um conhecimento adicional sobre a estrutura molecular, como por exemplo a sequência de aminoácidos que compõem a proteína e também geometria preferida dos átomos desta proteína (por exemplo, os comprimentos e ângulos das ligações). Essas informações permitem que o pesquisador construa um modelo estrutural consistente tanto com os dados experimentais quanto com a composição e geometria esperadas da molécula. Abaixo, veremos como funciona cada um deles.

Espectroscopia NMR: é uma técnica que explora as propriedades magnéticas de certos núcleos atômicos para determinar propriedades físicas ou químicas de átomos ou moléculas nos quais eles estão contidos. A proteína é purificada, colocada em um forte campo magnético e, em seguida, sondada com ondas de rádio. Um conjunto distinto de ressonâncias observadas pode ser analisado para fornecer uma lista de núcleos atômicos próximos uns dos outros e para caracterizar a conformação local de átomos que estão ligados entre si. Essa lista de restrições é então usada para construir um modelo da proteína que mostra a localização de cada átomo. A técnica está atualmente limitada a proteínas pequenas ou médias, uma vez que proteínas grandes apresentam problemas com picos sobrepostos nos espectros de NMR. Uma grande vantagem da espectroscopia de NMR é que ela fornece informações sobre proteínas em solução, sendo o principal método para estudar as estruturas atômicas de proteínas flexíveis.

Determinação da estrutura tridimensional completa do inibidor Tendamistato de Alfa-amilase por NMR(PDB:2AIT)

Cristalografia de Raio-X: neste método, a proteína é purificada e cristalizada, sendo submetida posteriormente a um intenso feixe de raios-X, na qual as proteínas em cristal difratam os feixes de raios-X que são analisados para determinar a distribuição de elétrons da proteína. O mapa resultante da densidade do elétron é utilizado para determinar a localização de cada átomo. A maioria das estruturas incluídas no arquivo PDB foram determinadas usando cristalografia de raios-X. Essa técnica é capaz de fornecer informações atômicas muito detalhadas, mostrando cada átomo em uma proteína ou ácido nucléico junto com detalhes atômicos de ligantes, inibidores, íons e outras moléculas que são incorporadas ao cristal. É importante destacar que a cristalografia de raios-X é um método muito utilizado para proteínas rígidas, pois formam cristais bonitos e ordenados; já as proteínas flexíveis se tornam mais difíceis de determinar sua estrutura por esse método porque a cristalografia depende de moléculas alinhadas exatamente na mesma orientação. Destaca-se ainda que a precisão da estrutura atômica depende da qualidade desses cristais.

Estrutura de cristal de uma porção do DNA através da cristalografia de raios-X.(PDB:196D)

Microscopia Eletrônica 3D: neste método é utilizado um feixe de elétrons e um sistema de lentes que dão origem a sinais que são captados por diferentes detectores, fornecendo informações características sobre a amostra que são usadas para obter a imagem da biomolécula. A técnica comumente usada nesta abordagem envolve o uso de imagens com milhares de partículas únicas e diferentes preservadas em uma fina camada de gelo não cristalino (microscopia crioeletrônica-Crio-EM).Assim, as visualizações mostram a molécula em diferentes orientações , produzindo um mapa 3D de densidade de massa. Com um número suficiente de partículas únicas, os mapas 3DEM podem então ser interpretados ajustando-se um modelo atômico da macromolécula.

Modelo da estrutura da glutamato desidrogenase obtida por microscopia eletrônica 3D pela abordagem Crio-EM (Fonte:http://nobelprize.org/).

Modelagem Integrativa: nesta alternativa, é feita uma combinação de informações de uma variedade de métodos, cada um com aspectos particulares do sistema, criando uma visão mais completa e complexa da montagem. Um exemplo de modelagem integrativa é a combinação de dados espectroscópicos e de reticulação química, permitindo a identificação de distâncias entre componentes na montagem. Além dos métodos tradicionais, como cristalografia de raios-X, espectroscopia de NMR e microscopia eletrônica, métodos experimentais como espalhamento de solução de pequeno ângulo, transferência ressonante de energia por fluorescência (tipo Forster), reticulação química, espectrometria de massa e espectroscopia de ressonância paramagnética eletrônica têm sido utilizados em estudos de modelagem integrativa.

Modelo Integrativo da Estrutura de um complexo de poros nucleares(PDBDEV_00000012)

Visualização no PyMOL

O PyMOL é um software de computador para visualização molecular, que possibilita a produção de imagens 3D de moléculas e macromoléculas biológicas, como por exemplo as proteínas. Assim se torna uma ferramenta para a visualização das moléculas disponibilizadas no PDB.

Para realizar a visualização no PyMOL é necessário fazer download do programa e em sua própria interface navegar pelas pastas do computador até localizar os arquivos .pdb desejados. Para abrir o arquivo PDB, basta acessar na barra de ferramentas a opção Arquivo => Abrir na barra de menu. A estrutura da proteína aparecerá, provavelmente representada como simples linhas de ligação. Assim, o arquivo que o PyMOL renderiza em 3D é carregado de coordenadas que descrevem (em grande detalhe) localizações de átomos individuais na molécula. Para moléculas quimicamente distintas que irão compor a entrada do PDB, incluindo proteínas, ácidos nucléicos e ligantes, ficarão destacadas, sendo que cada uma delas recebe uma cor única.

Ainda, o software fornece um painel de controle para ajustar os modos de exibição, cores, rótulos, ocultação e praticamente qualquer outra coisa relacionada ao arquivo. Abaixo estão listados os botões contidos no painel de controle e algumas de suas opções:

AActions : renomear, duplicar, remover, aplicar predefinições e realizar cálculos.

SShow : altera a forma como as coisas aparecem, por exemplo, altera para a visualização stick ou cartoon.

HHide : é o oposto de S e oculta representações indesejadas.

LLabel : rótulo de átomos, resíduos, etc.

CColor : altera a cor dos átomos e grupos.

Visualização do arquivo.pdb pelo software PyMOL

Outra forma de realizar essa busca é através da linha de comando PyMOL> que pode ser acessada com a tecla [tab] na janela de ferramentas do programa. A linha de comando PyMOL é uma ótima ferramenta que permite ao usuário experiente alterar todos os tipos de opções que simplesmente não aparecem na interface gráfica do software, podendo ser uma alternativa muito mais rápida realizar . Combinado com scripts, é uma opção poderosa para automatizar tarefas e fazer conjuntos complexos de alterações.

Você pode acessar também o post Visualização da estrutura de proteínas: introdução ao PyMOL feito aqui no blog do omixdata para maiores informações sobre as ferramentas e funções do software.

Essa foi uma visão geral do que é encontrado no website e um pouco da história do banco de dados. Por ser uma ferramenta muito completa, é impossível cobrir todas as suas funcionalidades em um único post. Sendo assim, pretendemos dar uma maior cobertura a este banco futuramente.

Se você tiver alguma sugestão de post, por favor, deixe nos comentários, que iremos anotar 😃😃.

Mais informações podem ser encontradas no site do PDB.

--

--

Guilherme Sousa
omixdata
Editor for

Biotechnologist | Master’s student at PPG in Biotechnology -Bioinformatics and Proteomics Laboratory