Alessandra Neis
omixdata
Published in
6 min readOct 2, 2019

--

REFINAMENTO E ANÁLISE DE QUALIDADE DE ESTRUTURAS MODELADAS

DEPTH Server

Olá pessoal! Dando continuidade aos assuntos relacionados à modelagem de proteínas, iremos falar sobre o refinamento e análise de qualidade das estruturas que foram modeladas. Para a modelagem de proteínas, você pode conferir aqui o post anterior.

Após a obtenção da estrutura tridimensional da proteína de interesse, é imprescindível avaliar sua qualidade. Esta é uma etapa necessária tanto para utilizar essa estrutura em outras análises quanto para sua inspeção visual ou relato de modelagem da estrutura. O refinamento de modelos 3D geralmente ajuda a aproximá-los das estruturas nativas, modificando as unidades secundárias da estrutura e reestruturando as cadeias laterais.

Normalmente, o refinamento dos modelos 3D envolve dois estágios principais: amostragem e pontuação. Para um refinamento bem-sucedido as abordagens de amostragem devem ser capazes de gerar pelo menos alguns modelos 3D alternativos mais próximos da estrutura nativa do que o modelo inicial. Estes devem então ser pontuados com precisão, para facilitar a identificação daqueles que estão mais próximos da estrutura nativa.

Refinamento

Duas abordagens amplas são usadas no estágio de amostragem: os programas baseados em servidor totalmente automatizados ou não baseados em servidor, como as simulações de dinâmica molecular (também conhecido como manual). As abordagens baseadas em servidor são práticas, pois geralmente se baseiam na utilização do conhecimento de estruturas de proteínas, particularmente nas interações específicas entre resíduos e átomos, e requerem menos esforço computacional. Esses métodos geralmente se utilizam da otimização da cadeia lateral e minimização de energia.

Um dos mais utilizados softwares de refinamento a nível atômico procede dessa maneira, utilizando a dinâmica molecular guiada por fragmentos (FG-MD) para remodelar o cenário energético dos arranjos moleculares. Dada uma estrutura proteica inicial, FG-MD primeiro identifica fragmentos análogos do PDB pelo alinhamento estrutural no programa TM-align. As restrições espaciais extraídas dos fragmentos são então usadas através de dinâmica molecular para remodelar do panorama energético e orientar a amostragem conformacional. O FG-MD visa refinar os modelos iniciais mais próximos da estrutura nativa e melhorar a geometria local das estruturas, removendo os confrontos estéricos e melhorando o ângulo de torção e as ligações de hidrogênio. Outra opção semelhante e um pouco mais rápida é o software ModRefiner.

Outros servers disponíveis online para o refinamento de estruturas (Adiyaman; McGuffin, 2019)

Pontuação

Para o score de pontuação, são utilizados diversos parâmetros. Os métodos de pontuação de energia variam, dependendo da escolha da referência usado para analisar as interações atômicas com base em estruturas conhecidas. Essas pontuações são utilizadas pelos softwares de análise de qualidade que falaremos abaixo.

A pontuação mais baixa produzida por estes métodos geralmente se correlaciona com a pontuação mais baixa obtida para o RMSD (distância média entre átomos correspondentes — quanto menor, maior a resolução ou maior similaridade entre estruturas comparadas, pois a distância entre os átomos é menor). Outras duas métricas importantes e mais acuradas que o RMSD para a medição de similaridade entre estruturas são os scores GDT e TM.

O score GDT é menos sensitivo às regiões externas da proteína que o RMSD e demonstra a pontuação global de proteínas com a mesma sequência mas diferentes estruturas terciárias. Como o RMSD, observa a posição dos carbonos alfa em duas conformações diferentes da mesma proteína. O RMSD usa as distâncias reais entre os carbonos alfa, enquanto o GDT trabalha com a porcentagem de carbonos alfa encontrados dentro de determinadas distâncias de corte um do outro. O GDT_TS usa distâncias de corte de 1, 2, 4 e 8 angstroms. A porcentagem de carbonos alfa dentro de cada uma dessas distâncias é determinada e, em seguida, somada e dividida por quatro. Já o
GDT_HA usa distâncias de corte de 0,5, 1, 2 e 4 angstroms. Novamente, uma porcentagem é calculada para cada distância e, em seguida, as porcentagens são somadas e divididas por quatro. Resumidamente, é o maior conjunto de átomos dos resíduos de aminoácidos do carbono alfa que está no limite de distância definido em relação a sua posição na estrutura experimental, após a sobreposição das duas estruturas. Quanto mais próximo de 1, maior a similaridade das moléculas.

O score TM segue a mesma lógica, mas conta todos os pares de resíduos usando o peso de Levitt-Gerstein e não precisa de pontos de corte descontínuos. Como a curta distância na matriz Levitt-Gerstein pesa mais no cálculo que as longas distâncias, o TM-score é mais sensível à topologia global do que às variações locais. Uma escala dependente do tamanho da proteína é adotada para normalizar as distâncias dos resíduos, sendo que a pontuação da TM para pares aleatórios de proteínas é independente do tamanho das mesmas, embora ainda exista controvérsias. Define-se a pontuação 1 como maior similaridade (quanto maior, melhor) e abaixo de 0.3 considera-se que são estruturas diferentes aleatoriamente selecionadas.

Propriedades físico-químicas das proteínas: que programa utilizar?

Para cada propriedade físico-química apresentada pelas proteínas existe uma infinidade de softwares. Falaremos sobre alguns nesta seção.

Mínimas energéticas globais e locais: vão demonstrar a qualidade geral do modelo ou por resíduo de aminoácido. Uma das ferramentas mais utilizadas é o QMEAN, uma função de pontuação composta capaz de derivar estimativas de qualidade absoluta global e local com base em um único modelo. Existem dois valores de pontuação global, sendo um a combinação linear de quatro termos estatísticos potenciais e outro que avalia a consistência de recursos estruturais com previsões baseadas na sequência. Ambas as pontuações globais estão em um intervalo [0,1], sendo 1 considerado um modelo bom. Por padrão, eles são transformados em Z-scores para relacioná-los com o que se espera de estruturas de raios-X de alta resolução. Outro importante software é ModFold6, que também fornece um score de qualidade, sendo que uma pontuação acima de 0.4 descreve um modelo cada vez mais completo e confiável. Além disso, é possível obter em ambos softwares a visualização da qualidade por resíduos na própria estrutura.

Estrutura secundária e regiões de difícil predição: uma dificuldade recorrente nos softwares reside principalmente na correta predição de regiões desordenadas, loops, linkers e até mesmo de folhas beta. Algumas alternativas para visualizar a correta predição estrutural são:
-ModLoop, que prevê conformações em loop sem depender de um banco de dados de estruturas de proteínas conhecidas.
-Predição de regiões espirais - COILS: compara a sequência ao banco de dados e obtém uma pontuação de similaridade, comparando-a com a distribuição das pontuações e calculando a probabilidade dessas regiões ocorrerem na molécula.
-Detecção de repetições na estrutura através do Radar, que identifica intervalos de repetições próximas e arquiteturas complexas envolvendo vários tipos diferentes de repetições.
-Propriedades de hélices pelo HeliQuest, calcula a partir da sequência de aminoácidos suas propriedades físico-químicas e usa os resultados para rastrear nos banco de dados segmentos de proteínas de características semelhantes.
-Predição de estrutura secundária de toda a molécula a partir de PSI-BLAST pelo PSIPRED.

Posição de aminoácidos: é essencial em qualquer predição de proteínas gerar um gráfico Ramachandran, que demonstra onde os aminoácidos estão posicionados em relação aos ângulos de torção phi e psi, a porcentagem de aminoácidos em regiões permitidas ou não, além daqueles localizados nas respectivas estruturas secundárias (alfa hélices e folhas beta). Para isso, pode-se utilizar os softwares RAMPAGE, PROCHECK, Ramachandran Plot Evaluation e, por fim, PDBSum Generate, que associa resultados do PROCHECK, estrutura secundária e topologia, interação com moléculas, entre outros.

Energia livre conformacional: outro parâmetro para avaliar a qualidade estrutural é a energia livre relacionada à molécula. Em geral, quanto menor a energia livre, menos instável é a estrutura. Um dos softwares mais práticos e utilizados é DFIRE, que atua em conjunto o dDFIRE.

Solvatação: refere-se ao quanto a molécula está acessível ao solvente (água). Servers que permitem essa análise incluem ProWaVE e DEPTH Server.

Com estes resultados em mãos, torna-se ainda mais confiável a aplicação da estrutura predita em análises posteriores. É altamente recomendável também utilizar essas ferramentas para as estruturas referência utilizadas no estudo, como aquelas provindas do PDB ou mesmo de diferentes tipos de modelagem, a fim de aumentar mais ainda a base de confiança dos resultados. Um exemplo disso é o trabalho publicado por nosso grupo, disponível neste link.

Diferentes softwares estão disponíveis online, mas recomendamos que se utilize os melhores classificados nos eventos de avaliação CAMEO ou os disponíveis no ExPASY.

Referências

ADIYAMAN, R.; MCGUFFIN, L. J. Methods for the Refinement of Protein Structure 3D Models. International Journal of Molecular Sciences, v. 20, n. 9, p. 2301, 9 maio 2019.

OLECHNOVIC, K. et al. Comparative analysis of methods for evaluation of protein models against native structures. Bioinformatics, v. 35, n. 6, p. 937–944, 2019.

NEIS, A. et al. In silico prediction of prolactin molecules as a tool for equine genomics reproduction. Molecular Diversity, n. 0123456789, 2019.

XU, J.; ZHANG, Y. How significant is a protein structure similarity with TM-score = 0.5? Bioinformatics (Oxford, England), v. 26, n. 7, p. 889–95, 1 abr. 2010.

--

--

Alessandra Neis
omixdata

Doutoranda no Laboratório de Bioinformática e Proteômica pelo Programa de Pós-graduação em Biotecnologia da Universidade Federal de Pelotas.