Entendendo o I-TASSER

Ana Claudia Olivera
omixdata
Published in
5 min readFeb 10, 2021

O que é o I-TASSER:

I- TASSER é uma plataforma on-line que implementa seus algoritmos para modelagem estrutural de proteínas e previsões de suas funções biológicas. O usuário insere a sua sequência de aminoácidos em formato FASTA, e o servidor realiza uma busca em banco de dados tentando encontrar proteínas modelos com dobras semelhantes ao input, essa abordagem é denominada meta-threading. O software é um dos mais confiáveis, tendo ganhado destaque na sua predição em diversas edições do CASP (Avaliação crítica de técnicas para predição de estrutura de proteínas).

Como se cadastrar no I-TASSER:

Passo a passo:

Inserir o seu nome;
Inserir o seu sobrenome;
Inserir a instituição que possui vínculo;
Inserir o e-mail institucional;
Confirmar o e-mail;

Como utilizar o I-TASSER:

Passo a passo:

Inserir a sequência FASTA do input que deseja realizar a modelagem (podendo também fazer o upload da sequência);
Inserir o seu e-mail institucional;
Inserir a senha enviada para o seu e-mail institucional;
Inserir o ID da molécula submetida (ideal para sua organização quando são submetidas vários inputs para um mesmo trabalho).

Quando enviamos a nossa sequência FASTA para a análise conseguimos o seguinte conjunto de resultados:

  • Até cinco modelos atômicos completos (classificados com base na densidade do cluster);
  • Precisão estimada dos modelos previstos (incluindo uma pontuação de confiança de todos os modelos e TM-score e RMSD previstos para o primeiro modelo);
  • Imagens GIF dos modelos previstos;
  • Estruturas secundárias previstas;
  • Acessibilidade prevista de solvente;
  • 10 principais alinhamentos alinhamentos LOMETS;
  • As 10 principais proteínas em PDB que estão estruturalmente mais próximas dos modelos previstos;
  • Classificação da atividade enzimática;
  • Termos GO previstos e a pontuação de confiança;
  • Previsão de possíveis sítios de ligação e o provável ligante;
  • Uma imagem dos locais de ligação ao ligante previsto;

O que é pontuação C?

A pontuação C é uma pontuação de confiança para estimar a qualidade dos modelos previstos pelo I-TASSER. O C-score está normalmente na faixa de [-5,2], no qual um valor mais alto significa um modelo com maior confiança.

O que é TM-score?

TM-score é uma escala que mede a similaridade estrutural entre duas estruturas. Um TM-score> 0,5 indica um modelo de topologia correta e um TM-score <0,17 significa uma similaridade aleatória. Esse score não depende do comprimento da proteína.

Quais são os 20 modelos mais usados ​​pelo I-TASSER?

A modelagem I-TASSER começa a partir dos modelos de estrutura identificados por LOMETS a partir da biblioteca PDB. LOMETS é uma abordagem de meta-threading contendo vários programas de threading, no qual cada programa pode gerar dezenas de milhares de modelos. O I-TASSER usa apenas os modelos de maior significância nos alinhamentos de loopings, que são medidos pelo Z-score (a diferença entre os scores brutos e médios ajustados pelo desvio padrão). Normalmente, um (ou dois) modelos os quais possuem a pontuação “Z” mais alta são selecionados de cada programa de threading.

O que significa os 5 melhores modelos previstos pelo I-TASSER?

Para cada input, as simulações I-TASSER geram dezenas de milhares de conformações. Para selecionar os modelos finais, o I-TASSER usa o programa SPICKER para agrupá-los com base na similaridade de estrutura e formar clusters, relatando até cinco modelos que correspondem àqueles com maior similaridade estrutural. A confiança de cada modelo é medida quantitativamente pelo C-score. Como os 5 principais modelos são classificados pelo tamanho do cluster, é possível que os modelos de classificação inferior tenham uma pontuação C mais alta. Embora o primeiro modelo tenha uma pontuação C mais alta e uma qualidade melhor na maioria dos casos, não é incomum que os modelos de classificação inferior tenham uma qualidade melhor quando comparados os modelos de classificação superior.

O que são as Proteínas estruturalmente próximas do alvo no PDB?

Após a simulação de estrutura, o I-TASSER usa o programa TM-align para combinar o primeiro modelo I-TASSER com todas as estruturas do banco de dados PDB. Esta parte relata as 10 principais proteínas do PDB que têm a similaridade estrutural mais próxima (ou seja, a pontuação TM mais alta) com o modelo I-TASSER previsto. Devido à semelhança estrutural, essas proteínas costumam ter função semelhante ao alvo. No entanto, o programa ainda fornece o COACH que é utilizado para inferir a função biológica da proteína alvo, pois essa ferramenta foi amplamente treinada para derivar funções de múltiplas fontes de sequência e características de estrutura com uma precisão muito maior que as anotações de função derivadas apenas da comparação da estrutura global.

TM-score x C-score:

TM-score é um padrão proposto para medir a similaridade estrutural entre dois modelos os quais geralmente são usados para medir a precisão da modelagem quando a estrutura nativa é conhecida. Já o C-score é uma métrica que o I-TASSER desenvolveu para estimar a confiança da modelagem. Caso a estrutura nativa não seja conhecida, torna-se necessário prever a qualidade da previsão da modelagem, ou seja, qual a similaridade entre o modelo previsto e as estruturas nativas? Para responder a esta pergunta, tentamos prever o TM-score dos modelos gerados em relação às estruturas nativas com base no C-score.

Este foi nosso post sobre I-TASSER, uma ferramenta indispensável para a modelagem molecular! Mias informações podem ser encontradas no site do I-TASSER.

Temos também outros posts sobre modelagem estrutural! Não deixe de conferir ;)

--

--