Descomplicando o AlphaFold

Alessandra Neis
omixdata
Published in
7 min readDec 22, 2021

Olá pessoal, tudo bem? Hoje faremos uma breve introdução sobre o AlphaFold, o software desenvolvido pela DeepMind que virou foco na área de predição de estruturas tridimensionais de proteínas! Vamos falar um pouco sobre seu funcionamento e o impacto sobre toda a área. Se você não acompanhou os posts de predição estrutural, pode iniciar por aqui.

Primeiro, é importante lembrar que a versão que foi amplamente noticiada é a segunda. O AlphaFold foi avaliado em duas versões diferentes nos eventos de avaliação Critical Assessment of Techniques for Protein Structure Prediction, sendo a primeira no CASP13 (2018) e a segunda no CASP14 (2020). O resultado deste último saiu neste ano apenas (2021). A versão que vamos abordar neste post é a segunda, que foi a que mais se destacou.

Nos dois eventos CASP, o AlphaFold teve um desempenho bastante acima dos outros grupos, sendo o melhor colocado em ambas. A grande diferença é que melhorias significativas de processamento e algoritmos de machine learning foram amplamente aplicadas na segunda versão, fazendo com o a medida da distância global entre resíduos (GDT) saltasse de 58,9 no CASP13 para 92,4 no CASP14. Em relação à precisão da predição em angstrom (Å), o AlphaFold conseguiu gerar estruturas com 0.8Å de diferença em relação a estruturas experimentais, enquanto o melhor método apresentou 2.8Å quando as duas estruturas eram sobrepostas. Isso ressalta que a precisão do AlphaFold chega a nível atômico. Uma explicação das métricas utilizadas no CASP pode ser encontrada nesse post.

Como o AlphaFold funciona?

Existem três etapas principais na atuação do AlphaFold (aqui chamaremos ele de AF2 para facilitar a compreensão): o input, o Evoformer e o módulo estrutural. Vamos explicar brevemente o intuito de cada uma.

Fonte:

1. Input: alinhamento múltiplo de sequências (MSA) e representação de pares

O input utilizado pelo AF2 é a própria sequência de aminoácidos. É possível também fornecer seu próprio MSA com sequências de interesse. A partir da submissão, o AF2 identifica sequências similares e conservadas, encontrando uma correlação evolutiva entre os aminoácidos da sequência. Isso é interessante pois a estrutura é, em geral, mais conservada que a sequência, mas é possível extrair informações preciosas do MSA e das modificações que são sustentadas pela estrutura, sem perder sua função.

Além disso, de forma paralela, o AF2 procura essa sequência em bases de dados de estruturas (RCSB PDB), identificando como os aminoácidos interagem entre si em um espaço 3D. Aqui ocorre a representação inicial do modelo, em que aminoácidos A e B, por exemplo, são avaliados. A partir dessa posição inicial, é possível inferir se C e D também estão próximos, e assim por diante. Esses dois processos ocorrem em paralelo, mas servem de input para a segunda parte do software e são repetidos (iterados) algumas centenas de vezes até obter uma representação condizente.

Fonte:

2. Evoformer: os transformadores

A parte inicial do software é relativamente bem conhecida e já implementada por outros preditores. Mas é no Evoformer que a mágica acontece e os dados são transformados, justamente por haverem dois transformadores (tranformers) nesse estágio. Esses transformadores são ferramentas de machine learning que implementam o mecanismo de atenção (attention), que identifica as partes que merecem atenção (como quando vemos uma imagem e segmentamos suas partes; é amplamente utilizado em tradução e análise de pixels). Cada um dos transformadores atua em um dos inputs, um para o MSA e outro para a representação de pares. Em determinado ponto, esses inputs são combinados de forma que os dados do MSA alimentam a representação de pares e vice-versa. A comparação da posição dos pares é calculada pelo segundo transformador, em que as distâncias dos pares é utilizada. Nesse transformador, se leva em conta a desigualdade de distâncias de um triângulo (as distâncias dos pares e interações com outros resíduos acaba sendo incompatível com a representação física). Assim, a atenção do algoritmo é focada em testar as triangulações possíveis e atualizar a representação de pares de acordo com aquela que for a melhor representação física. A partir da representação por pares, o MSA é usado para verificar a relação entre as colunas e linhas de uma nova matriz, em que as colunas representam a conservação dos aminoácidos e as linhas são os pares de resíduos próximos. É importante ressaltar que o input e o output do Evoformer são os mesmos, mas no final das 48 camadas de redes neurais tanto o MSA quanto a representação de pares está muito refinada.

3. Módulo estrutural

No módulo estrutural, as informações do MSA e representação de pares são unidas e a melhor (a primeira linha da matriz) é utilizada para montar a estrutura em um espaço 3D. Basicamente, as 8 camadas refinam a geometria espacial, operando em um backbone inicial. A cada iteração os resíduos são dispostos no espaço. Uma das coisas mais interessantes é que o módulo estrutural ignora as restrições geométricas presentes na natureza quase totalmente e as aprende toda vez a partir do banco de dados. Ainda não se sabe exatamente como o algoritmo aprendeu, apenas que funciona e as estruturas têm nível de precisão atômico!

De forma mais detalhada, todos os resíduos começam a ser analisados no mesmo ponto e tem a mesma orientação. Então, é acionado um mecanismo de atenção chamado IPA (invariant point attention), que é ciente da geometria para atualizar a representação sem alterar as posições 3D. O IPA amplia as informações de cada frame local de cada resíduo, de modo que as ativações são invariantes a rotações e translações globais. Os dados dos resíduos são transformados em pontos, projetados a partir do backbone conforme o resíduo do backbone que interagem. As cadeias laterais são geradas e os ângulos de torsão são preditos, levando as coordenadas finais. Por fim, a estrutura passa por um relaxamento utilizando o campo de força AMBER.

O resultado

O AF2 fornece diferentes resultados, sendo a estrutura 3D (em formato .pdb), os distogramas com a projeção das distâncias entre os pares de resíduos (Å) e o pIDDT, a confiabilidade da predição com base no teste de diferença de distância local do Cα (IDDT).

Qual o impacto do AlphaFold?

Muito se tem especulado sobre as possibilidades do AF2. Até agora, o que se sabe com certeza é que ele é muito superior em relação a outras ferramentas quanto à predição de estruturas monoméricas. Já a confiabilidade do software decai significativamente quando se tenta predizer o efeito de mutações, complexos proteicos ou homo/héterodímeros. Em geral, já estão sendo implementados os modelos do AF2 em integração com bancos de dados como Uniprot e já está disponível um banco de dados com o proteoma de 21 organismos modelo, o AlphaFold DB, com 350 mil estruturas disponibilizadas diretamente pelo grupo da DeepMind.

Outras aplicações incluem:

Auxiliar em estudos de imunoinformática, como busca por epítopos estruturais e estruturas de patogenicidade, acelerando o desenvolvimento de novos fármacos, vacinas e diagnósticos;

Auxiliar técnicas experimentais a ter maior precisão;

Abre-se um novo campo de estudos, em que agora os cientistas não dependem apenas da sequência;

Identificar sítios de ligação ou sítios catalíticos sem precisar modelar a proteína, acelerando os estudos estruturais e com maior precisão para o reconhecimento de padrões estruturais e interfaces de interação entre moléculas;

Estudar com maior rapidez como e por que ocorrem os mecanismos de toxicidade de moléculas e especificidade de drogas;

Utilizar proteínas modeladas para auxiliar os dados clínicos na medicina personalizada.

Onde posso acessar o AlphaFold?

A menos que você tenha em torno de 3TB de memória no seu computador, você não vai conseguir baixá-lo. Em vista disso, cientistas uniram esforços e criaram um notebook no Google Colab, o ColabFold, que pode ser acessado por qualquer pessoa. Se você quer aprender mais sobre o Google Colab, veja esse post.

Muitas possibilidades existem agora com a imensa quantidade de dados estruturais gerados e a rapidez com que o AlphaFold funciona. Provavelmente o AlphaFold vai contribuir muito com a área estrutural e acelerar os estudos em geral, mas os métodos experimentais ainda serão necessários para verificar a acurácia das predições e para situações em que o AlphaFold ainda apresenta limitações.

Obrigada por acompanhar o Omixdata, o blog que traz informações atualizadas e em portugês sobre bioinformática. Nosso blog é gratuito e sempre será, mas não se esqueça de dar os devidos créditos ao utilizar nosso conteúdo!

Referências

Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2

Thornton, J.M., Laskowski, R.A. & Borkakoti, N. AlphaFold heralds a data-driven revolution in biology and medicine. Nat Med 27, 1666–1669 (2021). https://doi.org/10.1038/s41591-021-01533-0

Sugestão de conteúdo adicional: vídeo explicativo

--

--

Alessandra Neis
omixdata

Doutoranda no Laboratório de Bioinformática e Proteômica pelo Programa de Pós-graduação em Biotecnologia da Universidade Federal de Pelotas.