AlphaFold2 : plongée au cœur de la biologie et du machine-learning

Biologie structurale, algorithmes et émulation scientifique

Published in

SCIAM

12 min readJan 20, 2021

Le 30 novembre 2020, le laboratoire d’intelligence artificielle DeepMind remportait brillamment la compétition CASP14 en “résolvant” le problème du repliement des protéines grâce à son algorithme AlphaFold2.

Ce succès est déjà considéré comme la plus grande avancée depuis 20 ans en biologie structurale. AlphaFold2 pourrait révolutionner ce domaine, tout comme le séquençage de l’ADN avait bouleversé la génomique. L’algorithme ouvre en effet la voie à de nouvelles applications, notamment dans les domaines de la santé et de l’environnement.

Dans cet article, nous vous proposons un parcours au cœur du vivant, des algorithmes et des conditions qui ont favorisé cette performance.

Pourquoi s’intéresser aux protéines et à leur structure tridimensionnelle ?

Les protéines sont des macromolécules présentes dans toutes les cellules vivantes et remplissant des fonctions essentielles dans l’organisme.

Les protéines de structures déterminent la forme et la résistance des cellules et des tissus musculaires et dermiques. Les protéines contractiles permettent la contraction des muscles, la locomotion des spermatozoïdes et des bactéries. Les protéines de transport telles que l’hémoglobine ou la transferrine véhiculent respectivement le dioxygène ou le fer. Les anticorps de la famille des immunoglobulines sont des protéines permettant la reconnaissance du soi et du non-soi, certaines protéines catalysent les réactions chimiques…

La fonction d’une protéine est principalement déterminée par sa structure 3D.

Il est donc primordial de pouvoir la déterminer et d’identifier les mécanismes participant à sa formation afin d’approfondir notre connaissance du vivant.

En y parvenant, on peut ainsi espérer mieux comprendre certaines maladies, découvrir de nouveaux traitements ou encore protéger notre environnement en améliorant le retraitement des polluants par exemple.

Le mécanisme de repliement des protéines

À l’origine, les protéines n’apparaissent pas sous leur forme tridimensionnelle. Ce n’est qu’après une succession d’itérations qu’elles atteignent cet état final.

De la séquence d’acides aminés à la structure 3D d’une protéine (source DeepMind)

Lors de sa synthèse, une protéine se trouve sous la forme d’une chaine dépliée constituée d’acides aminés appelée « structure primaire », semblable à un collier de perles. Il existe une vingtaine d’acides aminés protéinogènes, eux-mêmes composés d’atomes arrangés selon des motifs caractéristiques.

Ordres de grandeur relatifs aux protéines (source DeepMind)

Les 22 acides aminés protéinogènes (source Wikipedia)

La structure primaire de la protéine ainsi que les caractéristiques de son environnement (température et nature du solvant, concentration en sels, présence de protéines chaperonnes…) la prédisposent à adopter sa « conformation native ».

Ainsi, dans un contexte similaire, deux séquences identiques d’acides aminés exploreront la même succession d’états intermédiaires pour atteindre le même état final : l’état natif. L’observation de ce processus déterministe est à l’origine de l’hypothèse d’Anfinsen dont nous reparlerons plus tard.

Comment déterminer la structure 3D d’une protéine ?

L’analyse de la structure 3D d’une molécule doit être menée à l’échelle atomique, soit au-delà de la résolution accessible par les techniques de microscopie optique. Ainsi, des méthodes expérimentales comme la cristallographie aux rayons X ou plus récemment la cryo-microscopie électronique sont utilisées. Cependant, ces techniques et les protocoles associés sont longs et onéreux : l’université de Toronto estime qu’en moyenne une année et 120K$ sont nécessaires pour identifier la structure d’une protéine.

Dans ce contexte, Christian Anfinsen, devenu entre-temps prix Nobel de chimie, formule en 1961 l’hypothèse que la structure 3D d’une protéine dépend directement de sa séquence d’acides aminés.

Cette hypothèse est séduisante car les techniques de séquençage du génome sont désormais efficaces. À ce jour, les séquences de 200M de protéines sont référencées dans la base de données UniProt alors que nous ne connaissons la structure 3D que de 0,1% d’entre elles (170K structures sont répertoriées dans la Protein Data Bank PDB).

Evolution du nombre des protéines dont la séquence a été identifiée (source UniProt)

Cette situation ouvre la voie à un vaste champ de découvertes si l’on parvient à caractériser précisément la relation d’Anfinsen, c’est-à-dire à traduire automatiquement la séquence d’acides aminés d’une protéine en une structure 3D.

De l’hypothèse d’Anfinsen à l’organisation d’une compétition

John Moult, un chercheur en bio-informatique de l’université du Maryland est persuadé que la communauté scientifique pourrait tirer parti de l’hypothèse d’Anfinsen, de l’accélération de la production de données (provenant en particulier du séquençage du génome) et des progrès informatiques pour prédire plus efficacement la structure tridimensionnelle des protéines.

Il est convaincu que la normalisation du problème de prédiction catalysera les avancées : plus les règles du jeu seront claires et plus les participants seront incités à s’investir pleinement dans une compétition exigeante.

Dans cette optique, John Moult cofonde la compétition CASP (Critical Assessment of protein Structure Prediction) en 1994. Depuis cette date, la compétition réunit tous les deux ans une centaine d’équipes de chercheurs venant des quatre coins du monde.

Les modalités de CASP

La compétition CASP respecte un protocole bien défini.

Tous les deux ans, son comité d’organisation sélectionne une centaine de protéines dont les structures 3D sont inconnues mais les séquences données.

Ces séquences et des métadonnées sont communiquées aux équipes en compétition (les “prédicteurs”) pour qu’elles réalisent leurs propres prédictions de structures.

Parallèlement, des expérimentateurs découvrent les structures de ces protéines en utilisant les techniques empiriques habituelles (cristallographie aux rayons X, cryo-microscopie…).

Enfin, des évaluateurs indépendants qualifient les prédictions des compétiteurs en les comparant aux structures 3D obtenues expérimentalement.

Compétition CASP : répartition des rôles (source CASP)

Quelques précisions :

La qualité de la prédiction est ensuite mesurée par un score entre 0 et 100 appelé GDT pour Global Distance Test : il est d’autant plus élevé que la forme prédite de la protéine se superpose avec sa forme réelle. Un GDT de 100 signifie que les deux structures sont indistinguables.
La prédiction peut porter sur l’ensemble de la protéine ou uniquement sur des « domaines » soit des portions de celle-ci.
La compétition comprend plusieurs catégories dont la difficulté dépend de la ressemblance de leurs séquences avec d’autres dont les structures sont déjà connues. En raison de l’évolution génétique et des mutations, des protéines peuvent en effet partager des portions de séquences et cette connaissance facilite la prédiction. C’est ainsi que la catégorie « Free Modeling », composée de protéines dont la séquence est très différente de celles dont les structures sont actuellement connues, est réputée comme étant la plus difficile.

Comparaison des structures prédites (en bleu) vs réelles (en vert) pour deux protéines (source DeepMind)

Un bond de qualité des prédictions CASP

Après avoir progressé lors des premières éditions de CASP dans les années 90, la qualité des prédictions était restée globalement stable depuis 2000.

En 2018, une équipe se distingue en améliorant de 20 points le GDT médian des cibles « Free Modeling ». Un bond d’une telle ampleur n’avait jamais été observé : DeepMind et son algorithme AlphaFold marquent les esprits dès leur première participation à la compétition.

Lors de la session suivante, en 2020, DeepMind récidive avec AlphaFold2 et pulvérise le précédent record en l’élevant à 87 pour un GDT médian de 92,4 toutes cibles confondues.

Evolution du GDT médian de la catégorie “Free Modeling” (source DeepMind)

Cette performance signe la fin d’une partie : le seuil de 90 avait été officieusement considéré comme le niveau de GDT au-dessus duquel le problème CASP serait considéré comme résolu.

En effet, un GDT de 92,4 correspond approximativement à une erreur moyenne de position de 1,6 Angström par acide aminé, ce qui est l’ordre de grandeur du rayon atomique. En d’autres termes, il est possible que l’erreur attribuée à AlphaFold2 soit en réalité une erreur de mesure expérimentale.

Le caractère exceptionnel du résultat nous conduit légitimement à nous interroger sur sa représentativité : serait-il dû à une édition de difficulté moindre ? Non, au contraire, la complexité des protéines soumises lors du CASP14 est plutôt supérieure à celle des années précédentes. En outre, AlphaFold2 domine significativement les prédictions des autres équipes.

La performance est sans équivoque !

Scores d’AlphaFold2 et de la seconde meilleure prévision (source Mohammed AlQuraishi)

DeepMind: aux origines d’AlphaFold

DeepMind est une entreprise britannique spécialisée en Intelligence Artificielle. Elle a été cofondée par le neuroscientifique Demis Hassabis en 2010 puis rachetée par Google en 2014 pour 628M$.

DeepMind s’est déjà fait remarquer en battant les meilleurs joueurs du monde de Go grâce à ses algorithmes AlphaGo (2015), AlphaZero (2017) et MuZero (2020).

En 2019, de nouveau dans l’univers des jeux, DeepMind s’illustre avec AlphaStar en gagnant des compétitions de niveau Grandmaster à StarCraft2 pourtant considéré comme l’un des jeux RTS (Real-Time Strategy) les plus difficiles.

Ces performances dans l’univers des jeux ne sont que la partie émergée de l’iceberg. Pour y parvenir, DeepMind a conçu, adapté, combiné et testé des outils scientifiques, et en particulier des systèmes de Machine Learning avec l’ambition de les utiliser dans d’autres domaines afin que le monde réel puisse en bénéficier : “Scientific advances, real world benefits”.

En remportant la dernière édition de CASP et en “résolvant” le problème de repliement des protéines, DeepMind réalise cet objectif dans le prolongement de contributions telles que :

L’accélération du diagnostic de pathologies oculaires à partir d’examens standards ou encore
La réduction des émissions de gaz à effet de serre en optimisant la consommation énergétique nécessaire au refroidissement de data centers.

D’AlphaFold v1 à AlphaFold v2

Les détails de l’algorithme AlphaFold2 ne sont pas encore connus mais ses créateurs devraient les publier d’ici quelques mois, comme ils l’avaient d’ailleurs fait à la suite de leur victoire lors de l’édition précédente (article publié sur Nature et code source sur GitHub).

En attendant, nous pouvons rappeler les grands principes de la première version d’AlphaFold et indiquer les évolutions évoquées pour la seconde.

AlphaFold version 1

La première version d’AlphaFold (celle du CASP13 en 2018) décompose le problème de prédiction en deux étapes :

Système AlphaFold v1 (Source Improved protein structure prediction using potentials from deep learning, Nature Journal)

La première étape est formulée comme un problème d’apprentissage supervisé reposant sur un réseau profond de convolutions. La séquence d’acides aminés de la protéine dont on cherche la structure 3D ainsi que d’autres informations relatives à des séquences “proches” (caractéristiques de MSA Multiple-Sequence-Alignment) sont fournies en entrée du réseau. En sortie, le réseau prédit la matrice de distances des acides aminées deux à deux (le distogramme) ainsi que les torsions entre les éléments de la séquence. Ces matrices définissent le “potentiel” de la protéine.
La seconde étape consiste à inférer la structure 3D de la protéine à partir du “potentiel” obtenu à l’étape précédente. Cette étape correspond à un problème d’optimisation “protéine par protéine” résolu par descente de gradient. On peut imaginer qu’il s’agit de “regonfler” une structure aplatie. Cette structure est composée de perles dont chacune d’entre elle est reliée à toutes les autres par un élastique d’une longueur spécifique. Le “regonflage” doit être tel que la tension des élastiques soit la plus homogène possible.
Enfin, il faut garder à l’esprit que des interventions humaines sont nécessaires pour identifier, comprendre et corriger des erreurs ou incohérences produites par le système lors des phases de prédictions.

AlphaFold version 2 :

Les détails de cette seconde version ne sont pas encore révélés mais les grands principes ont néanmoins été présentés :

Apprentissage end-to-end : le problème n’est plus segmenté en deux étapes mais modélisé comme un système entièrement différentiable. Cette approche permet de régler le problème de viabilité entre le distogramme en sortie de la première étape et l’existence d’une structure 3D équivalente. En faisant peser l’intégralité des contraintes sur l’ensemble du système, l’apprentissage end-to-end assure la cohérence globale.
Les caractéristiques des MSA ne sont plus utilisées sous une forme condensée (statistiques injectées en entrée du réseau) mais sous leur forme brute. Un mécanisme d’attention itère sur l’ensemble des MSA disponibles, focalise son attention à différents niveaux d’échelles et contribue ainsi à la cohérence globale de la structure prédite.
Le distogramme est traduit en un nuage 3D sur lequel opère un transformer invariant à la rotation. Cette étape permet d’intégrer des interactions de plus haut niveau : les dépendances ne sont plus seulement locales à deux acides aminés connexes mais peuvent avoir lieu à l’échelle du domaine ou de la structure complète.
Enfin, en plus des MSA indiquées plus haut, un échantillon de structures 3D canoniques est fourni en entrée afin de “souffler” au système des structures existantes.

Données utilisées pour l’apprentissage d’AlphaFold2 (source DeepMind)

Quid des capacités de calculs mobilisées ?

L’apprentissage du système AlphaFold2 a nécessité 16 TPUv3s (c’est à dire 128 cœurs TPUv3 soit l’équivalent d’une centaine de GPU) pendant plusieurs semaines. Bien que considérables, de telles ressources sont cohérentes avec la complexité du problème adressé. À titre de comparaison, l’apprentissage du modèle de langage BERT-large ou du modèle de vision ResNet-50 dure quelques jours avec une configuration matérielle équivalente.

En revanche, les ressources mobilisées pour réaliser les prédictions sont étonnamment élevées : de 5 à 40 GPUs pendant plusieurs heures voire jours par protéine. Lorsqu’ils seront publiés, les détails de l’architecture justifieront sans doute ces besoins inhabituels.

Que peut-on retenir ?

Un nombre croissant d’applications de Machine/Deep Learning pénètre désormais le monde physique et coexiste avec l’Homme : voitures autonomes, robots (de type Boston Dynamics ou chirurgicaux), diagnostics médicaux, assistants vocaux et désormais biologie structurale.

Sur le plan technique, ce succès est dû à l’exploitation de données pertinentes ainsi qu’à l’adaptation et la combinaison astucieuse d’algorithmes initialement développés dans des domaines différents. Cet exemple illustre bien la perméabilité des recherches en Machine/Deep Learning : traitement d’images, séries temporelles, graphes, langage naturel, optimisation de stratégies…

Sur le plan organisationnel, la formalisation du problème sous la forme de compétition a catalysé les progrès. Les challenges Kaggle ou Ramp ont déjà prouvé que l’émulation et le partage de connaissances permettaient d’atteindre plus rapidement de meilleurs résultats. Nul doute que les méthodes d’Intelligence Collective contribueront à d’autres succès de ce type.

DeepMind a objectivement réalisé une prouesse avec un score médian de 92,4. Cependant, la précision de certaines prédictions a été mauvaise (avec parfois un GDT de 43). Il reste encore localement une marge de progression.

La résolution du repliement des protéines peut être considéré comme un prérequis à la compréhension des organisations biologiques de plus haut niveau : relations entre protéines, aux niveaux cellulaire, tissulaire, organique, systémique… et potentiellement hybride Homme-machine ?

J’espère que cet article vous aura permis de mieux comprendre le contexte et les enjeux du repliement des protéines et de la solution apportée par DeepMind avec son algorithme AlphaFold2. Que les spécialistes en biologie me pardonnent les raccourcis et imprécisions 😉.

Un article complémentaire sera publié lorsque les détails techniques d’AlphaFold2 seront connus. Stay tuned !

D’ici là, je vous propose de nous retrouver vendredi 22 janvier à 13h lors de notre Tech review #5 SCIAM (Webinar de 45 minutes pour découvrir des concepts technologiques tirés de l’expérience et des convictions de nos consultants sur les thématiques #IA, #Dev et #DevOps, #Cloud) pour répondre à toutes vos questions sur AlphaFold2.

Pour vous y inscrire, cliquez sur le lien ci-après : “Inscrivez-moi svp”. Vous pouvez aussi nous contacter directement par mail : alexandre.lewandowski@sciam.fr

Références

AlphaFold @ CASP13: "What just happened?"

Update: An updated version of this blogpost was published as a (peer-reviewed) Letter to the Editor at Bioinformatics…

moalquraishi.wordpress.com

AlphaFold2 @ CASP14: "It feels like one's child has left home."

The past week was a momentous occasion for protein structure prediction, structural biology at large, and in due time…

moalquraishi.wordpress.com

Home - CASP14

CASP14 CASP provides an independent mechanism for the assessment of methods of protein structure modeling. From May…

predictioncenter.org

AlphaFold: a solution to a 50-year-old grand challenge in biology

In a major scientific advance, the latest version of our AI system AlphaFold has been recognised as a solution to this…

deepmind.com

deepmind/deepmind-research

This package provides an implementation of the contact prediction network, associated model weights and CASP13 dataset…

github.com

Improved protein structure prediction using potentials from deep learning

Protein structure prediction can be used to determine the three-dimensional shape of a protein from its amino acid…

rdcu.be

“High Accuracy Protein Structure Prediction Using Deep Learning” by John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Kathryn Tunyasuvunakool, Olaf Ronneberger, Russ Bates, Augustin Žídek, Alex Bridgland, Clemens Meyer, Simon A A Kohl, Anna Potapenko, Andrew J Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Martin Steinegger, Michalina Pacholska, David Silver, Oriol Vinyals, Andrew W Senior, Koray Kavukcuoglu, Pushmeet Kohli, Demis Hassabis.

In Fourteenth Critical Assessment of Techniques for Protein Structure Prediction (Abstract Book), 30 November — 4 December 2020. Retrieved from here.