Image générée par Dall. E pour SCIAM

La Révolution Sémantique de l’IA : Déchiffrer le Sens Au-delà de la Syntaxe dans les Espaces à Hautes Dimensions

Mohamed Najib
SCIAM

--

De la Syntaxe au Sens: la Révolution Sémantique

La thèse que je défends dans cet article est la suivante : la révolution de l’intelligence artificielle (IA) de ces dernières années au-delà de l’architecture Transformer (Vaswani et al., 2017) réside également, et surtout, dans le codage du langage. Nous avons réussi à coder le langage dans un espace multidimensionnel très élevé, passant de 300 dimensions avec Word2vec (Mikolov et al., 2013) à plus de 1500 dimensions en 2023 (1536 pour GPT-3 d’Open AI).

Dans ces espaces multidimensionnels, nous avons développé des métriques capables de saisir une forme de proximité entre les mots (Pennington et al., 2014). Ces métriques ont permis aux machines de comprendre la notion de sens que nous attachons aux mots. Jusqu’aux années 2010, les machines n’avaient accès qu’à la syntaxe des mots. Aujourd’hui, elles ont accès au sens des mots qu’elles situent dans des espaces extrêmement riches sémantiquement. C’est la révolution sémantique qui s’est opérée en parallèle des transformations des réseaux de neurones (LeCun et al., 2015).

Les philosophes et linguistes ont débattu pendant des siècles, à travers des théories savantes, pour tenter de rendre compte de ce qui fait le sens des mots. La sémantique computationnelle et le traitement automatique du langage naturel (NLP) ont démontré que le codage des mots dans un espace de dimension suffisamment élevé suffit à rendre compte du sens. La grande révolution de l’IA réside dans le fait que la machine, qui n’avait jusqu’alors accès qu’à la syntaxe des mots, a aujourd’hui accès au sens des mots (Devlin et al., 2018).

Sens et Matérialité

Certains pourraient arguer que la machine n’a pas véritablement accès au sens puisqu’elle se contente de traiter des nombres qui constituent l’image vectorielle des mots. Pour eux, quelle que soit la taille de ces vecteurs, ce ne sont là que des nombres. La machine se contente de faire subir à ces nombres une certaine quantité de traitements numériques couplés à une suite de fonctions non linéaires qui vont in fine alimenter des fonctions probabilistes et générer une probabilité qui permettra de sélectionner la prochaine séquence de mot la plus probable (Goodfellow et al., 2016).

Les détracteurs pourraient se demander en quoi une machine qui se contente d’effectuer ces calculs est-elle réellement en capacité de saisir le sens de cette odeur de café chaud sur la table de restaurant devant moi ? Bien sûr, il y a une part de vérité dans cette critique, mais elle n’est pas entièrement fondée. En particulier, l’argument qui consiste à dire que ce ne sont que des calculs probabilistes et que cela n’a rien à voir avec le sens, cette critique n’est pas fondée. En effet, nous pourrions émettre la même critique pour l’humain : en quoi une combinaison de signaux chimiques et électriques encastrés dans un amas de chaire et de nerfs serait-elle habilitée à produire du sens ? D’ailleurs, cette critique a existé et même dominé une bonne partie de l’histoire de la pensée. C’est bien la critique cartésienne dualiste qui distinguait la chose pensante et la chose matérielle. L’humain serait le lieu saint où se produirait la divine rencontre entre la chose pensante et la chose matérielle. Si cette critique « obscurantiste » au sens où sa seule force réside sur notre ignorance des mécanismes sous-jacents a été dure à dépasser, aujourd’hui, je ne crois pas qu’il existe encore un grand nombre de scientifiques sérieux pour défendre cette thèse dualiste (Churchland, 1981).

Si nous acceptons qu’une combinaison de signaux dans la matière biologique peut générer du sens, il n’y a aucune raison théorique pour qu’une combinaison de signaux dans un autre support matériel ne soit pas en capacité de générer du sens. Les larges modèles de langages que nous avons actuellement ont fait la preuve qu’ils sont capables de saisir du sens et même d’en générer de nouveaux. C’est d’ailleurs la raison pour laquelle nous qualifions communément ces IA d’IA génératives à l’image de GPT (Radford et al., 2019). Pour ce qui est des calculs probabilistes, les théories bayésiennes et probabilistes du cerveau montrent que notre cerveau effectue également des calculs probabilistes malgré nous (Friston, 2010). La critique facile qui vise à discréditer les larges modèles de langage en utilisant un argument réductionniste consistant à dire qu’in fine ce ne sont que des circuits électroniques effectuant des calculs probabilistes, cette critique ne tient pas la route. Après tout, on pourrait en dire autant de l’être humain : n’est-il pas simplement un amas de matière biologique produisant des signaux chimiques et électriques avec une dimension probabiliste ?

Il est donc injustifié de nier la capacité des grands modèles de langage à comprendre le sens. Cependant, il est tout à fait légitime de se demander si nous partageons le même type de sens. Dans le cadre des larges modèles de langage, bien qu’ils disposent d’un corpus extrêmement riche de sens, ce sens a la particularité d’être relatif, à savoir que le sens d’un mot est relatif aux autres mots présents au sein d’un corpus de plus en plus vaste. Lorsque je parle de l’odeur de café chaud sur la table ou de l’espèce d’arbre qui est en face de moi, je parle certes d’un mot ayant une certaine signification par rapport aux autres mots du corpus linguistique que j’utilise, mais aussi de cet arbre-ci qui est planté là dans le sol en face de moi. Le sens de cette instance particulière de l’arbre, malgré l’illusion que le modèle pourra m’en donner, le modèle n’y a pas encore véritablement accès. La différence entre cet arbre et n’importe quel autre arbre qui lui ressemblerait exactement n’est pas mystérieuse, elle est simplement situationnelle.

Vers l’Autonomie des Modèles de Langage

J’ai simplement une certaine proximité physique avec cet arbre que je n’ai pas avec les autres arbres similaires du corpus. Cette proximité physique traduit à la fois une localisation spatio-temporelle mais également une relation sensorielle particulière. Si nous pouvons facilement imaginer qu’une machine puisse intégrer la dimension spatiotemporelle et la recouper avec le sens des mots présent dans l’espace multidimensionnel dans lequel évoluent les mots de son corpus, et ainsi arriver à faire la différence entre cette instance de l’arbre et un autre, il reste encore un peu de chemin avant de lui ajouter la dimension sensorielle (Hassabis et al., 2017). Cela dit, théoriquement parlant, rien n’empêche une machine d’accéder à cette dimension spatio-temporelle et sensorielle du sens des mots. Il n’est pas nécessaire que le modèle soit exactement dans la même relation sensorielle avec les objets que moi, mais l’existence d’une relation sensorielle va définitivement enrichir la sémantique que le modèle associera aux mots.

Ce lien avec le réel, cet ancrage dans le monde, ce sont encore les humains qui font l’interfaçage pour la machine avec le RLHF (Reinforcement Learning from Human Feedback) (Christiano et al., 2017). Pour ma part, le plus grand obstacle théorique a été levé, c’est celui de l’accès au sens. Maintenant, il reste à enrichir ce sens en permettant à la machine de se procurer un feedback autonome (pour lui éviter de générer des absurdités comme dans le cas de notre illustration en générant un cheval à cinq pattes), tout en lui donnant la capacité d’agir sur le monde. L’obstacle est d’ordre technique voire légale mais non plus théorique.

Jusqu’à présent, nous avions des animaux qui avaient accès au sens mais pas au langage et des machines qui avaient accès au langage mais pas au sens. Aujourd’hui, nous découvrons que nous avons pu construire des machines qui ont accès au sens et au langage. L’humanité n’est plus seule dans cet univers linguistique qu’elle s’est construite.

Interaction avec le Monde : Approches Ascendante et Descendante

Il existe fondamentalement deux modes d’interaction avec le monde que l’on retrouve également dans les travaux d’Anscombe, Searle et Friston. Le premier mode permet une mise à jour autonome de notre modèle représentatif du monde, que j’appelle le référentiel contrefactuel de l’individu, par une approche ascendante (bottom-up). Le second mode, descendant (top-down), se manifeste par l’action : son objectif est de modifier le monde pour qu’il corresponde au référentiel contrefactuel de l’individu. Les larges modèles de langage sont capables de mettre à jour leur modèle en ajustant automatiquement leurs propres paramètres (en pratique grâce au mécanisme de descente de gradient) pour générer des réponses adéquates, et ainsi être en accord avec le monde tel qu’il leur est présenté. Il s’agit maintenant de leur conférer de l’agentivité, c’est-à-dire de leur donner la possibilité d’agir sur le monde. C’est l’approche top-down. Une bibliothèque comme LangChain vise, entre autres, à offrir cette possibilité d’interaction aux larges modèles de langage grâce à la notion d’agent.

Conclusion

En somme, l’IA a fait des progrès significatifs dans la compréhension du langage et du sens. Elle a ouvert de nouvelles perspectives dans notre compréhension du langage et du sens, et a potentiellement changé la façon dont nous percevons notre place dans l’univers linguistique. Malgré cela, il reste encore des défis à relever, tels que l’intégration de la dimension sensorielle et spatio-temporelle dans la compréhension du sens par les machines.

Une interrogation reste en suspens : Est-ce réellement profitable pour l’humanité de cohabiter dans cet univers linguistique avec une autre entité ? Cela relève d’un autre débat philosophique. Pour ma part, la réponse à cette question ne fait aucun doute et fera l’objet d’un prochain article médium.

— — -

Références:

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532–1543).

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436–444.

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.

Churchland, P. S. (1981). Eliminative materialism and the propositional attitudes. The Journal of Philosophy, 78(2), 67–90.

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.

Friston, K. (2010). The free-energy principle: a unified brain theory?. Nature Reviews Neuroscience, 11(2), 127–138.

Christiano, P., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (pp. 4299–4307).

Hassabis, D., Kumaran, D., Summerfield, C., & Botvinick, M. (2017). Neuroscience-inspired artificial intelligence. Neuron, 95(2), 245–258.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

--

--