Les LLM : triomphe de l’IA ou désillusion ?
Cet article est le premier d’une série explorant l’univers de l’intelligence artificielle générative. À travers ces publications, nous nous penchons sur les LLM, modèles de langage de grande taille comme ChatGPT, pour comprendre leur impact et leur implication dans le monde de l’IA.
Articles de la série :
- Les LLM : triomphe de l’IA ou désillusion ?
- Les LLM : entre progrès technologique et défis environnementaux
- Comment utiliser les LLM de manière responsable : l’enjeu de la frugalité
ChatGPT : l’intelligence artificielle à portée de smartphone
L’avènement de ChatGPT a marqué un tournant dans la perception et l’interaction avec l’intelligence artificielle par le public. En rendant l’IA accessible à travers une conversation en langage familier et intuitif, ChatGPT a modifié la manière dont les utilisateurs pensent les technologies de l’IA et interagissent avec elles.
Avant ChatGPT, les interactions directes avec l’IA étaient souvent limitées à des engagements plus structurés ou passifs, comme l’utilisation d’assistants vocaux comme Siri ou d’algorithmes de recommandation comme Netflix. ChatGPT offre au contraire une expérience conversationnelle continue et dynamique, permettant aux utilisateurs de participer à des dialogues en temps réel sur une multitude de sujets.
Cette percée a permis à l’IA de ressembler davantage à un être humain qu’à une technologie lointaine ou opaque. Cela a favorisé une meilleure appréciation et une plus grande curiosité par rapport aux capacités de l’IA et de ses influences potentielles sur la vie quotidienne. Ne plus considérer l’IA comme un outil dans des applications spécifiques, mais comme un partenaire de conversation, a montré tout le potentiel que peut avoir l’IA dans les activités sociales et intellectuelles de tous les jours.
Une frontière mince entre la recherche et la mise à disposition au public
Le modèle de réseau de neurones se cachant derrière ChatGPT s’appelle un Large Language Model (LLM). Les LLM utilisent un bloc de construction appelé « transformer » qui les aide à mieux comprendre les séquences. Contrairement aux approches où l’algorithme considère chaque mot d’une phrase comme une entité séparée pour produire le résultat, un transformer prend en compte un mot et son contexte (les mots qui l’entourent avant et après) pour obtenir le sens nuancé du mot. Contrairement aux modèles précédents qui traitaient le texte de manière linéaire, les transformers peuvent traiter les mots en parallèle, ce qui les rend beaucoup plus rapides et efficaces pour apprendre à partir de grandes quantités de texte.
Récemment, les LLM basés sur la technologie des transformers sont rapidement passés du stade de la recherche et développement à celui des applications réelles. Cette transition rapide vers la production est tout à fait inhabituelle par rapport à d’autres technologies, qui subissent généralement de longues phases de test et de perfectionnement tels que les solutions de réalité virtuelle de Meta.
L’un des principaux facteurs de ce déploiement rapide est la contribution des communautés et des plateformes en libre accès dites Open Source, telles que Hugging Face. Ces plateformes fournissent des outils prêts à l’emploi qui simplifient l’intégration de ces modèles avancés dans diverses applications, accélérant ainsi leur déploiement.
Il existe une distinction importante entre les modèles Open Source et les modèles Closed Source. Des entreprises telles que Meta et OpenAI développent des modèles d’IA de pointe, mais leur approche du partage de ces innovations diffère. OpenAI, qui a commencé avec une philosophie plus ouverte, a évolué vers une stratégie de diffusion plus contrôlée avec ses derniers modèles, comme GPT-4o, offrant un accès limité aux développeurs. Cela permet à OpenAI de maintenir le contrôle et de rentabiliser ses développements tout en contribuant à la communauté de l’IA au sens large.
D’autre part, Meta a progressé vers une plus grande ouverture en publiant certains de ses modèles d’IA et de ses recherches sous des licences dites libres qui permettent leur exploitation commerciale. Cette approche favorise un environnement transparent et collaboratif qui accélère l’innovation et permet à la communauté mondiale des chercheurs d’examiner et d’améliorer les modèles.
En résumé, les modèles Open Source favorisent l’implication et l’innovation de la communauté au sens large, tandis que les modèles Closed Source contrôlent l’utilisation par le biais d’un accès propriétaire, en se concentrant sur les applications commerciales et en limitant potentiellement les perspectives de développement externes.
L’enjeu de la fiabilité
Il est important de noter que si ces modèles sont souvent qualifiés de “Open Source”, ce sont les paramètres que les modèles ont appris au cours de l’entraînement qui sont généralement ouverts et pas nécessairement l’ensemble du code sous-jacent ou les données d’entrainement. Cette distinction est cruciale, car l’accès aux paramètres permet à d’autres développeurs d’utiliser le modèle tel quel, mais sans accès à l’ensemble des procédures ou des données d’apprentissage, les utilisateurs risquent de ne pas comprendre pleinement comment le modèle génère ses résultats.
Cela peut poser des problèmes de transparence, de reproductibilité et de confiance, en ce qui concerne les applications sensibles. La compréhension scientifique et opérationnelle complète de ces modèles est limitée à ceux qui ont accès à leurs environnements d’entraînement et à leurs ensembles de données complets.
Les LLM tels que GPT, sur lequel se base ChatGPT, fonctionnent fondamentalement en prédisant et en générant du texte sur la base de modèles appris à partir d’un vaste ensemble de données. L’une des caractéristiques intrinsèques de ces modèles est qu’ils peuvent générer des réponses différentes à la même demande, ou “prompt”, à différentes occasions. Cette variabilité peut être considérée comme une fonctionnalité, reflétant la capacité du modèle à produire des résultats divers et créatifs.
Les réponses générées par un LLM sont construites à partir de la fusion des informations auxquelles il a été exposé au cours de son développement. Ces modèles ne connaissent pas la véracité ou l’exactitude factuelle des données d’entrée ; ils se contentent de reproduire le style, le ton et le modèle de la langue qu’ils ont apprise. Par conséquent, les “décisions” concernant ce qui peut être considéré comme vrai sont indirectement prises par ceux qui compilent les ensembles de données d’entraînement et des objectifs d’entraînement. Le modèle lui-même n’a pas la capacité de discerner ou de choisir la vérité ; il génère des textes à consonance plausible sur la base de probabilités statistiques.
Il en résulte un problème important : les LLM peuvent produire des textes cohérents, fluides et autoritaires, ce qui peut donner une fausse impression de fiabilité et de véracité. Les utilisateurs peuvent percevoir les informations comme exactes simplement parce qu’elles sont bien présentées. Cependant, sans la possibilité de vérifier les faits ou de comprendre les données sous-jacentes, un LLM peut perpétuer les inexactitudes ou les informations biaisées présentes dans ses données d’apprentissage. Ainsi, bien que les LLM soient des outils puissants pour générer des textes semblables à ceux des êtres humains, il peut être problématique de se fier à eux pour l’exactitude des faits.
Ce ne sont pas des arbitres de la vérité, mais plutôt des identificateurs de tendances sophistiqués, capables d’assembler des informations sous des formes lisibles par l’homme sans véritable compréhension ou garantie d’exactitude. Cela souligne l’importance d’une utilisation judicieuse de ces modèles et notamment dans la rédaction des requêtes, en particulier dans des contextes où l’exactitude et la vérité sont primordiales. Ce sont des outils très efficaces pour générer des idées et itérer dessus, mais il ne faut pas se reposer dessus sans regard critique quant au résultat obtenu.
L’Intelligence Artificielle Générale n’est pas encore à portée
Lorsque vous utilisez ChatGPT, il est essentiel de comprendre que votre interaction ne se fait pas uniquement avec le LLM. La réponse du LLM passe par une série de vérifications et de contrôles avant que sa réponse ne soit validée. Ceux-ci sont conçus par les développeurs pour répondre à différents points d’attention tels que la sécurité du contenu, la pertinence et le contexte de l’utilisateur. Ces couches de contrôle font partie intégrante de la garantie que les résultats du modèle ne sont pas seulement cohérents, mais qu’ils s’alignent également sur des lignes directrices éthiques spécifiques et des normes d’utilisation pratique.
Ce contrôle structuré permet d’atténuer les problèmes potentiels tels que la génération de contenu inapproprié ou le renforcement des préjugés, qui sont des préoccupations essentielles compte tenu de l’apprentissage du modèle à partir de textes obtenus de sources diverses et étendues sur Internet. L’expérience récente de Google AI avec l’usage de publications sur Reddit comme source pour Gemini, équivalent de ChatGPT, montre bien le danger d’une confiance aveugle accordée aux données d’entrée.
En outre, le flux de conversation dans ChatGPT n’est pas simplement une série de réponses indépendantes, mais est géré par des mécanismes qui tiennent compte de l’historique de l’interaction. Cette gestion du contexte permet au système de maintenir une conversation cohérente et adaptée au contexte avec les utilisateurs. Par exemple, si vous demandez à ChatGPT de fournir des réponses en français dans votre première demande, il continuera à le faire dans les échanges suivants jusqu’à ce que vous lui demandiez d’arrêter, améliorant ainsi la continuité et la pertinence de l’interaction.
Ce traitement sophistiqué du dialogue simule un flux de conversation plus naturel qui pourrait autrement nécessiter une compréhension et une mémoire de niveau humain. Cette intégration systémique des interactions antérieures enrichit considérablement l’expérience de l’utilisateur, sans quoi le résultat final n’aurait pas été aussi impressionnant. Nous n’en sommes toutefois pas au niveau d’une hypothétique Intelligence Artificielle Générale.
L’Intelligence Artificielle Générale (IAG) représente une forme théorique d’IA capable de comprendre, d’apprendre et d’appliquer des connaissances à un large éventail de tâches, à l’instar d’un être humain, démontrant de véritables capacités cognitives dans divers domaines sans être confinée à des tâches étroites et spécialisées comme le sont les systèmes d’IA actuels.
Contrairement à l’IA actuelle qui excelle dans des applications spécifiques telles que la génération de texte, mais manquent de compréhension ou d’adaptabilité, l’IAG posséderait la capacité de généraliser son apprentissage et son raisonnement à des situations nouvelles et imprévues sans programmation supplémentaire. Ce concept d’IAG incarne un niveau de polyvalence et d’adaptabilité qui va bien au-delà des capacités de l’IA actuelle, marquant un changement fondamental des systèmes spécifiques à une tâche vers des machines véritablement autonomes et pensantes. Nous n’en sommes donc toujours pas là.
La culture du Deep Learning repose sur la conviction qu’en créant des algorithmes suffisamment complexes et en les alimentant avec suffisamment de données, nous pouvons répondre à toutes les questions possibles. Elle tend à affirmer que si nous avions seulement un peu plus de calcul, un peu plus de données, nous atteindrions indéniablement la mythique IAG. Cependant, tout comme l’humain est capable d’apprendre et de généraliser à partir d’un nombre limité d’observations, il faudrait plutôt tendre vers des modèles capables d’apprendre sans être exposés à des milliards de points de données.
La nature tend à minimiser l’énergie nécessaire à la réalisation d’une tâche et il doit en être de même en IA, surtout que les ressources ne sont pas illimitées dans les faits et qu’il n’est pas rentable, du point de vue de l’empreinte écologique, de mobiliser des milliers de serveurs de calculs pour une amélioration presque négligeable.
De nouvelles architectures alternatives émergent et remettent en question les normes établies par des modèles tels que les transformers, à la faible efficacité énergétique pour le traitement de séquences. L’une de ces innovations comprend des architectures inspirées du théorème de représentation de Kolmogorov-Arnold. Cette approche vise à réduire la complexité et à améliorer l’interprétabilité des réseaux neuronaux en se concentrant sur des principes mathématiques fondamentaux de représentation des fonctions plus simples, mais d’une grande efficacité.
Simultanément, une autre architecture, connue sous le nom de Mamba, est apparue comme une alternative aux transformers. Mamba cherche à résoudre certains des problèmes d’évolutivité et d’efficacité des ressources inhérents aux modèles de transformers en proposant une approche architecturale différente qui maintient ou améliore les performances tout en réduisant potentiellement les coûts de calcul.
D’autres modèles sont en cours de développement avec de nouvelles pistes pour pallier les faiblesses de leurs prédécesseurs.
Les Liquid Neural Networks envisagent une adaptabilité du réseau post-entraînement, avec moins de neurones, mais des neurones plus complexes et adaptables, simulant mieux les capacités humaines de perception.
L’inférence active introduit l’idée de minimiser la surprise et la complexité, s’alignant sur la façon dont le cerveau humain cherche à éviter sa propre surprise. Ce dernier modélise et interagit avec le monde en produisant une représentation performante et économique. On minime alors l’objectif et la contrainte simultanément.
Les modèles basés sur l’énergie (Energy Based Models — EBM) proposent une approche alignée sur les lois de la physique, où la cohérence des données d’entrée est évaluée (une ombre de la bonne forme sur une image par exemple), indiquant une direction vers une intelligence artificielle naturellement multimodale.
Ces développements indiquent un changement dynamique dans la recherche en IA, qui se concentre sur l’optimisation des paradigmes existants et l’exploration de méthodologies fondamentalement distinctes pour repousser les limites de ce que les architectures d’apprentissage automatique peuvent réaliser tout en contrôlant les ressources nécessaires à leur fonctionnement.
Conclusion
L’architecture des LLM classiques a révolutionné le domaine de l’apprentissage automatique grâce à sa capacité à accélérer considérablement les temps d’apprentissage et améliore la capacité du modèle à traiter efficacement de grands ensembles de données. Cette capacité l’a rendu particulièrement apte à utiliser les serveurs de calcul les plus puissants, ce qui correspond bien à la tendance actuelle vers des modèles de plus en plus grands et complexes dans la recherche de performances plus élevées.
Toutefois, l’accent mis sur l’exploitation de ressources de calcul considérables pour obtenir des résultats de pointe a paradoxalement détourné la communauté des chercheurs de l’efficacité et de la frugalité. Au lieu d’optimiser l’utilisation des ressources et l’impact sur l’environnement, l’attrait d’obtenir les meilleurs résultats possibles aux tests de référence a fait exploser la demande d’ordinateurs plus puissants, en négligeant souvent le coût, la durabilité et l’accessibilité des technologies de l’IA.
Cette tendance soulève d’importantes questions sur les implications à long terme de la priorité donnée aux performances brutes sur l’efficacité des calculs, et sur l’impact plus large du développement de l’IA sur l’utilisation des ressources et l’empreinte écologique.
Alors que la nature optimise l’utilisation des ressources, l’IA se concentre sur l’optimisation des objectifs sans considération suffisante pour les ressources nécessaires. Nous aborderons cette thématique dans nos prochains articles ainsi que les méthodologies existantes afin d’atteindre des objectifs de frugalité dans l’usage des LLM.
À propos du DataLab
L’ILB Data Lab est une équipe d’ingénieurs data scientists, rodés aux problématiques de l’industrie financière, qui combine une expertise confirmée et des compétences techniques pour mener de bout en bout des projets de R&D en data science en développant des solutions de pointe.
Remerciements
Nous tenons tout particulièrement à remercier Iker TARDIO, Jérémy VILCOSQUI, Mohamed FARHAT, Gabriel LEVY et Louis BOULANGER pour leur implication dans cette série d’articles, aux côtés de Rafik MANKOUR, auteur de ces publications.