Phi-3 : Les capacités de “raisonnement” GPT-3.5 en local sur un iPhone

Published in

MoveNext

3 min readApr 24, 2024

La publication faite hier par Microsoft concernant le nouveau modèle de langage Phi-3 me rend particulièrement enthousiaste pour ce qui concerne nos projets en cours et l’avenir de l’IA générative en entreprise.

Ce modèle est décliné en plusieurs versions dont une version mini de 3.8 milliards de paramètres capable de scorer 68.8% sur le benchmark MMLU (Multi-task Language Understanding on MMLU), sachant que GPT-3.5 (173 milliards de paramètres) score 71.4% sur le même benchmark.

En contradiction avec les “scaling laws” des LLM

Ces très bons résultats sont obtenus grâce à un travail important dans la sélection de données de qualité . Ils prouvent que la qualité des données d’entraînement est un facteur clé pour les performances de “raisonnement” des modèles de langage. Les travaux démontrent qu’en apportant une attention particulière aux données on peut dévier de la fameuse “scaling-law” qui stipule que si l’on veut de meilleurs modèles la seule façon de les obtenir serait d’augmenter leur taille.

Taille de contexte extensible à 128K tokens

Une autre prouesse est que ce modèle a une taille de contexte de 4K tokens, et qu’il arrive avec une version 128K tokens, ce qui est assez fort car on sait qu’un contexte aussi grand fait perdre en performance. Pour résoudre ce problème, Microsoft a utilisé la méthode LongRope, publiée par Microsoft Research en février 2024, et qui permet d’étendre la taille du contexte d’un modèle de langage tout en gardant les performances de la taille de contexte initiale.

S’exécute sur mon iPhone

Une version quantizé en 4 bits de Phi3-mini (3.8 milliards de paramètres) occupe 1.8 Go de mémoire, ce qui lui permet de tourner sur iPhone 14 avec une puce A16 Bionic pour une performance de 12 tokens par seconde. Cela reste un peu lent mais malgré tout très impressionnant pour un modèle de cette taille et d’un tel niveau de précision par rapport aux différents benchmarks.

Open Source sous licence MIT

Le modèle disponible sur Hugging Face (https://huggingface.co/microsoft/Phi-3-mini-4k-instruct) et testable en direct sur HuggingChat.

Les limites

Ce modèle a ses propres limitations. Comme le souligne la publication de Microsoft : sa petite taille bride les capacités de stockage de “données factuelles”. Mais ce point peut être contourné en utilisant phi-3 en combinaison avec des techniques de recherche d’information et des bases de connaissances.

Une autre limitation importante est le fait que le modèle est principalement limité à l’anglais, mais on peut s’attendre à ce que des versions multi-langue ou spécifiques à d’autres langues arrivent prochainement par le biais de Microsoft ou de la communauté open source.

Mes conclusions

Je suis particulièrement enthousiaste pour ce modèle car il constitue une avancée majeure dans ce que l’on appelle les Small Language Models (SLM). Ces modèles sont très utiles pour les entreprises car ils sont plus rapides, moins chers et plus faciles à déployer que les modèles de langage plus grands.

En tant qu’ingénieur je vois plein de possibilités d’applications comme par exemple:

des assistants d’IA efficaces,
des assistants locaux qui peuvent fonctionner sans connexion internet et donc sans risque de fuite de données,
structuration de données non structurées,
etc.

Je suis convaincu que rapprocher ces modèles de langage de l’utilisateur final est une étape importante pour l’adoption de l’IA générative en entreprise.

Références:

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone — https://arxiv.org/pdf/2404.14219.pdf
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens — https://arxiv.org/pdf/2402.13753.pdf
Scaling Laws for Neural Language Models — https://arxiv.org/pdf/2001.08361.pdf
Multi-task Language Understanding on MMLU — https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu