Advanced RAG 03 : Utilisation de RAGAs + LlamaIndex pour l’évaluation de RAG

Chat Gpt Plus Code Promo
10 min readApr 25, 2024

--

⭐⭐ Vivez l’expérience de AI Essentials à seulement 29,99€ par mois ! Plongez dans un univers d’outils ChatGPT (Chat AI), Rankerfox (15+ outils inclus, dont SEMRush) Submagic (Sous-titres automatique),Midjourney (Generation d’Image), Vidyo (Edition de Video), Jasper (Copywriting), Cutout.pro (Amélioration Photo/Video), Runway (Text to Video), Copy.ai (Copywriting), Fliki (Création de Video), ElevenLabs (AI Voices), Invideo AI (AI Video Editor)… qui peuvent transformer votre carrière. Profitez de cette chance incroyable pour augmenter votre efficacité tout en bénéficiant d’un soutien constant et engagé. Activez votre abonnement dès aujourd’hui et atteignez votre potentiel créatif à un tarif compétitif ! ⭐⭐

Advanced RAG 03 : Utilisation de RAGAs + LlamaIndex pour l’évaluation de RAG

Incluant des principes, des diagrammes et du code

Si vous avez développé une application de Génération Augmentée par Recherche (RAG) pour un système d’entreprise réel, vous êtes probablement préoccupé par son efficacité. En d’autres termes, vous souhaitez évaluer la performance de la RAG.

De plus, si vous constatez que votre RAG existante n’est pas suffisamment efficace, vous devrez peut-être vérifier l’efficacité des méthodes avancées d’amélioration de la RAG. En d’autres termes, vous devez mener une évaluation pour voir si ces méthodes d’amélioration sont efficaces.

Dans cet article, nous introduisons d’abord les métriques d’évaluation pour la RAG proposées par , un cadre pour l’évaluation des pipelines RAG. Ensuite, nous expliquons comment mettre en œuvre l’ensemble du processus d’évaluation en utilisant RAGAs + LlamaIndex.

Métriques d’évaluation de RAG

En termes simples, le processus de RAG implique trois parties principales : la requête d’entrée, le contexte récupéré et la réponse générée par le LLM. Ces trois éléments forment la triade la plus importante du processus de RAG et sont interdépendants.

Par conséquent, l’efficacité de la RAG peut être évaluée en mesurant la pertinence entre ces triades, comme le montre la Figure 1.

mentionne un total de 3 métriques : Fidélité, Pertinence de la réponse et Pertinence du contexte, ces métriques ne nécessitent pas l’accès à des ensembles de données annotées par des humains ou à des réponses de référence.

De plus, introduit deux autres métriques : Précision du contexte et Rappel du contexte.

Fidélité/Fondement

La fidélité fait référence à la garantie que la réponse est basée sur le contexte donné. C’est important pour éviter les illusions et s’assurer que le contexte récupéré peut être utilisé comme justification pour générer la réponse.

Si le score est faible, cela indique que la réponse du LLM ne respecte pas les connaissances récupérées, et la probabilité de fournir des réponses hallucinatoires augmente. Par exemple :

Pour estimer la fidélité, nous utilisons d’abord un LLM pour extraire un ensemble d’énoncés, S(a(q)). La méthode consiste à utiliser le prompt suivant :

Après avoir généré S(a(q)), le LLM détermine si chaque énoncé si peut être déduit de c(q). Cette étape de vérification est effectuée en utilisant le prompt suivant :

Le score final de fidélité, F, est calculé comme F = |V| / |S|, où |V| représente le nombre d'énoncés qui ont été appuyés selon le LLM, et |S| représente le nombre total d'énoncés.

Tester Gratuitement ChatGpt, Midjourney et les meilleurs outils IA pour la création de Video, Audio

👉3 jours d’essais Gratuit offert : Cliquez ici

Pertinence de la réponse

Cette métrique mesure la pertinence entre la réponse générée et la requête. Un score plus élevé indique une meilleure pertinence. Par exemple :

Pour estimer la pertinence d’une réponse, nous demandons au LLM de générer n questions potentielles, qi, basées sur la réponse donnée a(q), comme suit :

Ensuite, nous utilisons un modèle d’encastrement de texte pour obtenir des encastrements pour toutes les questions.

Pour chaque qi, nous calculons la similarité sim(q, qi) avec la question originale q. Cela correspond à la similarité cosinus entre les encastrements. Le score de pertinence de la réponse AR pour la question q est calculé comme suit :

Pertinence du contexte

Il s’agit d’une métrique pour mesurer la qualité de la récupération, évaluant principalement le degré auquel le contexte récupéré soutient la requête. Un score bas indique qu’une quantité significative de contenu irrélevant a été récupérée, ce qui peut affecter la réponse finale générée par le LLM. Par exemple :

Pour estimer la pertinence du contexte, un ensemble de phrases clés (Sext) est extrait du contexte (c(q)) à l'aide de LLM. Ces phrases sont cruciales pour répondre à la question. Le prompt est le suivant :

Ensuite, dans RAGAs, la pertinence est calculée au niveau de la phrase en utilisant la formule suivante :

Rappel du contexte

La métrique mesure le niveau de cohérence entre le contexte récupéré et la réponse annotée. Il est calculé en utilisant la vérité terrain et le contexte récupéré, avec des valeurs plus élevées indiquant de meilleures performances. Par exemple :

Lors de la mise en œuvre, il est nécessaire de fournir des données de vérité terrain.

La formule de calcul est la suivante :

Précision du contexte

Cette métrique est relativement complexe, elle est utilisée pour mesurer si tous les contextes pertinents contenant des faits réels qui sont récupérés sont classés en haut. Un score plus élevé indique une précision plus élevée.

La formule de calcul pour cette métrique est la suivante :

L’avantage de la Précision du contexte est sa capacité à percevoir l’effet de classement. Cependant, son inconvénient est que s’il y a très peu de rappels pertinents, mais qu’ils sont tous classés en haut, le score sera également élevé. Par conséquent, il est nécessaire de considérer l’effet global en combinant plusieurs autres métriques.

Utilisation de RAGAs + LlamaIndex pour l’évaluation de RAG

Le processus principal est illustré dans la Figure 6 :

Configuration de l’environnement

Installez ragas : pip install ragas. Ensuite, vérifiez la version actuelle.

Il convient de mentionner que si vous installez la dernière version (v0.1.0rc1) en utilisant pip install git+https://github.com/explodinggradients/ragas.git, il n'y a pas de support pour LlamaIndex.

Ensuite, importez les bibliothèques pertinentes, configurez l’environnement et les variables globales.

Il n’y a qu’un seul fichier PDF dans le répertoire, le document “” est utilisé.

Utilisation de LlamaIndex pour construire un moteur de requête RAG simple

Par défaut, le modèle OpenAI est utilisé dans LlamaIndex, le LLM et le modèle d’encastrement peuvent être facilement configurés à l’aide de ServiceContext.

Construction d’un jeu de données d’évaluation

Comme certaines métriques nécessitent des ensembles de données annotées manuellement, j’ai écrit quelques questions et leurs réponses correspondantes moi-même.

Sélection des métriques et évaluation de RAGAs

Notez que par défaut, dans RAGAs, le modèle OpenAI est utilisé.

Dans RAGAs, si vous souhaitez utiliser un autre LLM (tel que Gemini) pour évaluer avec LlamaIndex, je n’ai pas trouvé de méthodes utiles dans la version RAGAs 0.0.22, même après avoir débogué le code source de RAGAs.

Code final

Notez que lors de l’exécution du programme dans le terminal, le dataframe pandas peut ne pas être affiché complètement. Pour le visualiser, vous pouvez l’exporter sous forme de fichier CSV, comme indiqué dans la Figure 6.

D’après la Figure 6, il est évident que la quatrième question, “Parlez-moi du jeu de données starcoderdata”, a tous des zéros. C’est parce que le LLM n’a pas pu fournir de réponse. Les deuxième et troisième questions ont une précision du contexte de 0, ce qui indique que les contextes pertinents des contextes récupérés n’ont pas été classés en haut. Le rappel du contexte pour la deuxième question est de 0, ce qui indique que les contextes récupérés ne correspondent pas à la réponse annotée.

Maintenant, examinons les questions de 0 à 3. Les scores de pertinence de réponse pour ces questions sont élevés, ce qui indique une forte corrélation entre les réponses et les questions. De plus, les scores de fidélité ne sont pas faibles, ce qui suggère que les réponses sont principalement dérivées ou résumées à partir du contexte, il peut être conclu que les réponses ne sont pas générées en raison d’hallucinations par le LLM.

De plus, nous avons découvert que malgré notre faible score de Pertinence du contexte, gpt-3.5-turbo-16k (le modèle par défaut de RAGAs) est toujours capable de déduire les réponses à partir de celui-ci.

Sur la base des résultats, il est évident que ce système RAG de base a encore un large espace pour l’amélioration.

Conclusion

En général, RAGAs fournit des métriques complètes pour évaluer RAG et offre une invocation pratique. Actuellement, le cadre d’évaluation de RAG est insuffisant, RAGAs fournit un outil efficace.

Après avoir débogué le code source interne de RAGAs, il devient évident que RAGAs en est encore à ses débuts. Nous sommes optimistes quant à ses futures mises à jour et améliorations.

Enfin, si vous avez des questions sur cet article, veuillez les indiquer dans la section des commentaires.

🌟🌟 AI Essentials est votre clé pour libérer créativité et productivité sans éclater votre budget. À seulement 29,99€ par mois, ajoutez ChatGPT (Chat AI), Copy.ai (Copywriting), Vidyo (Edition de Video), Fliki (Création de Video), Runway (Text to Video), Jasper (Copywriting), ElevenLabs (AI Voices), Submagic (Sous-titres automatique), Rankerfox (15+ outils inclus, dont SEMRush) Cutout.pro (Amélioration Photo/Video),Midjourney (Generation d’Image), Invideo AI (AI Video Editor)… à votre boîte à outils et utilisez des ressources de premier plan pour toute création audio et vidéo. Ne manquez pas cette occasion de rejoindre les milliers qui ont déjà choisi AI Essentials pour obtenir un soutien proactif. Cliquez maintenant pour exceller dans votre domaine ! 🌟🌟

AI Essentials : L’outil incontournable pour les passionnés d’IA

AI Essentials : Votre passeport pour l’ère de l’Intelligence Artificielle 🚀

Si vous avez développé une application basée sur la Génération Augmentée par Récupération (RAG) pour un système d’entreprise réel, vous vous préoccupez probablement de son efficacité. Vous souhaitez évaluer la performance de votre RAG et vous assurer qu’elle répond aux attentes. C’est là qu’intervient AI Essentials, votre compagnon essentiel dans ce voyage vers l’efficacité maximale de votre système IA.

AI Essentials agit comme le partenaire idéal pour évaluer et améliorer votre RAG. Grâce à une gamme complète de fonctionnalités et d’outils d’IA, AI Essentials simplifie le processus d’évaluation et d’amélioration de votre système de manière intuitive et efficace.

Évaluation avancée avec AI Essentials

Dans l’article Advanced RAG 03: Using RAGAs + LlamaIndex for RAG evaluation, les auteurs mettent en lumière l’importance de mesurer la pertinence des réponses générées par votre système RAG. Avec AI Essentials, vous avez accès à une panoplie de métriques d’évaluation avancées, vous permettant de mesurer la fidélité, la pertinence des réponses et la qualité du contexte récupéré. Grâce à des outils comme ChatGPT et Jasper, AI Essentials vous offre la possibilité d’analyser ces métriques en profondeur, vous fournissant ainsi une compréhension claire de la performance de votre système RAG.

Un outil tout-en-un pour l’amélioration continue

L’article souligne également l’importance de l’amélioration constante de votre système RAG. Avec AI Essentials, vous bénéficiez non seulement d’outils d’évaluation, mais également de solutions pour l’optimisation continue de votre système. Que vous souhaitiez améliorer la précision des réponses, la pertinence du contexte ou la fidélité des informations fournies, AI Essentials propose une gamme d’outils spécialisés pour répondre à vos besoins.

Réalisez des économies et maximisez l’efficacité avec AI Essentials

En intégrant AI Essentials dans votre processus d’évaluation et d’amélioration de la RAG, vous réalisez des économies significatives sur les abonnements individuels à plusieurs outils. Au lieu de payer séparément pour chaque solution, AI Essentials vous offre un abonnement unique à un prix avantageux. Imaginez avoir accès à plus de 12 outils essentiels pour moins que le prix d’un seul abonnement ! Grâce à notre offre de 29,99€ par mois ou 249,99€ par an, vous pouvez maximiser l’efficacité de votre système RAG tout en réalisant des économies substantielles.

Intégration fluide avec les outils AI Essentials

AI Essentials se distingue également par son intégration fluide avec une gamme d’outils d’IA de premier plan. Que vous ayez besoin de générer des images avec Midjourney, d’améliorer vos textes avec Jasper, ou de créer des vidéos avec Fliki, AI Essentials vous accompagne à chaque étape de votre parcours d’IA. Avec une compatibilité totale avec ChatGPT, ElevenLabs et bien d’autres, AI Essentials vous offre une expérience d’utilisateur sans faille, vous permettant de tirer le meilleur parti de chaque outil.

Essayez AI Essentials dès aujourd’hui, gratuitement pendant 3 jours !

Vous êtes prêt à optimiser votre système RAG et à maximiser son efficacité ? Essayez AI Essentials dès aujourd’hui et bénéficiez d’un accès gratuit pendant 3 jours avec le code promo 3DAYS. C’est votre chance exclusive de découvrir la puissance d’AI Essentials et de prendre votre système RAG au niveau supérieur. Rejoignez dès maintenant la communauté AI Essentials et transformez votre approche de l’Intelligence Artificielle !

AI Essentials : Votre allié pour l’avenir de l’IA. Rejoignez-nous dès maintenant et faites passer votre système RAG au niveau supérieur !

Questions Fréquemment Posées (FAQ)

1. Comment puis-je évaluer l’efficacité de mon application RAG ?

Pour évaluer l’efficacité de votre application RAG, suivez ces étapes :

  1. Utilisez les métriques d’évaluation proposées par le framework RAGAs.
  2. Implémentez le processus d’évaluation en utilisant RAGAs + LlamaIndex.
  3. Analysez les résultats pour identifier les domaines d’amélioration.

2. Quels sont les principaux éléments à évaluer dans un système RAG ?

Dans un système RAG, l’évaluation se concentre sur trois éléments principaux :

  • La fidélité/génération de réponse.
  • La pertinence de la réponse par rapport à la question.
  • La pertinence du contexte récupéré par rapport à la question.

3. Comment calculer la fidélité d’une réponse générée par un modèle de langage ?

Pour calculer la fidélité d’une réponse, suivez ces étapes :

  1. Extraire un ensemble de déclarations basées sur le contexte donné.
  2. Vérifier si chaque déclaration peut être inférée à partir du contexte.
  3. Calculer le score de fidélité en fonction du nombre de déclarations soutenues.

4. Comment utiliser RAGAs + LlamaIndex pour évaluer un système RAG ?

Pour évaluer un système RAG avec RAGAs + LlamaIndex :

  • Configurez votre environnement.
  • Utilisez LlamaIndex pour construire un moteur de requêtes RAG simple.
  • Construisez un ensemble de données d’évaluation.
  • Sélectionnez les métriques d’évaluation et lancez l’évaluation.

--

--