Superfasttt

Évaluations

Lancer des campagnes d'évaluation pour mesurer la qualité du RAG.

Les Évaluations permettent de mesurer la qualité des réponses de la recherche augmentée en confrontant un profil RAG à un dataset de questions de référence. Vous obtenez un taux de réussite, des latences et une analyse question par question — utile pour calibrer un profil et détecter les régressions.

À quoi ça sert

  • Vérifier qu'un profil RAG répond correctement à un ensemble de questions attendues.
  • Comparer plusieurs exécutions entre elles et désigner une référence.
  • Suivre la latence et la couverture de mots-clés des réponses.
  • Identifier les questions auxquelles le RAG répond mal ou ne répond pas.

Onglet Évaluations

Page Évaluations RAG — onglet Exécutions actif, état vide « Aucune évaluation pour le moment » et bouton « Nouvelle évaluation »Page Évaluations RAG — onglet Exécutions actif, état vide « Aucune évaluation pour le moment » et bouton « Nouvelle évaluation »

L'onglet Exécutions liste les campagnes lancées. Chaque ligne indique le dataset, le profil, le statut, la progression, le taux de réussite, la latence moyenne et la date de création. Les statuts possibles sont :

StatutSignification
En attenteL'exécution est en file, le traitement n'a pas démarré.
En coursLes questions du dataset sont en cours de traitement.
TerminéL'exécution est terminée, les résultats sont consultables.
ÉchouéL'exécution a échoué — consultez le message d'erreur dans le détail.

Lancer une évaluation

Dans l'onglet "Exécutions", cliquez sur Nouvelle évaluation.
Choisissez le dataset de questions à utiliser.
Choisissez le profil RAG à évaluer.
Sélectionnez la ou les bases de connaissances (mémoires) à interroger. Seules celles rattachées au profil choisi sont proposées.
Vérifiez le récapitulatif puis cliquez sur Lancer.
Dialogue Lancer une évaluation — sélecteurs Dataset, Profil RAG et Mémoires (Tout sélectionner), boutons Annuler / LancerDialogue Lancer une évaluation — sélecteurs Dataset, Profil RAG et Mémoires (Tout sélectionner), boutons Annuler / Lancer

Si le dataset et le profil n'utilisent pas le même modèle d'embedding, l'évaluation est refusée avec l'erreur "Embedding model mismatch". Le dataset doit avoir été indexé avec le même modèle d'embedding que celui du profil évalué — sinon, recréez le dataset ou choisissez un profil compatible.

Suivre une exécution

Tant qu'une exécution est "En attente" ou "En cours", la liste se rafraîchit automatiquement toutes les 3 secondes. Inutile de recharger la page.

Détail d'une exécution

Cliquez sur une exécution pour ouvrir sa page de détail. Tant qu'elle est en cours, la page se rafraîchit toutes les 5 secondes et affiche une barre de progression. Une fois terminée, quatre cartes résument les résultats :

CarteCe qu'elle mesure
Taux de réussitePourcentage de questions réussies, avec le détail réussies / échouées.
Latence moyenneTemps de réponse moyen, et la latence P95.
Couverture mots-clésMoyenne des mots-clés attendus retrouvés dans les réponses.
Taux sans réponsePart des questions pour lesquelles aucune réponse n'a été trouvée.

Un tableau détaille ensuite chaque question évaluée.

Définir une référence

Sur une exécution terminée, le bouton Définir comme baseline la désigne comme référence pour les comparaisons futures. Le bouton Comparer permet de confronter une exécution à une autre.

Onglet Datasets

L'onglet Datasets liste les jeux de questions de référence. Chaque dataset porte un nom, un nombre de questions, une version et une date de modification. C'est ici que vous créez et gérez les datasets qui serviront aux évaluations.

Page Évaluations RAG — onglet Datasets actif, état vide « Aucun dataset pour le moment » et bouton « Créer un dataset »Page Évaluations RAG — onglet Datasets actif, état vide « Aucun dataset pour le moment » et bouton « Créer un dataset »

Et ensuite ?

  • Pour ajuster un profil après une évaluation, voir Profils RAG.
  • Pour vérifier le découpage des documents évalués, voir Chunks.

On this page