Évaluations
Lancer des campagnes d'évaluation pour mesurer la qualité du RAG.
Les Évaluations permettent de mesurer la qualité des réponses de la recherche augmentée en confrontant un profil RAG à un dataset de questions de référence. Vous obtenez un taux de réussite, des latences et une analyse question par question — utile pour calibrer un profil et détecter les régressions.
À quoi ça sert
- Vérifier qu'un profil RAG répond correctement à un ensemble de questions attendues.
- Comparer plusieurs exécutions entre elles et désigner une référence.
- Suivre la latence et la couverture de mots-clés des réponses.
- Identifier les questions auxquelles le RAG répond mal ou ne répond pas.
Onglet Évaluations
Page Évaluations RAG — onglet Exécutions actif, état vide « Aucune évaluation pour le moment » et bouton « Nouvelle évaluation »
L'onglet Exécutions liste les campagnes lancées. Chaque ligne indique le dataset, le profil, le statut, la progression, le taux de réussite, la latence moyenne et la date de création. Les statuts possibles sont :
| Statut | Signification |
|---|---|
| En attente | L'exécution est en file, le traitement n'a pas démarré. |
| En cours | Les questions du dataset sont en cours de traitement. |
| Terminé | L'exécution est terminée, les résultats sont consultables. |
| Échoué | L'exécution a échoué — consultez le message d'erreur dans le détail. |
Lancer une évaluation
Dialogue Lancer une évaluation — sélecteurs Dataset, Profil RAG et Mémoires (Tout sélectionner), boutons Annuler / Lancer
Si le dataset et le profil n'utilisent pas le même modèle d'embedding, l'évaluation est refusée avec l'erreur "Embedding model mismatch". Le dataset doit avoir été indexé avec le même modèle d'embedding que celui du profil évalué — sinon, recréez le dataset ou choisissez un profil compatible.
Suivre une exécution
Tant qu'une exécution est "En attente" ou "En cours", la liste se rafraîchit automatiquement toutes les 3 secondes. Inutile de recharger la page.
Détail d'une exécution
Cliquez sur une exécution pour ouvrir sa page de détail. Tant qu'elle est en cours, la page se rafraîchit toutes les 5 secondes et affiche une barre de progression. Une fois terminée, quatre cartes résument les résultats :
| Carte | Ce qu'elle mesure |
|---|---|
| Taux de réussite | Pourcentage de questions réussies, avec le détail réussies / échouées. |
| Latence moyenne | Temps de réponse moyen, et la latence P95. |
| Couverture mots-clés | Moyenne des mots-clés attendus retrouvés dans les réponses. |
| Taux sans réponse | Part des questions pour lesquelles aucune réponse n'a été trouvée. |
Un tableau détaille ensuite chaque question évaluée.
Définir une référence
Sur une exécution terminée, le bouton Définir comme baseline la désigne comme référence pour les comparaisons futures. Le bouton Comparer permet de confronter une exécution à une autre.
Onglet Datasets
L'onglet Datasets liste les jeux de questions de référence. Chaque dataset porte un nom, un nombre de questions, une version et une date de modification. C'est ici que vous créez et gérez les datasets qui serviront aux évaluations.
Page Évaluations RAG — onglet Datasets actif, état vide « Aucun dataset pour le moment » et bouton « Créer un dataset »
Et ensuite ?
- Pour ajuster un profil après une évaluation, voir Profils RAG.
- Pour vérifier le découpage des documents évalués, voir Chunks.

