Évaluations

Les Évaluations permettent de mesurer la qualité des réponses de la recherche augmentée en confrontant un profil RAG à un dataset de questions de référence. Vous obtenez un taux de réussite, des latences et une analyse question par question — utile pour calibrer un profil et détecter les régressions.

À quoi ça sert

Vérifier qu'un profil RAG répond correctement à un ensemble de questions attendues.
Comparer plusieurs exécutions entre elles et désigner une référence.
Suivre la latence et la couverture de mots-clés des réponses.
Identifier les questions auxquelles le RAG répond mal ou ne répond pas.

Onglet Évaluations

Page Évaluations RAG — onglet Exécutions actif, état vide « Aucune évaluation pour le moment » et bouton « Nouvelle évaluation »

L'onglet Exécutions liste les campagnes lancées. Chaque ligne indique le dataset, le profil, le statut, la progression, le taux de réussite, la latence moyenne et la date de création. Les statuts possibles sont :

Statut	Signification
En attente	L'exécution est en file, le traitement n'a pas démarré.
En cours	Les questions du dataset sont en cours de traitement.
Terminé	L'exécution est terminée, les résultats sont consultables.
Échoué	L'exécution a échoué — consultez le message d'erreur dans le détail.

Lancer une évaluation

Dans l'onglet "Exécutions", cliquez sur Nouvelle évaluation.

Choisissez le dataset de questions à utiliser.

Choisissez le profil RAG à évaluer.

Sélectionnez la ou les bases de connaissances (mémoires) à interroger. Seules celles rattachées au profil choisi sont proposées.

Vérifiez le récapitulatif puis cliquez sur Lancer.

Dialogue Lancer une évaluation — sélecteurs Dataset, Profil RAG et Mémoires (Tout sélectionner), boutons Annuler / Lancer

Si le dataset et le profil n'utilisent pas le même modèle d'embedding, l'évaluation est refusée avec l'erreur "Embedding model mismatch". Le dataset doit avoir été indexé avec le même modèle d'embedding que celui du profil évalué — sinon, recréez le dataset ou choisissez un profil compatible.

Suivre une exécution

Tant qu'une exécution est "En attente" ou "En cours", la liste se rafraîchit automatiquement toutes les 3 secondes. Inutile de recharger la page.

Détail d'une exécution

Cliquez sur une exécution pour ouvrir sa page de détail. Tant qu'elle est en cours, la page se rafraîchit toutes les 5 secondes et affiche une barre de progression. Une fois terminée, quatre cartes résument les résultats :

Carte	Ce qu'elle mesure
Taux de réussite	Pourcentage de questions réussies, avec le détail réussies / échouées.
Latence moyenne	Temps de réponse moyen, et la latence P95.
Couverture mots-clés	Moyenne des mots-clés attendus retrouvés dans les réponses.
Taux sans réponse	Part des questions pour lesquelles aucune réponse n'a été trouvée.

Un tableau détaille ensuite chaque question évaluée.

Pour ajuster un profil après une évaluation, voir Profils RAG.
Pour vérifier le découpage des documents évalués, voir Chunks.

À quoi ça sert

Onglet Évaluations

Lancer une évaluation

Suivre une exécution

Détail d'une exécution

Définir une référence

Onglet Datasets

Et ensuite ?

On this page