Évaluer une compétence

L'évaluation systématique d'une compétence permet de comparer plusieurs versions, plusieurs modèles, et de prendre des décisions fondées avant de pousser une skill en production.

Onglet Évaluation d'une compétence — datasets et benchmarks

Vue d'ensemble

Depuis la vue détail d'une skill, l'onglet Évaluation propose :

Vue d'ensemble — les résultats des derniers benchmarks.
Datasets — les jeux de tests à exécuter sur la skill.

Si aucun dataset n'existe, le message « Aucun dataset » s'affiche avec « Créez un dataset de cas de test pour évaluer ce skill. »

Créer un dataset

Onglet Évaluation → Créer un dataset.

Renseignez le Nom (ex: « Tests de base »), une Description optionnelle, une Version.

Choisissez l'Origine du dataset : Personnalisé, Référence (provenant d'une bibliothèque), Sectoriel, ou Entreprise.

Ajoutez des Cas de test (voir ci-dessous).

Validez. Un toast « Dataset créé » confirme.

Ajouter des cas de test

Pour chaque cas :

Prompt — le message d'entrée à donner à la skill (placeholder « Message de test... »).
Sortie attendue (optionnelle) — la réponse attendue, pour comparer.

Le bouton Ajouter un cas ajoute une ligne. Retirer la supprime.

Si aucun cas n'est ajouté, le message « Ajoutez au moins un cas de test » s'affiche — un dataset vide n'est pas exécutable.

Lancer un benchmark

Une fois un dataset prêt :

Onglet Évaluation → section Benchmarks → Lancer un benchmark.

Choisissez le modèle à tester. Vous pouvez relancer le même dataset sur plusieurs modèles pour comparer.

Confirmez. Le benchmark s'exécute en arrière-plan.

Si aucun benchmark n'existe encore, le message « Aucun benchmark » s'affiche avec « Lancez un benchmark pour évaluer le skill sur ce dataset. »

Lire les résultats

Chaque benchmark terminé affiche :

Métrique	Description
Statut	Terminé / En cours / Échec
Modèle	Modèle utilisé pour l'évaluation
Taux de réussite	Proportion de cas où la sortie correspond à l'attendu (si défini)
Latence moyenne	Temps moyen par cas de test

Cliquez sur un benchmark pour voir le détail cas par cas.

Comparer plusieurs modèles

L'usage type :

Créez un dataset représentatif.
Lancez 3-4 benchmarks avec des modèles différents (par exemple : Haiku rapide, Sonnet équilibré, Opus puissant).
Comparez Taux de réussite × Latence × Coût (le coût est visible dans les Traces d'exécution).
Choisissez le meilleur compromis pour votre cas d'usage et fixez ce modèle comme défaut sur l'agent qui utilise la skill.

Et ensuite ?

Discuter avec un agent — utiliser la skill évaluée en production.
Partager — diffuser la skill validée à votre équipe.