Évaluer une compétence
Créer un dataset de cas de test, lancer un benchmark, lire les métriques.
L'évaluation systématique d'une compétence permet de comparer plusieurs versions, plusieurs modèles, et de prendre des décisions fondées avant de pousser une skill en production.
Onglet Évaluation d'une compétence — datasets et benchmarks
Vue d'ensemble
Depuis la vue détail d'une skill, l'onglet Évaluation propose :
- Vue d'ensemble — les résultats des derniers benchmarks.
- Datasets — les jeux de tests à exécuter sur la skill.
Si aucun dataset n'existe, le message « Aucun dataset » s'affiche avec « Créez un dataset de cas de test pour évaluer ce skill. »
Créer un dataset
Ajouter des cas de test
Pour chaque cas :
- Prompt — le message d'entrée à donner à la skill (placeholder « Message de test... »).
- Sortie attendue (optionnelle) — la réponse attendue, pour comparer.
Le bouton Ajouter un cas ajoute une ligne. Retirer la supprime.
Si aucun cas n'est ajouté, le message « Ajoutez au moins un cas de test » s'affiche — un dataset vide n'est pas exécutable.
Lancer un benchmark
Une fois un dataset prêt :
Si aucun benchmark n'existe encore, le message « Aucun benchmark » s'affiche avec « Lancez un benchmark pour évaluer le skill sur ce dataset. »
Lire les résultats
Chaque benchmark terminé affiche :
| Métrique | Description |
|---|---|
| Statut | Terminé / En cours / Échec |
| Modèle | Modèle utilisé pour l'évaluation |
| Taux de réussite | Proportion de cas où la sortie correspond à l'attendu (si défini) |
| Latence moyenne | Temps moyen par cas de test |
Cliquez sur un benchmark pour voir le détail cas par cas.
Comparer plusieurs modèles
L'usage type :
- Créez un dataset représentatif.
- Lancez 3-4 benchmarks avec des modèles différents (par exemple : Haiku rapide, Sonnet équilibré, Opus puissant).
- Comparez Taux de réussite × Latence × Coût (le coût est visible dans les Traces d'exécution).
- Choisissez le meilleur compromis pour votre cas d'usage et fixez ce modèle comme défaut sur l'agent qui utilise la skill.
Et ensuite ?
- Discuter avec un agent — utiliser la skill évaluée en production.
- Partager — diffuser la skill validée à votre équipe.

