Superfasttt

Évaluer une compétence

Créer un dataset de cas de test, lancer un benchmark, lire les métriques.

L'évaluation systématique d'une compétence permet de comparer plusieurs versions, plusieurs modèles, et de prendre des décisions fondées avant de pousser une skill en production.

Onglet Évaluation d'une compétence — datasets et benchmarksOnglet Évaluation d'une compétence — datasets et benchmarks

Vue d'ensemble

Depuis la vue détail d'une skill, l'onglet Évaluation propose :

  • Vue d'ensemble — les résultats des derniers benchmarks.
  • Datasets — les jeux de tests à exécuter sur la skill.

Si aucun dataset n'existe, le message « Aucun dataset » s'affiche avec « Créez un dataset de cas de test pour évaluer ce skill. »

Créer un dataset

Onglet ÉvaluationCréer un dataset.
Renseignez le Nom (ex: « Tests de base »), une Description optionnelle, une Version.
Choisissez l'Origine du dataset : Personnalisé, Référence (provenant d'une bibliothèque), Sectoriel, ou Entreprise.
Ajoutez des Cas de test (voir ci-dessous).
Validez. Un toast « Dataset créé » confirme.

Ajouter des cas de test

Pour chaque cas :

  • Prompt — le message d'entrée à donner à la skill (placeholder « Message de test... »).
  • Sortie attendue (optionnelle) — la réponse attendue, pour comparer.

Le bouton Ajouter un cas ajoute une ligne. Retirer la supprime.

Si aucun cas n'est ajouté, le message « Ajoutez au moins un cas de test » s'affiche — un dataset vide n'est pas exécutable.

Lancer un benchmark

Une fois un dataset prêt :

Onglet Évaluation → section BenchmarksLancer un benchmark.
Choisissez le modèle à tester. Vous pouvez relancer le même dataset sur plusieurs modèles pour comparer.
Confirmez. Le benchmark s'exécute en arrière-plan.

Si aucun benchmark n'existe encore, le message « Aucun benchmark » s'affiche avec « Lancez un benchmark pour évaluer le skill sur ce dataset. »

Lire les résultats

Chaque benchmark terminé affiche :

MétriqueDescription
StatutTerminé / En cours / Échec
ModèleModèle utilisé pour l'évaluation
Taux de réussiteProportion de cas où la sortie correspond à l'attendu (si défini)
Latence moyenneTemps moyen par cas de test

Cliquez sur un benchmark pour voir le détail cas par cas.

Comparer plusieurs modèles

L'usage type :

  1. Créez un dataset représentatif.
  2. Lancez 3-4 benchmarks avec des modèles différents (par exemple : Haiku rapide, Sonnet équilibré, Opus puissant).
  3. Comparez Taux de réussite × Latence × Coût (le coût est visible dans les Traces d'exécution).
  4. Choisissez le meilleur compromis pour votre cas d'usage et fixez ce modèle comme défaut sur l'agent qui utilise la skill.

Et ensuite ?

On this page