Superfasttt

Profils RAG

Créer, configurer et tester des profils de recherche augmentée.

Un profil RAG est une combinaison réutilisable de modèles (LLM + embedding + parsing) et de paramètres qui pilote la façon dont les documents sont découpés, indexés et interrogés. Chaque document importé est traité avec un profil. Cette page permet de créer ces profils, d'en ajuster les réglages et de les tester.

Liste des Profils RAG — recherche, tableau Nom / Modèle LLM / Modèle Embedding / Taille Chunk / Température / Statut, badge Défaut sur le profil par défautListe des Profils RAG — recherche, tableau Nom / Modèle LLM / Modèle Embedding / Taille Chunk / Température / Statut, badge Défaut sur le profil par défaut

À quoi ça sert

  • Définir plusieurs configurations de RAG adaptées à différents usages (par exemple un profil "commercial" et un profil "technique").
  • Choisir les modèles de langage et d'embedding utilisés à l'ingestion et à la recherche.
  • Régler le découpage des documents, la stratégie de recherche, le reranking et l'enrichissement.
  • Désigner un profil par défaut, dupliquer un profil existant ou le tester.

Créer un profil

Dans la rubrique "RAG & Documents", ouvrez Profils RAG.
Cliquez sur Créer un profil. Un panneau latéral s'ouvre.
Renseignez les onglets Infos, Parsing, Chunking, LLM et RAG (voir ci-dessous).
Cliquez sur Enregistrer. Le nom, le modèle LLM et le modèle d'embedding sont obligatoires.

Paramètres d'un profil

Le panneau de création et de modification est organisé en cinq onglets.

Onglet Infos

Identité du profil et choix des deux modèles structurants.

ChampRôle
Nom du profilIdentifiant lisible (ex. commercial, technique_industriel). Réutilisé partout où le profil est sélectionné (import de document, app RAG, évaluation).
DescriptionTexte libre qui rappelle l'usage cible du profil. Aide les utilisateurs à choisir le bon profil.
Modèle LLMModèle qui rédige la réponse finale envoyée à l'utilisateur, à partir de sa question et des extraits de documents remontés par la recherche. Modifiable à tout moment.
Modèle d'embeddingModèle utilisé pour vectoriser les chunks à l'indexation et la requête à la recherche. Peut venir d'un fournisseur différent du LLM (ex. embedding OpenAI + LLM Anthropic).

Le modèle d'embedding est verrouillé après la création du profil : le changer invaliderait tous les vecteurs déjà calculés. Pour passer à un autre modèle d'embedding, créez un nouveau profil et réindexez les documents concernés. Le modèle LLM, lui, reste modifiable à tout moment.

Onglet Parsing

Choix du mode de parsing appliqué aux documents importés avec ce profil. La liste des modes disponibles dépend des fournisseurs configurés dans Parsing — si un fournisseur à clé API n'est pas configuré, ses modes n'apparaissent pas ici.

Le mode pilote ce qui est extrait du fichier : texte brut uniquement (rapide, adapté aux documents bureautiques bien structurés) jusqu'à OCR avancé avec reconnaissance des tableaux, de la mise en page et conservation des images (plus lent et facturé par le fournisseur, indispensable pour les PDF scannés ou les documents à forte mise en forme).

Si la section affiche « Aucun mode de parsing configuré », ouvrez la rubrique Parsing et configurez au moins un fournisseur (LlamaIndex est intégré et ne demande pas de clé API).

Onglet Chunking

Découpage des documents en chunks — les fragments de texte qui seront indexés puis recherchés.

ChampPlage / valeursRôle
Stratégie de chunkingRécursif (recommandé), Sémantique (IA)Récursif découpe selon la ponctuation et les sauts de ligne (rapide, déterministe). Sémantique utilise le LLM pour détecter les changements de sujet (plus lent, plus précis sur les documents longs et hétérogènes).
Taille des chunks256 – 2 048 tokensCible de taille pour chaque fragment. Petit = recherche plus précise mais plus de chunks à stocker ; grand = moins de chunks mais contexte par chunk plus large. Repère : 512–1 024 pour la plupart des cas.
Overlap0 – 200 tokensNombre de tokens partagés entre deux chunks consécutifs. Évite de couper une phrase ou une idée en deux. Repère : 10–20 % de la taille de chunk.
Taille minimale50 – 500 tokensEmpêche la création de fragments trop petits (titres isolés, lignes vides).
Préserver les métadonnéesBasculeConserve en-têtes, numéros de page et structure du document dans chaque chunk. Améliore la pertinence du retrieval et la qualité des citations.

Modifier ces paramètres n'affecte que les futurs imports. Pour appliquer une nouvelle configuration aux documents existants, réindexez-les depuis Documents.

Onglet LLM

Paramètres de génération du modèle de langage. Reproduisent les options standard de l'API LLM ; à régler en fonction de l'usage.

ChampPlageRôle
Temperature0 – 2Niveau de créativité du modèle. 0 = réponses déterministes et factuelles (recommandé pour le RAG métier). 0,7–1,0 = réponses plus variées (assistant conversationnel). > 1,2 = très créatif, risque d'hallucination.
Max tokensnombreNombre maximum de tokens dans la réponse générée. Limite directe sur la longueur de sortie.
Top P0 – 1Nucleus sampling : ne considère que les tokens dont la probabilité cumulée atteint cette valeur. 1,0 = aucun filtrage. 0,9 = filtre les tokens marginaux. À utiliser comme alternative à la Temperature, rarement les deux en même temps.
Frequency penalty0 – 2Pénalise les tokens déjà fréquents dans la réponse. Réduit les répétitions textuelles.
Presence penalty0 – 2Pénalise les tokens déjà présents (au moins une fois). Encourage le modèle à introduire de nouveaux sujets.

Top P en pratique. À chaque mot, le modèle attribue une probabilité à tous les mots possibles, puis pioche dedans. Exemple sur la phrase « Le chat boit du … », les candidats pourraient être :

  • lait — 60 %
  • eau — 25 %
  • bouillon — 8 %
  • champagne — 3 %
  • pétrole — 1 %
  • (longue traîne de mots improbables qui se partagent les 3 % restants)

Avec Top P = 0,9, le modèle ne garde que les mots dont la somme des probabilités atteint 90 % — ici lait (60 %) + eau (85 %) + bouillon (93 %) — et ignore tout le reste. Plus de pétrole possible. Avec Top P = 0,5, seuls lait et eau restent : la réponse devient très prévisible. Avec Top P = 1,0 (aucun filtrage), même pétrole garde sa chance d'apparaître.

Tous ces paramètres ne sont pas forcément supportés par le fournisseur du modèle. Mistral et OpenAI implémentent l'ensemble ; certains modèles Anthropic ignorent frequency_penalty et presence_penalty. En cas d'erreur API, baissez les pénalités à 0.

Onglet RAG

Paramètres du moteur de recherche augmentée. Cinq sections.

Panneau Créer un profil RAG — onglet RAG actif avec Stratégie de retrieval (Hybride recommandé), Alpha hybride, Seuil de similarité et Nombre de chunksPanneau Créer un profil RAG — onglet RAG actif avec Stratégie de retrieval (Hybride recommandé), Alpha hybride, Seuil de similarité et Nombre de chunks

Retrieval de base

ChampPlage / valeursRôle
Stratégie de retrievalSémantique, Hybride (recommandé), BM25Sémantique : pure recherche vectorielle (sens). BM25 : recherche lexicale (mots exacts). Hybride combine les deux et obtient les meilleurs résultats dans la majorité des cas.
Alpha hybride0 – 1 (visible si Hybride)Pondération entre lexical et sémantique. 0 = BM25 seul, 1 = sémantique seul, 0,5 = équilibré (recommandé). À ajuster vers le BM25 sur des corpus très techniques avec terminologie précise.
Seuil de similarité0 – 1Score minimum pour qu'un chunk soit retenu. 0 = aucun filtrage. 0,7 = strict. Trop haut = pas de réponse ; trop bas = bruit.
Nombre de chunksnombreCombien de chunks le retriever ramène avant le reranking et l'envoi au LLM. Repère : 5–10 pour des questions ciblées, 10–20 pour de la synthèse.

Two-Pass RAG (avancé)

Bascule Retrieval 2 passes. Par défaut, le moteur fait une seule recherche dans toute la base et remonte les meilleurs chunks. Avec deux passes, il commence par présélectionner les documents les plus pertinents, puis va chercher les meilleurs chunks uniquement à l'intérieur de ces documents. Utile sur un corpus hétérogène (plusieurs domaines, beaucoup de documents), où la première passe permet d'écarter le bruit avant la recherche fine.

Analogie. Imaginez une bibliothèque de 10 000 livres :

  • Une passe (Broad) : on ouvre les 10 000 livres au hasard et on retient les 20 meilleurs passages.
  • Deux passes (Scoped) : on commence par sélectionner les 5 livres les plus pertinents pour la question, puis on en relit chaque chapitre pour ne garder que les meilleurs passages.
ModeComportement
Auto (recommandé)Le moteur choisit lui-même, question par question, s'il a besoin de la deuxième passe. Idéal si vous n'êtes pas sûr — laissez ce réglage.
BroadToujours une seule passe : ramène directement les meilleurs chunks de tout le corpus. Rapide, mais peut perdre en précision si les documents parlent de sujets très différents.
Top K broad = nombre total de chunks à ramener (20 – 200).
ScopedToujours deux passes : présélection des documents les plus pertinents, puis recherche fine à l'intérieur. Plus précis sur un corpus hétérogène, légèrement plus lent.
Documents shortlist = nombre de documents présélectionnés à la première passe (1 – 20).
Top K scoped = nombre de chunks à garder dans chacun de ces documents à la deuxième passe (5 – 100).

Reranking

Bascule Activer le reranking : réordonne les résultats du retrieval pour remonter les plus pertinents.

ModeComportement
Metadata BonusRapide, bonus calculé sur les métadonnées (titre, type, source, date). Pas d'appel modèle.
Cross-EncoderPrécis, utilise un modèle dédié (cohere-rerank, bge-reranker, etc.) qui évalue chaque paire (question, chunk). Plus lent et coûteux mais nettement plus pertinent. Demande un modèle de type rerank configuré sur l'instance.

Enrichissement chunks

Bascule Enrichissement : à l'indexation, le LLM du profil génère des métadonnées additionnelles pour chaque chunk afin d'améliorer le retrieval ultérieur.

  • Générer keywords — extrait des mots-clés représentatifs du chunk.
  • Générer questions — génère des questions auxquelles le chunk répond (utile pour le retrieval « par question »).
  • Modèle d'enrichissement — modèle LLM qui réalise la génération. Si non défini, utilise le modèle LLM principal du profil.

L'enrichissement a un coût additionnel par document indexé (un appel LLM par chunk pour chaque option activée). Estimez le coût sur quelques documents avant d'activer sur l'ensemble du corpus.

Multi-RAG avancé

Bascule Deep Research Multi-RAG : applique 2 passes sur chaque sous-question d'une requête Multi-RAG. Plus précis sur les questions décomposables (« Compare A et B sous l'angle X ») mais latence accrue.

Dupliquer un profil

Depuis le menu d'actions d'une ligne, choisissez Dupliquer. Une copie indépendante du profil est créée, que vous pouvez ensuite ajuster sans toucher à l'original — pratique pour partir d'une base éprouvée.

Définir par défaut

Le profil marqué d'une étoile (badge Défaut) est présélectionné à l'import d'un document. Pour changer ce profil, ouvrez le menu d'actions d'une autre ligne et choisissez Définir par défaut. Il ne peut y avoir qu'un seul profil par défaut.

Tester un profil

Le menu d'actions propose Tester, qui ouvre un panneau dédié permettant de poser une question et de vérifier la réponse produite par le profil avant de l'utiliser en production.

Panneau Tester le profil RAG — Question de test, sélecteur de Bases de connaissances, bascule Afficher les diagnostics, Paramètres avancés, bouton TesterPanneau Tester le profil RAG — Question de test, sélecteur de Bases de connaissances, bascule Afficher les diagnostics, Paramètres avancés, bouton Tester

Référence

Le tableau des profils affiche les colonnes suivantes :

ColonneContenu
NomNom du profil et sa description ; une étoile signale le profil par défaut.
Modèle LLMModèle de langage associé.
Modèle EmbeddingModèle d'embedding associé.
Taille ChunkTaille de découpage configurée.
TempératureTempérature du modèle LLM.
StatutBadge Défaut ou Personnalisé.

Actions disponibles par ligne : Modifier, Dupliquer, Tester, Définir par défaut, Supprimer.

Et ensuite ?

  • Pour importer des documents avec un profil, voir Documents.
  • Pour mesurer la qualité d'un profil sur un jeu de questions, voir Évaluations.

On this page