Profils RAG
Créer, configurer et tester des profils de recherche augmentée.
Un profil RAG est une combinaison réutilisable de modèles (LLM + embedding + parsing) et de paramètres qui pilote la façon dont les documents sont découpés, indexés et interrogés. Chaque document importé est traité avec un profil. Cette page permet de créer ces profils, d'en ajuster les réglages et de les tester.
Liste des Profils RAG — recherche, tableau Nom / Modèle LLM / Modèle Embedding / Taille Chunk / Température / Statut, badge Défaut sur le profil par défaut
À quoi ça sert
- Définir plusieurs configurations de RAG adaptées à différents usages (par exemple un profil "commercial" et un profil "technique").
- Choisir les modèles de langage et d'embedding utilisés à l'ingestion et à la recherche.
- Régler le découpage des documents, la stratégie de recherche, le reranking et l'enrichissement.
- Désigner un profil par défaut, dupliquer un profil existant ou le tester.
Créer un profil
Paramètres d'un profil
Le panneau de création et de modification est organisé en cinq onglets.
Onglet Infos
Identité du profil et choix des deux modèles structurants.
| Champ | Rôle |
|---|---|
| Nom du profil | Identifiant lisible (ex. commercial, technique_industriel). Réutilisé partout où le profil est sélectionné (import de document, app RAG, évaluation). |
| Description | Texte libre qui rappelle l'usage cible du profil. Aide les utilisateurs à choisir le bon profil. |
| Modèle LLM | Modèle qui rédige la réponse finale envoyée à l'utilisateur, à partir de sa question et des extraits de documents remontés par la recherche. Modifiable à tout moment. |
| Modèle d'embedding | Modèle utilisé pour vectoriser les chunks à l'indexation et la requête à la recherche. Peut venir d'un fournisseur différent du LLM (ex. embedding OpenAI + LLM Anthropic). |
Le modèle d'embedding est verrouillé après la création du profil : le changer invaliderait tous les vecteurs déjà calculés. Pour passer à un autre modèle d'embedding, créez un nouveau profil et réindexez les documents concernés. Le modèle LLM, lui, reste modifiable à tout moment.
Onglet Parsing
Choix du mode de parsing appliqué aux documents importés avec ce profil. La liste des modes disponibles dépend des fournisseurs configurés dans Parsing — si un fournisseur à clé API n'est pas configuré, ses modes n'apparaissent pas ici.
Le mode pilote ce qui est extrait du fichier : texte brut uniquement (rapide, adapté aux documents bureautiques bien structurés) jusqu'à OCR avancé avec reconnaissance des tableaux, de la mise en page et conservation des images (plus lent et facturé par le fournisseur, indispensable pour les PDF scannés ou les documents à forte mise en forme).
Si la section affiche « Aucun mode de parsing configuré », ouvrez la rubrique Parsing et configurez au moins un fournisseur (LlamaIndex est intégré et ne demande pas de clé API).
Onglet Chunking
Découpage des documents en chunks — les fragments de texte qui seront indexés puis recherchés.
| Champ | Plage / valeurs | Rôle |
|---|---|---|
| Stratégie de chunking | Récursif (recommandé), Sémantique (IA) | Récursif découpe selon la ponctuation et les sauts de ligne (rapide, déterministe). Sémantique utilise le LLM pour détecter les changements de sujet (plus lent, plus précis sur les documents longs et hétérogènes). |
| Taille des chunks | 256 – 2 048 tokens | Cible de taille pour chaque fragment. Petit = recherche plus précise mais plus de chunks à stocker ; grand = moins de chunks mais contexte par chunk plus large. Repère : 512–1 024 pour la plupart des cas. |
| Overlap | 0 – 200 tokens | Nombre de tokens partagés entre deux chunks consécutifs. Évite de couper une phrase ou une idée en deux. Repère : 10–20 % de la taille de chunk. |
| Taille minimale | 50 – 500 tokens | Empêche la création de fragments trop petits (titres isolés, lignes vides). |
| Préserver les métadonnées | Bascule | Conserve en-têtes, numéros de page et structure du document dans chaque chunk. Améliore la pertinence du retrieval et la qualité des citations. |
Modifier ces paramètres n'affecte que les futurs imports. Pour appliquer une nouvelle configuration aux documents existants, réindexez-les depuis Documents.
Onglet LLM
Paramètres de génération du modèle de langage. Reproduisent les options standard de l'API LLM ; à régler en fonction de l'usage.
| Champ | Plage | Rôle |
|---|---|---|
| Temperature | 0 – 2 | Niveau de créativité du modèle. 0 = réponses déterministes et factuelles (recommandé pour le RAG métier). 0,7–1,0 = réponses plus variées (assistant conversationnel). > 1,2 = très créatif, risque d'hallucination. |
| Max tokens | nombre | Nombre maximum de tokens dans la réponse générée. Limite directe sur la longueur de sortie. |
| Top P | 0 – 1 | Nucleus sampling : ne considère que les tokens dont la probabilité cumulée atteint cette valeur. 1,0 = aucun filtrage. 0,9 = filtre les tokens marginaux. À utiliser comme alternative à la Temperature, rarement les deux en même temps. |
| Frequency penalty | 0 – 2 | Pénalise les tokens déjà fréquents dans la réponse. Réduit les répétitions textuelles. |
| Presence penalty | 0 – 2 | Pénalise les tokens déjà présents (au moins une fois). Encourage le modèle à introduire de nouveaux sujets. |
Top P en pratique. À chaque mot, le modèle attribue une probabilité à tous les mots possibles, puis pioche dedans. Exemple sur la phrase « Le chat boit du … », les candidats pourraient être :
lait— 60 %eau— 25 %bouillon— 8 %champagne— 3 %pétrole— 1 %- (longue traîne de mots improbables qui se partagent les 3 % restants)
Avec Top P = 0,9, le modèle ne garde que les mots dont la somme des
probabilités atteint 90 % — ici lait (60 %) + eau (85 %) + bouillon
(93 %) — et ignore tout le reste. Plus de pétrole possible.
Avec Top P = 0,5, seuls lait et eau restent : la réponse devient
très prévisible. Avec Top P = 1,0 (aucun filtrage), même pétrole
garde sa chance d'apparaître.
Tous ces paramètres ne sont pas forcément supportés par le fournisseur du
modèle. Mistral et OpenAI implémentent l'ensemble ; certains modèles
Anthropic ignorent frequency_penalty et presence_penalty. En cas
d'erreur API, baissez les pénalités à 0.
Onglet RAG
Paramètres du moteur de recherche augmentée. Cinq sections.
Panneau Créer un profil RAG — onglet RAG actif avec Stratégie de retrieval (Hybride recommandé), Alpha hybride, Seuil de similarité et Nombre de chunks
Retrieval de base
| Champ | Plage / valeurs | Rôle |
|---|---|---|
| Stratégie de retrieval | Sémantique, Hybride (recommandé), BM25 | Sémantique : pure recherche vectorielle (sens). BM25 : recherche lexicale (mots exacts). Hybride combine les deux et obtient les meilleurs résultats dans la majorité des cas. |
| Alpha hybride | 0 – 1 (visible si Hybride) | Pondération entre lexical et sémantique. 0 = BM25 seul, 1 = sémantique seul, 0,5 = équilibré (recommandé). À ajuster vers le BM25 sur des corpus très techniques avec terminologie précise. |
| Seuil de similarité | 0 – 1 | Score minimum pour qu'un chunk soit retenu. 0 = aucun filtrage. 0,7 = strict. Trop haut = pas de réponse ; trop bas = bruit. |
| Nombre de chunks | nombre | Combien de chunks le retriever ramène avant le reranking et l'envoi au LLM. Repère : 5–10 pour des questions ciblées, 10–20 pour de la synthèse. |
Two-Pass RAG (avancé)
Bascule Retrieval 2 passes. Par défaut, le moteur fait une seule recherche dans toute la base et remonte les meilleurs chunks. Avec deux passes, il commence par présélectionner les documents les plus pertinents, puis va chercher les meilleurs chunks uniquement à l'intérieur de ces documents. Utile sur un corpus hétérogène (plusieurs domaines, beaucoup de documents), où la première passe permet d'écarter le bruit avant la recherche fine.
Analogie. Imaginez une bibliothèque de 10 000 livres :
- Une passe (Broad) : on ouvre les 10 000 livres au hasard et on retient les 20 meilleurs passages.
- Deux passes (Scoped) : on commence par sélectionner les 5 livres les plus pertinents pour la question, puis on en relit chaque chapitre pour ne garder que les meilleurs passages.
| Mode | Comportement |
|---|---|
| Auto (recommandé) | Le moteur choisit lui-même, question par question, s'il a besoin de la deuxième passe. Idéal si vous n'êtes pas sûr — laissez ce réglage. |
| Broad | Toujours une seule passe : ramène directement les meilleurs chunks de tout le corpus. Rapide, mais peut perdre en précision si les documents parlent de sujets très différents. Top K broad = nombre total de chunks à ramener (20 – 200). |
| Scoped | Toujours deux passes : présélection des documents les plus pertinents, puis recherche fine à l'intérieur. Plus précis sur un corpus hétérogène, légèrement plus lent. Documents shortlist = nombre de documents présélectionnés à la première passe (1 – 20). Top K scoped = nombre de chunks à garder dans chacun de ces documents à la deuxième passe (5 – 100). |
Reranking
Bascule Activer le reranking : réordonne les résultats du retrieval pour remonter les plus pertinents.
| Mode | Comportement |
|---|---|
| Metadata Bonus | Rapide, bonus calculé sur les métadonnées (titre, type, source, date). Pas d'appel modèle. |
| Cross-Encoder | Précis, utilise un modèle dédié (cohere-rerank, bge-reranker, etc.) qui évalue chaque paire (question, chunk). Plus lent et coûteux mais nettement plus pertinent. Demande un modèle de type rerank configuré sur l'instance. |
Enrichissement chunks
Bascule Enrichissement : à l'indexation, le LLM du profil génère des métadonnées additionnelles pour chaque chunk afin d'améliorer le retrieval ultérieur.
- Générer keywords — extrait des mots-clés représentatifs du chunk.
- Générer questions — génère des questions auxquelles le chunk répond (utile pour le retrieval « par question »).
- Modèle d'enrichissement — modèle LLM qui réalise la génération. Si non défini, utilise le modèle LLM principal du profil.
L'enrichissement a un coût additionnel par document indexé (un appel LLM par chunk pour chaque option activée). Estimez le coût sur quelques documents avant d'activer sur l'ensemble du corpus.
Multi-RAG avancé
Bascule Deep Research Multi-RAG : applique 2 passes sur chaque sous-question d'une requête Multi-RAG. Plus précis sur les questions décomposables (« Compare A et B sous l'angle X ») mais latence accrue.
Dupliquer un profil
Depuis le menu d'actions d'une ligne, choisissez Dupliquer. Une copie indépendante du profil est créée, que vous pouvez ensuite ajuster sans toucher à l'original — pratique pour partir d'une base éprouvée.
Définir par défaut
Le profil marqué d'une étoile (badge Défaut) est présélectionné à l'import d'un document. Pour changer ce profil, ouvrez le menu d'actions d'une autre ligne et choisissez Définir par défaut. Il ne peut y avoir qu'un seul profil par défaut.
Tester un profil
Le menu d'actions propose Tester, qui ouvre un panneau dédié permettant de poser une question et de vérifier la réponse produite par le profil avant de l'utiliser en production.
Panneau Tester le profil RAG — Question de test, sélecteur de Bases de connaissances, bascule Afficher les diagnostics, Paramètres avancés, bouton Tester
Référence
Le tableau des profils affiche les colonnes suivantes :
| Colonne | Contenu |
|---|---|
| Nom | Nom du profil et sa description ; une étoile signale le profil par défaut. |
| Modèle LLM | Modèle de langage associé. |
| Modèle Embedding | Modèle d'embedding associé. |
| Taille Chunk | Taille de découpage configurée. |
| Température | Température du modèle LLM. |
| Statut | Badge Défaut ou Personnalisé. |
Actions disponibles par ligne : Modifier, Dupliquer, Tester, Définir par défaut, Supprimer.
Et ensuite ?
- Pour importer des documents avec un profil, voir Documents.
- Pour mesurer la qualité d'un profil sur un jeu de questions, voir Évaluations.

