Profils RAG

Un profil RAG est une combinaison réutilisable de modèles (LLM + embedding + parsing) et de paramètres qui pilote la façon dont les documents sont découpés, indexés et interrogés. Chaque document importé est traité avec un profil. Cette page permet de créer ces profils, d'en ajuster les réglages et de les tester.

Liste des Profils RAG — recherche, tableau Nom / Modèle LLM / Modèle Embedding / Taille Chunk / Température / Statut, badge Défaut sur le profil par défaut

À quoi ça sert

Définir plusieurs configurations de RAG adaptées à différents usages (par exemple un profil "commercial" et un profil "technique").
Choisir les modèles de langage et d'embedding utilisés à l'ingestion et à la recherche.
Régler le découpage des documents, la stratégie de recherche, le reranking et l'enrichissement.
Désigner un profil par défaut, dupliquer un profil existant ou le tester.

Créer un profil

Dans la rubrique "RAG & Documents", ouvrez Profils RAG.

Cliquez sur Créer un profil. Un panneau latéral s'ouvre.

Renseignez les onglets Infos, Parsing, Chunking, LLM et RAG (voir ci-dessous).

Cliquez sur Enregistrer. Le nom, le modèle LLM et le modèle d'embedding sont obligatoires.

Paramètres d'un profil

Le panneau de création et de modification est organisé en cinq onglets.

Onglet Infos

Identité du profil et choix des deux modèles structurants.

Champ	Rôle
Nom du profil	Identifiant lisible (ex. `commercial`, `technique_industriel`). Réutilisé partout où le profil est sélectionné (import de document, app RAG, évaluation).
Description	Texte libre qui rappelle l'usage cible du profil. Aide les utilisateurs à choisir le bon profil.
Modèle LLM	Modèle qui rédige la réponse finale envoyée à l'utilisateur, à partir de sa question et des extraits de documents remontés par la recherche. Modifiable à tout moment.
Modèle d'embedding	Modèle utilisé pour vectoriser les chunks à l'indexation et la requête à la recherche. Peut venir d'un fournisseur différent du LLM (ex. embedding OpenAI + LLM Anthropic).

Le modèle d'embedding est verrouillé après la création du profil : le changer invaliderait tous les vecteurs déjà calculés. Pour passer à un autre modèle d'embedding, créez un nouveau profil et réindexez les documents concernés. Le modèle LLM, lui, reste modifiable à tout moment.

Onglet Parsing

Choix du mode de parsing appliqué aux documents importés avec ce profil. La liste des modes disponibles dépend des fournisseurs configurés dans Parsing — si un fournisseur à clé API n'est pas configuré, ses modes n'apparaissent pas ici.

Le mode pilote ce qui est extrait du fichier : texte brut uniquement (rapide, adapté aux documents bureautiques bien structurés) jusqu'à OCR avancé avec reconnaissance des tableaux, de la mise en page et conservation des images (plus lent et facturé par le fournisseur, indispensable pour les PDF scannés ou les documents à forte mise en forme).

Si la section affiche « Aucun mode de parsing configuré », ouvrez la rubrique Parsing et configurez au moins un fournisseur (LlamaIndex est intégré et ne demande pas de clé API).

Onglet Chunking

Découpage des documents en chunks — les fragments de texte qui seront indexés puis recherchés.

Champ	Plage / valeurs	Rôle
Stratégie de chunking	`Récursif (recommandé)`, `Sémantique (IA)`	Récursif découpe selon la ponctuation et les sauts de ligne (rapide, déterministe). Sémantique utilise le LLM pour détecter les changements de sujet (plus lent, plus précis sur les documents longs et hétérogènes).
Taille des chunks	256 – 2 048 tokens	Cible de taille pour chaque fragment. Petit = recherche plus précise mais plus de chunks à stocker ; grand = moins de chunks mais contexte par chunk plus large. Repère : 512–1 024 pour la plupart des cas.
Overlap	0 – 200 tokens	Nombre de tokens partagés entre deux chunks consécutifs. Évite de couper une phrase ou une idée en deux. Repère : 10–20 % de la taille de chunk.
Taille minimale	50 – 500 tokens	Empêche la création de fragments trop petits (titres isolés, lignes vides).
Préserver les métadonnées	Bascule	Conserve en-têtes, numéros de page et structure du document dans chaque chunk. Améliore la pertinence du retrieval et la qualité des citations.

Modifier ces paramètres n'affecte que les futurs imports. Pour appliquer une nouvelle configuration aux documents existants, réindexez-les depuis Documents.

Onglet LLM

Paramètres de génération du modèle de langage. Reproduisent les options standard de l'API LLM ; à régler en fonction de l'usage.

Champ	Plage	Rôle
Temperature	0 – 2	Niveau de créativité du modèle. 0 = réponses déterministes et factuelles (recommandé pour le RAG métier). 0,7–1,0 = réponses plus variées (assistant conversationnel). > 1,2 = très créatif, risque d'hallucination.
Max tokens	nombre	Nombre maximum de tokens dans la réponse générée. Limite directe sur la longueur de sortie.
Top P	0 – 1	Nucleus sampling : ne considère que les tokens dont la probabilité cumulée atteint cette valeur. 1,0 = aucun filtrage. 0,9 = filtre les tokens marginaux. À utiliser comme alternative à la Temperature, rarement les deux en même temps.
Frequency penalty	0 – 2	Pénalise les tokens déjà fréquents dans la réponse. Réduit les répétitions textuelles.
Presence penalty	0 – 2	Pénalise les tokens déjà présents (au moins une fois). Encourage le modèle à introduire de nouveaux sujets.

Top P en pratique. À chaque mot, le modèle attribue une probabilité à tous les mots possibles, puis pioche dedans. Exemple sur la phrase « Le chat boit du … », les candidats pourraient être :

lait — 60 %
eau — 25 %
bouillon — 8 %
champagne — 3 %
pétrole — 1 %
(longue traîne de mots improbables qui se partagent les 3 % restants)

Avec Top P = 0,9, le modèle ne garde que les mots dont la somme des probabilités atteint 90 % — ici lait (60 %) + eau (85 %) + bouillon (93 %) — et ignore tout le reste. Plus de pétrole possible. Avec Top P = 0,5, seuls lait et eau restent : la réponse devient très prévisible. Avec Top P = 1,0 (aucun filtrage), même pétrole garde sa chance d'apparaître.

Tous ces paramètres ne sont pas forcément supportés par le fournisseur du modèle. Mistral et OpenAI implémentent l'ensemble ; certains modèles Anthropic ignorent frequency_penalty et presence_penalty. En cas d'erreur API, baissez les pénalités à 0.

Onglet RAG

Paramètres du moteur de recherche augmentée. Cinq sections.

Panneau Créer un profil RAG — onglet RAG actif avec Stratégie de retrieval (Hybride recommandé), Alpha hybride, Seuil de similarité et Nombre de chunks

Retrieval de base

Champ	Plage / valeurs	Rôle
Stratégie de retrieval	`Sémantique`, `Hybride (recommandé)`, `BM25`	Sémantique : pure recherche vectorielle (sens). BM25 : recherche lexicale (mots exacts). Hybride combine les deux et obtient les meilleurs résultats dans la majorité des cas.
Alpha hybride	0 – 1 (visible si Hybride)	Pondération entre lexical et sémantique. 0 = BM25 seul, 1 = sémantique seul, 0,5 = équilibré (recommandé). À ajuster vers le BM25 sur des corpus très techniques avec terminologie précise.
Seuil de similarité	0 – 1	Score minimum pour qu'un chunk soit retenu. 0 = aucun filtrage. 0,7 = strict. Trop haut = pas de réponse ; trop bas = bruit.
Nombre de chunks	nombre	Combien de chunks le retriever ramène avant le reranking et l'envoi au LLM. Repère : 5–10 pour des questions ciblées, 10–20 pour de la synthèse.

Two-Pass RAG (avancé)

Bascule Retrieval 2 passes. Par défaut, le moteur fait une seule recherche dans toute la base et remonte les meilleurs chunks. Avec deux passes, il commence par présélectionner les documents les plus pertinents, puis va chercher les meilleurs chunks uniquement à l'intérieur de ces documents. Utile sur un corpus hétérogène (plusieurs domaines, beaucoup de documents), où la première passe permet d'écarter le bruit avant la recherche fine.

Analogie. Imaginez une bibliothèque de 10 000 livres :

Une passe (Broad) : on ouvre les 10 000 livres au hasard et on retient les 20 meilleurs passages.
Deux passes (Scoped) : on commence par sélectionner les 5 livres les plus pertinents pour la question, puis on en relit chaque chapitre pour ne garder que les meilleurs passages.

Mode	Comportement
Auto (recommandé)	Le moteur choisit lui-même, question par question, s'il a besoin de la deuxième passe. Idéal si vous n'êtes pas sûr — laissez ce réglage.
Broad	Toujours une seule passe : ramène directement les meilleurs chunks de tout le corpus. Rapide, mais peut perdre en précision si les documents parlent de sujets très différents. `Top K broad` = nombre total de chunks à ramener (20 – 200).
Scoped	Toujours deux passes : présélection des documents les plus pertinents, puis recherche fine à l'intérieur. Plus précis sur un corpus hétérogène, légèrement plus lent. `Documents shortlist` = nombre de documents présélectionnés à la première passe (1 – 20). `Top K scoped` = nombre de chunks à garder dans chacun de ces documents à la deuxième passe (5 – 100).

Reranking

Bascule Activer le reranking : réordonne les résultats du retrieval pour remonter les plus pertinents.

Mode	Comportement
Metadata Bonus	Rapide, bonus calculé sur les métadonnées (titre, type, source, date). Pas d'appel modèle.
Cross-Encoder	Précis, utilise un modèle dédié (cohere-rerank, bge-reranker, etc.) qui évalue chaque paire (question, chunk). Plus lent et coûteux mais nettement plus pertinent. Demande un modèle de type `rerank` configuré sur l'instance.

Enrichissement chunks

Bascule Enrichissement : à l'indexation, le LLM du profil génère des métadonnées additionnelles pour chaque chunk afin d'améliorer le retrieval ultérieur.

Générer keywords — extrait des mots-clés représentatifs du chunk.
Générer questions — génère des questions auxquelles le chunk répond (utile pour le retrieval « par question »).
Modèle d'enrichissement — modèle LLM qui réalise la génération. Si non défini, utilise le modèle LLM principal du profil.

L'enrichissement a un coût additionnel par document indexé (un appel LLM par chunk pour chaque option activée). Estimez le coût sur quelques documents avant d'activer sur l'ensemble du corpus.

Colonne	Contenu
Nom	Nom du profil et sa description ; une étoile signale le profil par défaut.
Modèle LLM	Modèle de langage associé.
Modèle Embedding	Modèle d'embedding associé.
Taille Chunk	Taille de découpage configurée.
Température	Température du modèle LLM.
Statut	Badge Défaut ou Personnalisé.

Actions disponibles par ligne : Modifier, Dupliquer, Tester, Définir par défaut, Supprimer.

Et ensuite ?

Pour importer des documents avec un profil, voir Documents.
Pour mesurer la qualité d'un profil sur un jeu de questions, voir Évaluations.

À quoi ça sert

Créer un profil

Paramètres d'un profil

Onglet Infos

Onglet Parsing

Onglet Chunking

Onglet LLM

Onglet RAG

Retrieval de base

Two-Pass RAG (avancé)

Reranking

Enrichissement chunks

Multi-RAG avancé

Dupliquer un profil

Définir par défaut

Tester un profil

Référence

Et ensuite ?

On this page