Votre cabinet ou votre agence accumule depuis des années des propales gagnées, des audits livrés, des comptes-rendus de mission, des slides de restitution. Des dizaines, parfois des centaines de documents qui contiennent votre expertise réelle, vos méthodes éprouvées, vos formulations qui ont fonctionné.
Et pourtant, quand un commercial prépare une nouvelle proposition ou qu'un consultant démarre une mission similaire à une précédente, personne ne sait où chercher. La recherche dans Google Drive prend 20 minutes pour des résultats approximatifs. Le Slack d'il y a 18 mois ne remonte rien d'utile. La collègue qui gérait ce client est partie.
C'est exactement le problème que résout un agent IA RAG sur vos documents internes. Pas un chatbot générique qui répond depuis Wikipedia, mais un système qui interroge votre base de connaissances pour générer des réponses ancrées dans vos propres livrables. Chez Tensoria, nous avons déployé ce type d'architecture pour des cabinets de conseil, des agences et des équipes commerciales en PME. Cet article explique exactement comment ça fonctionne, ce que ça coûte, et où ça peut décevoir.
Si vous n'avez jamais travaillé avec le RAG, commencez par notre introduction au RAG pour les entreprises avant de continuer. Si vous connaissez déjà le concept et voulez aller directement à l'architecture n8n, sautez à la section sur le workflow.
Le problème réel : 5 ans de savoir dormant dans des dossiers partagés
Posez la question à n'importe quel directeur associé d'un cabinet de conseil ou d'une agence : combien de temps perd votre équipe à recréer du contenu qui existe déjà ?
La réponse honnête tourne autour de 15 à 25 % du temps de production. Une propale pour un secteur que vous connaissez depuis cinq ans est rédigée quasiment from scratch parce que personne ne retrouve la propale similaire de 2022. Un audit de maturité digitale repart de zéro alors que trois missions identiques ont été livrées l'an passé.
Ce n'est pas un problème de rangement. C'est un problème de recherche sémantique. Les outils de recherche classiques (Google Drive, SharePoint, Notion) fonctionnent par mots-clés exacts. Si votre propale de 2022 parle de "transformation numérique" et que vous cherchez "digitalisation", elle ne remonte pas. Si vous cherchez "proposition commerciale secteur santé" et que le fichier s'appelle "client_CHU_mars22_v3_final.pdf", vous ne trouverez rien non plus.
Le RAG résout ce problème à la racine en comprenant le sens de votre requête, pas seulement les mots.
Ce que le RAG permet concrètement
Vous tapez : "Trouve-moi les arguments qu'on utilise pour vendre notre offre d'audit IA à des PME industrielles". L'agent parcourt vos 200 propales, extrait les passages pertinents et vous génère une synthèse avec les formulations qui ont fonctionné, en citant les sources.
Ce qu'est réellement le RAG : l'explication sans jargon
RAG signifie Retrieval-Augmented Generation. Derrière ce terme, une idée simple : avant de répondre, l'IA cherche d'abord dans votre base de documents.
Le fonctionnement en trois temps :
- Retrieval (récupération) : votre question est convertie en vecteur mathématique. Le système cherche les passages de vos documents dont la "forme mathématique" est la plus proche. C'est de la recherche sémantique, pas par mot-clé.
- Augmentation : les passages trouvés sont assemblés avec votre question dans un prompt enrichi envoyé au modèle de langage.
- Generation : le modèle génère une réponse ancrée dans les documents récupérés, pas depuis sa mémoire générale.
La différence avec un simple prompt de type "résume ce document" : le RAG opère sur l'ensemble de votre base documentaire sans limite de taille. Vous pouvez avoir 500 PDF et 300 présentations ; le système cherche dans tout sans que vous ayez à sélectionner quoi que ce soit à la main.
RAG, fine-tuning ou prompt direct : quand utiliser quoi
C'est la question que posent systématiquement nos clients. Le tableau ci-dessous résume les arbitrages réels.
| Approche | Utiliser quand | Ne pas utiliser quand | Coût indicatif |
|---|---|---|---|
| Prompt direct | Volume de documents faible, usage ponctuel | Plus de 10-15 documents, usage régulier | Quasi nul |
| RAG | Large base de documents, besoin de traçabilité, données mises à jour fréquemment | Besoin d'un style très spécifique, données très structurées | 3 000 à 15 000 € |
| Fine-tuning | Adoption d'un ton/style très particulier, jargon métier dense, des milliers d'exemples disponibles | Besoin de données récentes, traçabilité requise, budget limité | 15 000 à 100 000 €+ |
Pour 90 % des cabinets de conseil et des agences, le RAG est la réponse. Le fine-tuning ne se justifie que si vous voulez que le modèle adopte un vocabulaire ou un style d'écriture très codifié que vous ne pouvez pas décrire dans un prompt. Notre comparatif détaillé RAG vs fine-tuning couvre les cas limites.
L'architecture du workflow n8n : vue d'ensemble
Voici la stack que nous recommandons pour un cabinet ou une agence en France, avec des priorités claires sur la souveraineté des données.
| Brique | Option recommandée | Alternative |
|---|---|---|
| Orchestrateur | n8n auto-hébergé | n8n Cloud |
| Source documents | Google Drive ou SharePoint | Notion, dossier S3 |
| Embeddings | OpenAI text-embedding-3-small | Voyage AI (meilleur sur textes longs) |
| Base vectorielle | Supabase pgvector (démarrage) ou Qdrant auto-hébergé (volume) | Pinecone (SaaS, plus simple) |
| Génération | Claude Sonnet (Anthropic) | GPT-4o (OpenAI) |
| Interface utilisateur | Bot Slack | Interface web simple, Teams bot |
Le choix de n8n comme orchestrateur n'est pas anodin. Sa capacité d'auto-hébergement est décisive quand vous traitez des livrables clients confidentiels : aucune donnée ne transite par un cloud tiers non maîtrisé. Pour les entreprises soumises au RGPD et aux exigences de confidentialité client, c'est un prérequis non négociable. Notre article sur n8n, RGPD et hébergement souverain détaille les options.
Étape 1 : ingestion des documents depuis Google Drive ou SharePoint
Le premier workflow n8n déclenche l'ingestion. Il tourne en arrière-plan, surveille votre dossier source et indexe chaque nouveau document ou chaque modification.
Concrètement dans n8n :
- Un nœud Google Drive Trigger détecte tout fichier ajouté ou modifié dans le dossier "Livrables".
- Un nœud Switch route selon le type de fichier : PDF, DOCX, PPTX, Google Slides.
- Un nœud Extract from File (ou un appel à une API de parsing comme Unstructured.io) extrait le texte brut.
- Les métadonnées utiles sont préservées : nom du client, date, type de livrable, auteur.
Point de vigilance SharePoint : l'API Microsoft 365 dans n8n fonctionne bien pour les fichiers plats mais peut bloquer sur les présentations embarquant des objets OLE ou des images sans texte alternatif. Prévoyez un nœud de fallback qui log les fichiers non parsés pour traitement manuel.
Ce qu'on apprend souvent trop tard
20 à 30 % des documents d'un cabinet de conseil sont des slides PPTX où le texte clé est dans des zones de texte imbriquées ou des tableaux. Un extracteur PDF basique rate la moitié du contenu. L'étape de parsing vaut le coup d'être bien faite dès le départ.
Étape 2 : le chunking intelligent des propales et audits
Le chunking est l'étape la plus sous-estimée et la plus déterminante pour la qualité finale. C'est ici que se joue 60 % de la pertinence des réponses.
Le principe : vos documents sont découpés en blocs (chunks) de taille optimale avant d'être transformés en vecteurs. Trop petits, les chunks perdent le contexte (un titre de section seul ne veut rien dire). Trop grands, ils diluent la pertinence et débordent la fenêtre de contexte du LLM.
Pour des livrables de conseil, nous recommandons :
- Taille de chunk : 800 à 1 200 tokens, avec un chevauchement (overlap) de 15 à 20 %.
- Stratégie de découpage : découpage par section logique (H2, H3 dans les docs Word ; slide par slide pour les PPTX) plutôt que par nombre de caractères fixe.
- Enrichissement des chunks : chaque chunk reçoit en métadonnées le nom du document parent, le client, la date et le type de livrable. Cette information est cruciale pour le filtrage et la traçabilité.
Dans n8n, le nœud Recursive Character Text Splitter (intégré via LangChain) gère le découpage. Pour des PPTX, une étape de prétraitement slide-par-slide produit de meilleurs résultats qu'un découpage purement textuel.
Étape 3 : embedding et stockage vectoriel dans Supabase ou Qdrant
Chaque chunk est transformé en vecteur par un modèle d'embedding. Ce vecteur est une représentation mathématique du sens sémantique du texte.
Le nœud n8n Embeddings OpenAI (ou Voyage AI pour les textes longs techniques) génère ce vecteur. Il est ensuite stocké dans votre base vectorielle avec les métadonnées associées.
Supabase pgvector : idéal pour démarrer. Vous avez déjà une base PostgreSQL, vous ajoutez l'extension pgvector, et n8n s'y connecte nativement. Fonctionne bien jusqu'à 50 000 chunks environ.
Qdrant auto-hébergé : recommandé dès que votre volume grossit ou que vous avez des exigences fortes sur la localisation des données. S'installe sur un VPS français en 30 minutes, compatible n8n via l'intégration native. C'est notre choix par défaut pour les projets Tensoria soumis à des exigences de confidentialité client.
Pinecone : option SaaS la plus simple à mettre en place, mais les données transitent sur des serveurs américains. À éviter si vous traitez des livrables contenant des données personnelles ou des informations commerciales sensibles.
Voir aussi notre article sur les embeddings et la recherche sémantique pour comprendre le choix du modèle d'embedding selon vos types de documents.
Étape 4 : recherche sémantique et reranking
Quand un utilisateur pose une question, n8n déclenche un deuxième workflow : le pipeline de retrieval.
- La question est transformée en vecteur via le même modèle d'embedding.
- Une recherche par similarité cosinus remonte les N chunks les plus proches sémantiquement (en général 10 à 20 candidats).
- Un filtre sur les métadonnées peut restreindre la recherche : uniquement les propales du secteur santé, uniquement les livrables des 24 derniers mois, etc.
- Un reranker (modèle léger comme Cohere Rerank ou une passe supplémentaire avec le LLM) réordonne les candidats pour ne garder que les 3 à 5 chunks réellement pertinents.
L'étape de reranking est souvent oubliée dans les tutoriels, mais elle change radicalement la qualité finale. Sans reranking, le top-10 de la recherche vectorielle contient régulièrement des passages hors sujet qui polluent le contexte du LLM et génèrent des réponses approximatives.
Pour les projets où la précision est critique (génération de propales, vérification d'informations contractuelles), nous appliquons systématiquement une recherche hybride : vecteurs sémantiques + BM25 (recherche par mots-clés classique). Les deux scores sont fusionnés via le Reciprocal Rank Fusion. Résultat : 15 à 25 % de pertinence supplémentaire sur les requêtes factuelles précises.
Étape 5 : génération avec Claude, sources citées
Les chunks retenus après reranking sont injectés dans le prompt système envoyé à Claude (ou GPT-4o selon votre préférence). Le prompt est structuré pour :
- Forcer le modèle à répondre uniquement depuis les extraits fournis, jamais depuis sa mémoire générale.
- Exiger la citation de la source (nom du document, date) pour chaque affirmation.
- Instruire une réponse explicite "Je n'ai pas trouvé cette information dans vos documents" si aucun extrait pertinent n'est disponible.
Ce dernier point est fondamental. Un RAG bien configuré doit savoir dire "je ne sais pas". Un modèle qui comble les trous avec ses connaissances générales quand les chunks sont insuffisants produit exactement les hallucinations que le RAG était censé éliminer.
Pourquoi Claude plutôt que GPT-4o pour la génération ? Sur des textes longs de conseil (propales denses, rapports d'audit structurés), Claude produit des reformulations plus fidèles au style original et gère mieux les instructions de format complexes. C'est une préférence terrain, pas un absolu.
Étape 6 : l'interface utilisateur pour votre équipe
Pour une PME ou un cabinet, le bot Slack est l'interface qui génère le meilleur taux d'adoption. Vos équipes sont déjà dans Slack ; elles n'ont pas à apprendre un nouvel outil.
Dans n8n, le déclencheur Slack Trigger écoute les messages dans un canal dédié (par exemple #assistant-livrables). Quand quelqu'un pose une question, le workflow de retrieval se déclenche, la réponse est formatée en blocs Slack avec les sources, et elle est postée dans le fil de la conversation.
Variantes possibles :
- Interface web simple : une page HTML servie par n8n (webhook + formulaire) si votre équipe ne passe pas par Slack.
- Teams bot : même logique, via le déclencheur Microsoft Teams de n8n.
- Intégration CRM : un bouton dans votre CRM qui déclenche le RAG sur un contexte client spécifique.
L'interface la plus sophistiquée n'est pas toujours la meilleure. Chez un cabinet de 12 personnes que nous accompagnons à Toulouse, le bot Slack est utilisé 40 à 60 fois par semaine après deux mois de déploiement. Une interface web dédiée aurait nécessité une formation et un changement d'habitudes. Slack a zéro friction.
Cas d'usage : générer une propale type depuis votre historique
Voici comment le système fonctionne concrètement pour un cabinet de conseil en stratégie. Ce même principe s'applique, avec des adaptations sur le parsing des DCE et la génération Word, aux structures qui doivent automatiser leur réponse aux appels d'offres.
La demande : un associé prépare une proposition commerciale pour un ETI du secteur logistique qui veut évaluer sa maturité IA.
Ce qu'il tape dans Slack : "Génère-moi le plan et les arguments clés d'une propale d'audit de maturité IA pour une ETI logistique, 200 à 800 personnes."
Ce que fait l'agent en coulisses :
- Recherche sémantique dans les 340 documents indexés : propales, livrables d'audit, comptes-rendus de mission.
- Remontée des 15 chunks les plus pertinents : sections "diagnostic maturité IA" de propales précédentes, livrables de missions logistique, formulations de ROI qui ont fonctionné.
- Reranking : conservation des 5 extraits les plus pertinents.
- Génération par Claude : plan en 6 sections, arguments clés, formulations réutilisables. Chaque élément est attribué à un document source daté.
Ce que l'associé reçoit en retour : un draft structuré en 3 minutes, avec pour chaque partie les documents sources à consulter pour approfondir. Le travail de fond de rédaction reste humain, mais la base est déjà là.
Résultat mesuré sur 3 mois : temps de production des propales réduit de 40 %, taux de réutilisation des formulations validées en hausse, onboarding des nouveaux consultants accéléré (ils peuvent interroger le capital de la structure dès le premier jour).
Ce que ce système ne fait pas
Il ne remplace pas le jugement du consultant. Il n'invente pas de méthode. Il ne choisit pas quelle propale vous devriez gagner. Il rend accessible et réutilisable ce que votre structure sait déjà faire, mais n'arrivait pas à retrouver.
Les limites honnêtes du RAG sur livrables
Tout article sur le RAG qui ne parle pas des limites est un article commercial, pas un article utile. Voici ce qui peut décevoir.
La qualité dépend de la qualité des documents sources
Le RAG amplifie ce qui existe. Si vos propales sont hétérogènes en qualité (certaines excellentes, d'autres bâclées), le système va mélanger le bon et le mauvais. Un audit minimal de votre base documentaire avant indexation est indispensable : supprimez les doublons, archivez les versions obsolètes, identifiez les documents "source de vérité".
Le chunking est une science approximative
Il n'existe pas de stratégie de découpage universelle. Une taille qui fonctionne parfaitement pour des audits structurés peut rater sur des comptes-rendus informels. Attendez-vous à plusieurs itérations avant d'atteindre la pertinence souhaitée, surtout si vos formats de documents sont variés.
Les hallucinations ne disparaissent pas complètement
Le RAG réduit drastiquement les hallucinations mais ne les élimine pas. Si aucun chunk pertinent n'est trouvé, un modèle mal prompté peut combler le vide. Si deux documents sources sont contradictoires, le modèle peut arbitrer dans le mauvais sens. La citation systématique des sources et la vérification humaine sur les informations critiques restent nécessaires.
La mise à jour est un processus, pas un automatisme
Le pipeline d'ingestion doit être testé régulièrement. Si quelqu'un renomme un dossier Google Drive ou change les droits d'accès, le déclencheur peut s'arrêter silencieusement. Prévoyez un monitoring des exécutions et une alerte si le nombre de documents indexés n'évolue plus depuis X jours.
RGPD et données clients : à cadrer dès la conception
Vos propales contiennent très probablement des données personnelles et des informations commerciales confidentielles de vos clients. Avant d'indexer l'ensemble de votre base, posez-vous trois questions : qui dans votre équipe peut interroger quels documents ? Vos clients ont-ils consenti à ce que leurs données soient utilisées en interne de cette façon ? Où sont hébergés les vecteurs ? Une architecture correctement conçue répond à ces questions dès le départ, pas après le déploiement. La CNIL publie des recommandations spécifiques sur l'IA et les données personnelles qui s'appliquent directement à ce type de projet.
Questions fréquentes
Pour aller plus loin
Un agent RAG sur vos livrables n'est pas un projet IA complexe. C'est un projet d'architecture documentaire autant que technique. La difficulté n'est pas dans la stack, elle est dans la qualité de ce qu'on met dedans et dans le soin apporté au pipeline d'ingestion.
Les cabinets et agences qui en tirent le plus de valeur sont ceux qui ont d'abord fait un travail honnête sur leur base documentaire existante : identifier les documents de référence, archiver ce qui est obsolète, homogénéiser au minimum les formats. Ce travail de fond prend parfois plus de temps que le déploiement technique lui-même.
- Le RAG expliqué sans jargon : les fondamentaux de l'architecture RAG pour les décideurs.
- RAG vs fine-tuning : arbre de décision et retours d'expérience terrain pour choisir la bonne approche.
- Optimiser un système RAG : chunking avancé, reranking, évaluation de pertinence en production.
- 5 erreurs qui font échouer les projets RAG : les pièges classiques et comment les éviter.
- 3 cas d'usage RAG en entreprise : résultats chiffrés sur des déploiements réels.
- Agents IA n8n en production : retour d'expérience sur les pièges de stabilité et les coûts réels.
- n8n, RGPD et hébergement souverain : comment garder le contrôle de vos données avec n8n.
- Embeddings et recherche sémantique : comprendre la brique fondamentale du RAG pour faire les bons choix de modèle.
- Coût d'un projet RAG en entreprise : estimer le budget réel d'un déploiement, du prototype à la production.
- Agent IA pour répondre aux appels d'offres : appliquer le RAG sur propales à un cas d'usage concret pour les bureaux d'études, ESN et cabinets de conseil.
- Self-host n8n RGPD et souveraineté en France : où héberger les vector DB et les pipelines RAG quand votre corpus contient des données sensibles ou clients.
Ressources externes de référence :
- Recommandations CNIL sur l'IA et les données personnelles : le cadre réglementaire français applicable aux projets RAG sur données internes.
- Documentation RAG officielle n8n : les nœuds natifs disponibles et leur configuration.
Votre base documentaire mérite mieux qu'une recherche par mots-clés
Discutons de votre architecture RAG sur vos propales et livrables.