Un POC RAG se boucle en deux semaines. La version qui tient en production un an, c'est dix fois plus de boulot. Voici trois projets qu'on a déployés pour de vrai, avec ce qui a marché, ce qui a coincé, et les chiffres bruts à l'arrivée.
1. E-commerce : l’assistant qui répond à 3 h du matin
Le service client de ce client traitait les mêmes questions en boucle : "Où est ma commande ?", "Comment retourner un article ?", "Ce produit est-il disponible en taille L ?". Trois agents à plein temps. Et le week-end, personne.
On a déployé un widget conversationnel directement sur le site, alimenté par un RAG construit sur le catalogue produits, la FAQ et les conditions de retour — scrapées et indexées dans une base vectorielle. L’historique de conversation est stocké via DynamoDB pour garder le contexte d’un échange à l’autre. Le routing de requêtes passe par un reranker Cohere avant génération, ce qui évite les réponses hors-sujet sur des questions ambiguës.
Soyons honnêtes sur ce qui a coincé : les descriptions produits du client étaient inconsistantes. Certains champs étaient vides, d’autres rédigés avec des abréviations internes inconnues du modèle. On a dû nettoyer et normaliser la donnée en amont — deux semaines de travail qu’on n’avait pas budgétées au départ. Sans ça, le hit rate de retrieval plafonnait à 58%.
Résultat après stabilisation : 72% des conversations résolues sans intervention humaine, les 28% restants étant escaladés automatiquement vers un agent dès que le score de confiance descend sous le seuil défini. Un échantillon des réponses autonomes est relu chaque semaine par l'équipe support pour vérifier que la qualité tient. Le taux de satisfaction sur les échanges IA a dépassé celui des agents sur les questions récurrentes (les agents ont été repositionnés sur les cas complexes). Pour les équipes support qui veulent aller plus loin, l’architecture complète avec boucle de feedback et pseudonymisation RGPD est détaillée dans notre guide sur le RAG appliqué à la base de connaissances support client.
2. Industrie : de 67% à 89% de précision sur la documentation technique
Projet Continental. 2 000 techniciens en usine, une documentation de maintenance dense — PDF avec tableaux, schémas, logs machines. Quand un technicien tape "erreur E-214 ligne 7", il faut que le système trouve la bonne procédure dans 800 pages de manuel, pas une approximation.
Le vectoriel seul ne suffisait pas. Un retrieval purement sémantique ratait les références exactes de codes erreur — le modèle d'embedding paraphrase, il ne mémorise pas un identifiant comme "E-214". On a branché un retrieval hybride BM25 + vectoriel : BM25 pour les codes et termes techniques exacts, vectoriel pour les descriptions symptômes en langage naturel. Le reranking final est assuré par LangFuse en monitoring pour tracker les dégradations version après version.
Le chunking a été le vrai chantier. Première stratégie : découpage fixe à 512 tokens. Résultat : des procédures coupées en deux, le modèle répondait avec la moitié d'une instruction. On est passés à un découpage par section logique (titre + corps), ce qui a demandé un parser PDF maison parce que les manuels n'étaient pas structurés de façon uniforme. Et là, la précision est passée de 67% à 89% sur notre jeu de test de 150 questions réelles. Ce niveau se maintient à une condition : rejouer ce jeu de test à chaque mise à jour du corpus, sinon la précision dérive sans que personne ne s'en aperçoive. On retrouve la même logique exigeante dans le bâtiment, où un artisan peut interroger ses normes techniques par IA pour vérifier la conformité d'un ouvrage.
Déployé sur AWS (ECS, S3, Lambda). Les tests de régression tournent à chaque mise à jour du corpus pour détecter les régressions avant qu'un technicien les subisse.
3. Données sensibles : le RAG qui ne sort pas du bureau
La question revient souvent : "On aimerait bien un ChatGPT interne, mais nos données ne peuvent pas partir sur les serveurs d'OpenAI." Ici, c'est un client avec des données spatiales sensibles — le genre de corpus qui ne peut pas transiter par une API externe, point final.
Architecture 100% on-premise : Mistral 7B instruct quantisé en 4-bit, servi via Ollama dans un conteneur Docker isolé du réseau. La base vectorielle tourne sous Qdrant, également en local. Zéro appel API externe. Le tout sur un serveur interne avec une GPU grand public — ça coûte moins cher qu'on ne l'imagine quand le volume de requêtes reste raisonnable.
Ce qui a demandé plus de temps que prévu : le pipeline d'évaluation. Les données spatiales contiennent des formats hybrides — du texte, des coordonnées, des tableaux de valeurs. Le chunking standard éclatait les tableaux en fragments inutilisables. On a construit un parser dédié qui détecte les blocs tabulaires et les encapsule dans un chunk unique avec un résumé généré automatiquement. Ces résumés restent un premier jet : un référent métier en a validé un échantillon avant indexation, car une synthèse fausse en amont contamine toutes les réponses en aval. Sans ce parser, le système hallucinait sur les valeurs numériques.
L'interface a été pensée pour des équipes métier, pas pour des développeurs : barre de recherche simple, réponse avec sources citées, bouton de feedback sur chaque réponse. Ce dernier point est souvent négligé — et pourtant c'est lui qui permet d'améliorer le modèle en continu sur les vrais usages. Les choix d'architecture complets et les fourchettes de coûts sont dans le guide sur le pipeline RAG pour documents internes en PME.
Après quatre mois d'usage : les équipes trouvent l'information en moins de 30 secondes là où il fallait chercher dans plusieurs répertoires partagés. Et les données n'ont jamais quitté l'infrastructure interne.
Ce que ça change vraiment
Sur ces trois projets et les suivants, les économies opérationnelles mesurées se situent entre 25% et 60% — une fourchette large parce que ça dépend énormément du volume de requêtes absorbées et du coût horaire du temps humain remplacé. Les analyses McKinsey pointent vers les mêmes ordres de grandeur.
Concrètement, les gains viennent de trois endroits :
- Recherche d'information. Le temps passé à chercher dans des répertoires partagés ou des manuels passe de plusieurs minutes à quelques secondes. Sur de gros volumes, ça s'accumule vite.
- Support de niveau 1. On a accompagné un éditeur de logiciel médical dont le RAG avec recherche hybride a réduit les tickets entrants de 50%. Les agents ont été repositionnés sur les cas complexes.
- Onboarding. Un nouveau collaborateur qui peut interroger la base documentaire interne monte en compétence deux à trois fois plus vite. Moins facile à chiffrer, mais réel.
Ce que le RAG ne fait pas
Soyons honnêtes. Le RAG est puissant, mais certaines erreurs reviennent systématiquement.
- Si la réponse n'est pas dans les documents, le système ne la devine pas. Le RAG fait de la recherche documentaire augmentée, pas de la déduction. Des clients arrivent avec des corpus incomplets en pensant que le modèle "comblera les lacunes". Il ne le fait pas, ou il hallucine — ce qui est pire.
- Le risque d'hallucination reste réel, même avec des sources citées. Le modèle peut mal interpréter un lien entre deux passages. C'est pour ça qu'on met en place des scores de confiance et des boucles de feedback utilisateur dès le départ — pas comme option, comme condition de base. Sans évaluation continue, une régression passe inaperçue pendant des semaines.
Pour les cabinets de conseil et agences qui veulent capitaliser sur leur patrimoine documentaire (propales, audits, livrables clients), nous avons documenté un quatrième cas d'usage dans notre article dédié à l'agent IA RAG sur vos propales, audits et livrables avec n8n.
La donnée propre d'abord, le modèle après
Sur ces trois projets, le facteur limitant n'était jamais le modèle de langage. C'était la qualité de la donnée source, la stratégie de chunking, et l'absence d'évaluation continue. Le RAG fonctionne quand la donnée est propre et structurée — pas avant. Si votre corpus est fragmenté ou mal typé, commencez par là. Pour voir ce que ça donne une fois bien calibré, les détails sont dans les cas de l'éditeur de logiciel médical et de Continental.
Passer au concret
Planifiez un échange pour cadrer votre cas d'usage RAG.
Questions fréquentes sur le RAG en entreprise
Question client
Est-ce que le RAG marche sur des PDF scannés ?
Oui, mais ça demande une étape OCR en amont. Un PDF scanné est une image — il n'y a pas de texte extractible directement. On passe par un outil comme Tesseract ou AWS Textract selon la qualité des scans. Sur des documents techniques avec beaucoup de tableaux, Textract donne de meilleurs résultats. Le temps d'ingestion est plus long, et la qualité de l'OCR conditionne directement la qualité du retrieval. Des scans mal numérisés produisent des chunks illisibles — et là, pas de miracle.
Question client
On a des données confidentielles, nos documents ne peuvent pas quitter notre réseau. C'est bloquant ?
Non. Une architecture on-premise avec Mistral ou Llama 3 tournant sous Ollama, une base vectorielle Qdrant en local, et des conteneurs Docker — tout ça peut rester dans votre infrastructure sans aucun appel API externe. Le coût d'infrastructure est plus élevé qu'une API cloud, mais les données ne bougent pas. C'est exactement le montage qu'on a fait sur le cas 3 décrit ci-dessus.
Question client
Combien de temps pour avoir quelque chose qui tourne vraiment ?
Un POC fonctionnel : deux semaines. Un système en production avec évaluation, monitoring LangFuse, boucle de feedback et gestion des mises à jour du corpus : entre 8 et 16 semaines selon la complexité des documents. La variable la plus sous-estimée, c'est le nettoyage de la donnée source. Sur presque tous les projets, ça représente 30 à 40% du temps total. Les projets avec documentation technique dense (comme le cas industriel) ou données hétérogènes prennent systématiquement plus de temps sur cette phase.
Question client
Comment on sait que le système se dégrade pas dans le temps ?
C'est la question que personne ne pose au départ, et qui finit par coincer six mois après le lancement. On met en place un jeu de questions de référence — au minimum 50, idéalement 150 — avec les réponses attendues. À chaque mise à jour du corpus ou du modèle, on rejoue ce jeu de tests et on compare les scores. LangFuse permet de tracker les métriques de retrieval (hit rate, MRR) et de génération (faithfulness via RAGAS) dans le temps. Si une régression apparaît, elle est détectée avant d'impacter les utilisateurs. Pour un audit de votre système RAG existant, c'est souvent la première chose qu'on vérifie.
Aller plus loin
Découvrez notre offre d'assistant IA interne RAG ou consultez les résultats obtenus chez Continental et chez un éditeur de logiciel médical. Pour un accompagnement personnalisé, contactez notre équipe à Toulouse.
Pour aller plus loin
- Assistant IA Interne RAG : notre service pour déployer un assistant RAG connecté à vos données métier.
- Agence IA Toulouse : notre accompagnement local pour vos projets.
- IA pour PME à Toulouse : booster votre croissance avec l'IA.
- Chatbot entreprise Toulouse : automatisez votre support et votre base de connaissances.
- 5 Erreurs qui font échouer vos projets RAG : retour d'expérience sur les pièges courants à éviter.
- RAG vs Chatbot Simple : quand utiliser quoi ? : différences et critères de choix.
- Comprendre le RAG appliqué aux données internes : architecture, limites et bonnes pratiques.
- Diagnostic IA interne : cartographier vos données et prioriser les cas d'usage.
- Audit IA : sécuriser vos investissements et votre gouvernance data.
- 7 Prompts IA pour Avocats : optimiser la recherche et la rédaction juridique.
- Rechercher la jurisprudence sur internet avec ChatGPT et Claude : un cas concret de recherche augmentée avec sources vérifiables, comparable à un mini RAG sur le web.
- Rédaction de mémoires techniques : comment le RAG réduit le temps de production documentaire.
- Prompts IA pour bureaux d'études : un cas d'application RAG concret en BET, avec prompts pour notes de calcul, rapports techniques et synthèses CCTP.
- Cas client : assistant IA industriel chez Continental : de 67% à 89% de précision grâce au RAG et l'hybrid search, déployé pour 2 000 utilisateurs en usine.
- IA en service client (Salesforce) : baisse des tickets et amélioration du CSAT.
- IA générative en maintenance (Deloitte) : knowledge management et diagnostic.
- Productivité de l'IA générative (McKinsey) : impact sur les métiers.
- RAG et sécurité des données (AWS) : standards techniques et vector DB.
- RAG souverain avec Mistral : architecture on-premise avec modèles open-source pour données sensibles.
- Fine-tuner Mistral sur vos données métier : quand le RAG ne suffit plus et qu'il faut adapter le modèle.
- Coût d'un projet RAG en entreprise : budget détaillé et TCO pour planifier votre investissement.
- Agentic RAG : quand le RAG classique ne suffit plus et que les agents IA prennent le relais.
- RAG multimodal : indexer images, PDF et tableaux pour enrichir vos cas d'usage.
- Un agent IA RAG sur vos propales, audits et livrables avec n8n : cas concret pour cabinets de conseil et agences.
- Déployer un assistant IA interne sur les documents de l'entreprise : méthode opérationnelle en 8 étapes.