Tensoria
Parlez-nous de votre projet : 07 82 80 51 40
RAG & Connaissances Par
Dernière mise à jour :

5 Erreurs qui Font Échouer les Projets RAG en Entreprise

Erreurs projet RAG en entreprise - consultant analysant les performances d'un système IA

Un POC RAG (Retrieval-Augmented Generation) marche en deux semaines. Le mettre en production et le faire tenir six mois, c'est une autre histoire. Sur la trentaine de projets RAG pilotés ou audités à ce jour, les mêmes erreurs reviennent. Et elles ne sont presque jamais techniques.

Industrie, juridique, e-commerce, BTP : les contextes changent, les pièges restent les mêmes. On a vu des projets bien partis dérailler en cours de route, et des projets mal engagés se redresser après correction de trajectoire. Avec le recul, les causes d'échec sont prévisibles, à condition de savoir les chercher au bon endroit.

Ce sont des erreurs de posture, d'approche et de méthode. Voilà ce qu'on a observé, avec des exemples terrain, pour ne pas les reproduire.

Erreur n°1 : Croire que le RAG va répondre à n'importe quelle question

C'est l'erreur la plus répandue, et elle ne vient pas de l'équipe technique. Elle vient d'un décalage entre la perception de l'IA générative et la réalité du RAG.

Un système RAG fait une chose précise : quand un utilisateur pose une question, il récupère les passages pertinents dans une base documentaire, puis un modèle de langage formule une réponse à partir de ces passages. C'est puissant, mais c'est limité au périmètre des documents fournis. Si l'information n'est pas dans les documents, le système ne peut pas la produire. Il peut en revanche halluciner une réponse plausible, ce qui est pire qu'un simple "je ne sais pas".

Le problème, c'est que pour quelqu'un qui découvre l'IA générative, "une IA, ça comprend tout". L'image populaire de ChatGPT crée une attente démesurée. Résultat : quand on déploie un assistant RAG interne, les utilisateurs s'attendent à ce qu'il gère absolument tout, y compris des demandes qui sortent complètement du cadre.

Exemple terrain

Sur un projet de chatbot documentaire pour un client, le système répondait correctement aux questions anticipées. Mais en analysant les requêtes réelles des utilisateurs, on a découvert que beaucoup demandaient des choses hors périmètre : "résume-moi ce fichier" (alors que le RAG n'a pas accès aux fichiers de l'utilisateur), ou des questions sans aucun rapport avec la documentation disponible. Pour eux, c'était logique : "c'est de l'IA, ça devrait comprendre".

La leçon est simple mais fondamentale : il faut communiquer clairement sur le périmètre du RAG dès le départ. Expliquer ce qu'il peut faire, ce qu'il ne peut pas faire, et donner des exemples concrets de questions qui fonctionnent et de questions qui ne fonctionneront pas.

Ce cadrage en amont change tout. Moins de frustration, moins de déception, et un projet qui part sur des bases saines. C'est moins spectaculaire qu'une démo "magique", mais c'est ce qui fait la différence entre un outil adopté et un outil abandonné.

Et soyons réalistes sur les chiffres. Un RAG n'a pas besoin d'atteindre 100 % de bonnes réponses pour être rentable. À 90 %, on traite déjà 9 demandes sur 10 sans intervention humaine, à condition de prévoir le circuit pour la dixième : un seuil de confiance en dessous duquel le système passe la main à un humain, au lieu de laisser sortir une réponse douteuse. C'est un gain de temps considérable, et c'est suffisant pour générer un ROI positif et mesurable.

Erreur n°2 : Penser que chaque nouveau projet RAG sera simple

Après un premier projet réussi, la tentation est grande de se dire que la méthode est acquise et que le prochain ira vite. C'est un piège classique, et on est tombés dedans nous aussi.

Chaque projet RAG est un projet en soi. Les données changent, les types de questions changent, les formats de documents changent. Ce qui fonctionnait parfaitement sur un corpus de fiches produits bien structurées ne marchera pas sur de la documentation technique avec des tableaux imbriqués dans des PDF.

Deux projets, deux réalités

  • Projet A. Milliers de documents, propres et homogènes, questions prévisibles. Résultat : environ 90 % de bonnes réponses en quelques semaines d'industrialisation. C'est ce type de trajectoire qu'on a observé sur notre projet pour un éditeur de logiciel médical, où une documentation bien structurée et une recherche hybride ont permis de diviser les tickets de support par deux.
  • Projet B. Documentation complexe avec tableaux dans des PDF, schémas techniques, formats hétérogènes. Résultat : plusieurs mois de travail pour atteindre environ 80 %. Chaque amélioration sur un type de question en cassait une autre.

Le vrai défi, c'est que la complexité n'évolue pas de façon linéaire. Passer de 100 à 1 000 documents, ce n'est pas "10 fois plus de travail", c'est un changement de nature. Le système de recherche doit être plus précis, le découpage des documents plus fin, et les cas limites se multiplient. C'est d'ailleurs ce qu'on détaille dans notre guide sur l'optimisation d'un RAG en production.

On voit régulièrement des entreprises venir nous consulter parce que leur RAG existant ne fonctionne pas. Quelqu'un leur avait promis un déploiement rapide, en quelques jours, sans se poser de questions sur les données. Résultat : des performances sous les 70 %, un outil inutilisé, et un projet à reprendre quasiment de zéro.

Il n'y a pas de raccourci. Un audit IA sérieux en amont, qui prend en compte la nature réelle des données, est le meilleur investissement pour éviter ce scénario.

Erreur n°3 : Sauter l'analyse des données et se lancer directement dans le code

C'est une erreur de développeur, et nous l'avons faite. On reçoit le brief, on connaît l'architecture RAG, on a envie d'avancer. Alors on fonce dans le pipeline : parsing, chunking, embeddings, retriever, prompt. Les habitudes sont là, le code aussi.

Sauf que la première chose à faire, avant d'écrire une seule ligne de code, c'est d'ouvrir les documents du client et de les regarder.

Combien d'estimations complètement fausses on a vues parce que personne n'avait pris le temps d'explorer les données ? On estime "3 semaines" sur la base d'un brief qui dit "on a des PDF". Et quand on ouvre les PDF, on découvre des scans de mauvaise qualité, des tableaux imbriqués, des en-têtes incohérents, des documents de 200 pages sans structure.

La connaissance interne d'une entreprise est souvent dispersée entre des formats hétérogènes, des documents obsolètes, des doublons, des pages contradictoires. On demande ensuite au système de répondre proprement à partir d'un ensemble qui n'a jamais été structuré pour cela.

Une étude de McKinsey sur l'IA générative en entreprise confirme ce que nous observons sur le terrain : la qualité des données est le facteur n°1 de succès ou d'échec des projets d'IA. C'est encore plus vrai pour le RAG, où les données représentent 80 % du travail.

Si les documents sont propres, bien structurés, avec du texte exploitable, le RAG sera relativement simple à mettre en place. Si c'est un mélange de formats hétérogènes, aucun framework ni aucune technologie ne résoudra le problème à votre place.

Ce qu'on fait systématiquement avant de coder

Chez Tensoria, avant chaque projet RAG, nous consacrons au minimum une demi-journée à cette exploration :

  • Ouvrir un échantillon représentatif des documents du client
  • Identifier les formats (PDF, Word, Excel, HTML, images, scans)
  • Vérifier la qualité du texte extractible : un PDF "texte" et un PDF "scan" sont deux problèmes complètement différents
  • Repérer les cas problématiques : tableaux, schémas, annotations manuscrites
  • Estimer la volumétrie et la fréquence de mise à jour
  • Comprendre quelles questions les utilisateurs vont réellement poser, et non celles qu'on imagine qu'ils poseront

C'est cette étape qui permet d'estimer correctement un projet. C'est aussi cette étape que la plupart des équipes sautent. Un premier résultat sur des données qu'on n'a pas comprises ne vaut rien. C'est d'ailleurs l'un des premiers points qu'on aborde dans notre guide de diagnostic IA interne.

Erreur n°4 : Dépendre entièrement d'un framework sans maîtriser le pipeline

LangChain, LlamaIndex, Haystack… les frameworks RAG ne manquent pas. Et ils ont une vraie valeur : ils accélèrent le prototypage et permettent de monter une démo fonctionnelle rapidement.

Le piège, c'est de les utiliser en production sans comprendre ce qui se passe derrière chaque abstraction.

Quand un RAG ne répond pas bien à une question, la première chose à faire est de comprendre pourquoi. Pour cela, il faut remonter chaque étape : le parsing a-t-il bien extrait l'information ? Le découpage a-t-il placé la bonne information dans le bon morceau ? Le retriever a-t-il trouvé les bons passages ? Le prompt était-il bien formulé ?

Quand chaque étape est encapsulée dans une couche d'abstraction, déboguer devient un cauchemar. On passe un temps disproportionné à naviguer dans la documentation du framework, à chercher comment personnaliser un comportement, à contourner des limitations.

Notre constat après des dizaines de projets

Le temps investi à personnaliser les briques d'un framework dépasse souvent le temps qu'il aurait fallu pour coder son propre système. Le système maison a un avantage décisif : on le comprend de bout en bout, on peut le modifier en quelques minutes, et on sait exactement ce qui se passe à chaque étape.

Les frameworks sont précieux quand ils encapsulent des calculs complexes qu'on ne veut pas recoder (le deep learning, par exemple). Mais un pipeline RAG repose sur des étapes conceptuellement simples : parser un document, le découper, le vectoriser, chercher les plus proches voisins, construire un prompt. Coder ce pipeline soi-même une première fois est un excellent exercice de compréhension, et cela change durablement la façon dont on approche les problèmes de retrieval.

Sur le long terme, c'est encore plus vrai. De nouvelles techniques sortent régulièrement dans le monde du RAG. Quand on veut les tester, on reste dépendant du framework et de sa capacité à s'adapter. Or, comme le souligne cette synthèse de la recherche sur le RAG publiée sur arXiv, le domaine évolue si vite que les frameworks peinent à suivre le rythme.

Ce conseil s'applique aussi aux agents IA : plus on maîtrise les briques fondamentales, plus on est libre et rapide pour s'adapter.

Erreur n°5 : Ne pas mesurer la performance du RAG dès le début

C'est l'erreur silencieuse. Le RAG est en place, il tourne, les utilisateurs posent des questions, et on a l'impression que "ça marche". Mais est-ce que ça marche vraiment ? À quel point ? Personne ne le sait, parce que rien n'a été mis en place pour mesurer.

On voit trop de projets où la mesure ne commence que quand les retours négatifs arrivent. À ce stade, il n'y a aucune baseline, aucun historique, aucun moyen de savoir si les choses se sont dégradées ou si elles n'ont jamais été bonnes.

Sans mesure, on ne détecte pas non plus les hallucinations. Le retriever remonte des passages même quand aucun n'est pertinent, et le modèle génère alors une réponse confiante mais fausse. Ce phénomène passe inaperçu si on ne le cherche pas activement. C'est pour cela qu'en production, la mesure va de pair avec un garde-fou actif : quand la confiance est trop basse, le système préfère dire qu'il ne sait pas et escalader vers un humain, plutôt que de servir une réponse inventée à l'utilisateur.

Le dataset d'évaluation, l'outil que personne ne construit

La mesure doit commencer dès le premier jour. Pas besoin d'un outil sophistiqué. Un simple jeu de 30 à 50 questions-réponses de référence, passé régulièrement sur le système, suffit à avoir une vision claire de la performance.

Sans ce dataset, chaque modification devient un pari. On change le découpage, on change le modèle d'embeddings, on ajuste le prompt, et on n'a aucun moyen objectif de savoir si c'est mieux ou pire. On se fie au ressenti, à quelques tests manuels. Ce n'est pas suffisant.

Ce qu'on recommande concrètement

  • Constituer un dataset d'évaluation dès le début du projet, avec des questions représentatives et les réponses attendues
  • Le passer après chaque modification du système pour vérifier qu'on progresse sans rien casser
  • Logger les interactions en production pour identifier les vrais cas d'usage et les vrais problèmes
  • Suivre un score simple (pourcentage de bonnes réponses) dans le temps
  • Tester les cas hors périmètre pour mesurer le taux d'hallucinations et mettre en place des garde-fous si nécessaire

C'est basique, mais c'est ce qui fait la différence entre un projet RAG qui s'améliore dans le temps et un projet qui stagne sans qu'on comprenne pourquoi. C'est aussi ce qui permet de justifier l'investissement auprès de la direction, un sujet qu'on aborde en détail dans notre article sur la mesure du ROI des projets IA.

Selon Gartner, les organisations qui mettent en place des métriques de performance dès le lancement ont un taux de succès significativement plus élevé sur leurs projets d'IA. Ce qu'on ne mesure pas, on ne l'améliore pas.

En résumé : la technique ne suffit pas pour réussir un projet RAG

Ces cinq erreurs, nous les avons toutes commises. L'IA générative donne une impression de magie, et avec cette impression vient la conviction que tout est réalisable rapidement. Même avec des années de pratique, on n'est pas à l'abri de mal estimer un projet, de vouloir aller trop vite, ou d'oublier de mesurer.

Le schéma se répète souvent dans le même ordre :

  1. On se lance trop vite sans cadrer le périmètre
  2. On ne communique pas assez sur les limites auprès des utilisateurs
  3. On sous-estime la complexité et la qualité des données
  4. On s'enferme dans un framework sans comprendre le pipeline
  5. On oublie de mesurer, et les hallucinations passent inaperçues

Un système RAG n'est pas un produit qu'on installe et qu'on oublie. C'est un système vivant qui demande de la rigueur, de la patience, et surtout une bonne compréhension des données et du besoin métier. La technique vient après. La maintenance d'une solution IA après la livraison est une dimension à anticiper dès le cadrage du projet.

Si vous envisagez un projet RAG ou si vous avez un système qui ne donne pas satisfaction, le bon point de départ est souvent un audit IA pour poser un diagnostic clair avant d'investir davantage.

Questions fréquentes

La plupart des échecs RAG ne sont pas techniques. Ils viennent d'attentes mal calibrées, de données non analysées avant le développement, d'une sous-estimation de la complexité propre à chaque projet, ou d'une absence de mesure de performance dès le départ.
Sur des documents propres et un périmètre bien défini, un RAG industrialisé atteint généralement entre 85 et 95 % de bonnes réponses. C'est largement suffisant pour un ROI positif : 9 réponses justes sur 10, c'est autant de demandes traitées sans intervention humaine. Le reste doit être encadré : un seuil de confiance en dessous duquel le système répond 'je ne sais pas' et passe la main à un humain, plutôt que de laisser sortir une réponse douteuse.
Les frameworks accélèrent le prototypage, mais ils peuvent devenir un frein en production. Un RAG repose sur des étapes conceptuellement simples. Maîtriser chaque brique permet de débugger plus vite et d'intégrer de nouvelles techniques sans dépendre des mises à jour d'un framework tiers.
Cela dépend entièrement des données. Sur des documents propres et un périmètre clair, un premier déploiement peut prendre 4 à 8 semaines. Sur des documents complexes (scans, tableaux, formats hétérogènes), il faut compter plusieurs mois pour atteindre un niveau de qualité satisfaisant.
La méthode la plus efficace est de constituer un jeu de 30 à 50 questions-réponses de référence dès le début du projet. Ce dataset d'évaluation est passé sur le système après chaque modification pour mesurer le pourcentage de bonnes réponses et détecter les régressions.
Les hallucinations dans un RAG surviennent principalement quand le retriever remonte des passages non pertinents et que le modèle génère malgré tout une réponse. Pour les réduire, il faut définir un seuil de confiance en dessous duquel le système répond "je ne sais pas", inclure dans le prompt une instruction explicite de ne répondre qu'à partir des documents fournis, et tester régulièrement les questions hors périmètre avec un dataset d'évaluation dédié.

Pour aller plus loin

Votre RAG ne donne pas satisfaction ?

30 minutes pour poser un diagnostic, identifier les vrais blocages, et définir un plan d'action concret.

Réserver un appel découverte

Passer à l'action

Vous voulez appliquer ça dans votre entreprise ?

En quelques minutes, identifiez les cas d'usage IA les plus rentables pour votre métier. Sans engagement, et sans jargon.

Demander un devis

Articles liés

RAG & Connaissances

Top bases de données vectorielles pour le RAG en 2026

Qdrant, Chroma, Weaviate, pgvector, FAISS, Milvus, Pinecone, Elasticsearch : comparatif technique des bases vectorielles pour le RAG. Open-source, managé, filtrage hybride, souveraineté.

Lire l'article
RAG & Connaissances

RAG juridique pour avocats : architecture et garde-fous

Architecture complète d'un RAG jurisprudentiel pour cabinet d'avocats : corpus Legifrance, embeddings juridiques, chunking par considérant, reranker, anti-hallucination. Guide ingénieur.

Lire l'article
RAG & Connaissances

RAG sur factures fournisseurs : architecture hybride SQL + IA

Pourquoi le RAG seul ne suffit pas sur les factures et comment concevoir une architecture hybride SQL + RAG pour la PME : OCR, extraction structurée, alertes IBAN, conformité 2026 →

Lire l'article
RAG & Connaissances

RAG documents internes : architecture, coûts, pièges 2026

Architecture RAG pour base documentaire PME : chunking, embeddings, reranker, métriques (Recall@5, coût/requête), coûts POC, pièges prod.

Lire l'article
RAG & Connaissances

RAG support client : architecture pour automatiser le N1

Architecture RAG sur base de connaissances support : ingestion KB + tickets résolus, pseudonymisation RGPD, boucle de feedback, seuil de confiance et intégrations Zendesk →

Lire l'article
RAG & Connaissances

Génération propales par IA : RAG sur corpus gagnantes

Architecture RAG sur vos propales commerciales gagnées : ingestion, embeddings, retrieval par brief, template fixe, voix de marque. Guide ingénieur complet. →

Lire l'article
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.