Agentic RAG : quand le RAG classique ne suffit plus

Vous avez déployé un système RAG en entreprise. Il fonctionne bien sur les questions simples : trouver une clause dans un contrat, résumer une procédure interne, répondre à une FAQ technique. Mais dès qu'un utilisateur pose une question qui croise plusieurs documents, qui nécessite une comparaison ou qui demande un raisonnement en plusieurs étapes, le système décroche.

Ce n'est pas un bug. C'est une limitation architecturale du RAG classique. Le retrieval en un seul passage (single-shot) ne peut pas résoudre des problèmes qui exigent de la planification, de l'itération et du jugement. C'est exactement ce que l'Agentic RAG apporte : un agent qui raisonne avant de chercher, qui évalue ce qu'il trouve, et qui reformule si le résultat n'est pas satisfaisant.

Voici ce que ça change concrètement, quand c'est pertinent, et quand le RAG classique reste le meilleur choix.

Guide pilier

Cet article fait partie de notre Guide RAG en entreprise, qui regroupe l'ensemble de nos ressources sur le sujet.

Agentic RAG - Agent IA orchestrant la recherche documentaire en entreprise avec raisonnement multi-étapes — Du retrieval passif à l'investigation active : l'Agentic RAG change la manière dont l'IA exploite vos documents.

En bref

Le RAG classique fait un seul passage de recherche puis génère : efficace pour les questions simples, insuffisant pour les requêtes complexes
L'Agentic RAG ajoute un agent qui planifie, décompose les requêtes, interroge plusieurs sources et itère jusqu'à obtenir une réponse fiable
Patterns clés : query decomposition, self-reflection, tool use, multi-step reasoning
Cas d'usage : analyse multi-contrats, audit réglementaire, due diligence, synthèse comparative
Compromis : latence de 5 à 30 secondes et coût API multiplié par 3 à 10, mais taux de bonnes réponses nettement supérieur sur les requêtes complexes

Pourquoi le RAG classique atteint ses limites

Le RAG classique fonctionne en trois étapes : l'utilisateur pose une question, le système cherche les passages pertinents dans une base vectorielle, puis un LLM génère une réponse à partir de ces passages. C'est un pipeline linéaire, en un seul passage (single-shot retrieval). Le choix de la base vectorielle (Qdrant, pgvector, Weaviate...) impacte directement les capacités de filtrage et de recherche hybride disponibles : notre comparatif des bases de données vectorielles pour le RAG aide à trancher selon le contexte.

Ce fonctionnement est parfaitement adapté à la majorité des cas d'usage en entreprise. Mais il échoue systématiquement dans trois situations.

Les questions multi-hop

Une question multi-hop nécessite de croiser plusieurs informations issues de documents différents pour construire la réponse. Par exemple : "Quel fournisseur propose le meilleur rapport qualité/prix pour les composants électroniques, en tenant compte des délais de livraison et des conditions de garantie ?"

Le RAG classique va chercher les passages les plus similaires à cette requête. Mais la réponse n'existe dans aucun document unique. Il faudrait comparer les fiches fournisseurs, croiser avec les conditions commerciales, et synthétiser. Un seul passage de retrieval ne peut pas faire ce travail.

Les requêtes ambiguës

Quand un utilisateur demande "Qu'est-ce qu'on risque si on ne respecte pas les délais ?", le système ne sait pas s'il parle de pénalités contractuelles, de risques réglementaires ou de conséquences commerciales. Le RAG classique va chercher les passages les plus similaires à la requête telle quelle, sans demander de précision ni explorer plusieurs pistes.

L'analyse comparative et la synthèse

Comparer les clauses de responsabilité dans 15 contrats, ou synthétiser les non-conformités d'un audit réglementaire à travers 200 pages de documentation : le RAG classique ne peut pas gérer ces tâches. Il est limité par sa fenêtre de contexte et par le fait qu'il ne sait pas planifier une stratégie de recherche.

Ce que le RAG classique ne sait pas faire

Décomposer une question complexe en sous-questions
Évaluer si les résultats de recherche sont suffisants pour répondre
Reformuler une requête si le premier passage de retrieval est insatisfaisant
Combiner des données issues de sources hétérogènes (documents + SQL + API)
Itérer jusqu'à obtenir une réponse complète et vérifiable

Qu'est-ce que l'Agentic RAG

L'Agentic RAG (ou RAG agentique) est une architecture où un agent IA orchestre l'ensemble du processus de recherche et de génération. Au lieu d'un pipeline linéaire, l'agent opère dans une boucle de raisonnement : il planifie, exécute, évalue, et corrige.

Concrètement, voici ce qui change :

Planification : l'agent analyse la question et décide d'une stratégie de recherche avant de lancer le moindre retrieval.
Décomposition : si la question est complexe, il la découpe en sous-questions indépendantes, chacune traitable par un retrieval ciblé.
Exécution multi-sources : pour chaque sous-question, l'agent choisit le bon outil (base vectorielle, requête SQL, appel API) et récupère les informations.
Évaluation : l'agent juge si les résultats sont suffisants. Si un passage est hors sujet ou incomplet, il reformule et relance la recherche.
Synthèse : une fois toutes les sous-réponses collectées, l'agent les agrège en une réponse cohérente et sourcée.

La différence fondamentale, c'est que l'agent a la capacité de dire "je n'ai pas assez d'information, je dois chercher autrement". Le RAG classique, lui, fait toujours un seul passage et génère avec ce qu'il a trouvé, même si c'est insuffisant.

Les patterns concrets de l'Agentic RAG

L'Agentic RAG n'est pas une technologie monolithique. C'est un ensemble de patterns qu'on peut combiner selon le cas d'usage. Voici les quatre principaux.

Query decomposition (décomposition de requête)

C'est le pattern le plus impactant. Avant toute recherche, l'agent analyse la question et la décompose en sous-questions atomiques.

Exemple : "Compare les conditions de paiement et les pénalités de retard entre nos trois principaux fournisseurs."

L'agent décompose en :

Quelles sont les conditions de paiement du fournisseur A ?
Quelles sont les conditions de paiement du fournisseur B ?
Quelles sont les conditions de paiement du fournisseur C ?
Quelles sont les pénalités de retard du fournisseur A, B, C ?

Chaque sous-question cible un document précis, ce qui améliore drastiquement la qualité du retrieval. Ensuite, l'agent synthétise les résultats dans un tableau comparatif.

Self-reflection (auto-évaluation)

Après chaque étape de retrieval, l'agent évalue la pertinence et la complétude des résultats. Si les passages récupérés ne répondent pas à la sous-question, il peut :

Reformuler la requête avec des termes différents
Élargir le périmètre de recherche (plus de chunks, filtres différents)
Changer de source (passer de la base vectorielle à une recherche SQL par exemple)
Signaler une lacune si l'information n'existe tout simplement pas dans les données disponibles

Ce pattern est crucial pour éviter les hallucinations. Au lieu de générer une réponse à partir de passages non pertinents, l'agent reconnaît ses limites et agit en conséquence.

Tool use (utilisation d'outils)

Le RAG classique est limité à la recherche vectorielle. L'Agentic RAG donne à l'agent un ensemble d'outils qu'il peut appeler dynamiquement :

Recherche vectorielle : pour les questions sémantiques sur des documents non structurés
Requêtes SQL : pour les données structurées (chiffre d'affaires, stocks, dates)
Appels API : pour les données en temps réel (cours, météo, statut de commande)
Calculs : pour les opérations mathématiques que le LLM ne sait pas faire de manière fiable

L'agent décide quel outil utiliser en fonction de la nature de la question. Une question sur un montant contractuel appellera la base vectorielle. Une question sur l'évolution du chiffre d'affaires sur 12 mois appellera la base SQL.

Multi-step reasoning (raisonnement en chaîne)

Ce pattern combine les trois précédents dans une boucle itérative. L'agent avance étape par étape, chaque résultat intermédiaire alimentant l'étape suivante.

Exemple concret dans un contexte de due diligence :

L'agent identifie les 12 contrats fournisseurs à analyser
Pour chaque contrat, il extrait les clauses de résiliation et les conditions de renouvellement
Il détecte les incohérences entre contrats (durées différentes, clauses contradictoires)
Il génère un rapport de synthèse avec les risques identifiés, classés par criticité

Chaque étape dépend du résultat de la précédente. C'est impossible à réaliser avec un seul passage de retrieval. Le rapport final reste un premier jet sourcé : l'analyste le relit avec les extraits cités sous les yeux, ce qui prend quelques minutes par point au lieu d'heures de lecture intégrale.

RAG classique vs Agentic RAG : comparaison directe

Critère	RAG classique	Agentic RAG
Stratégie de recherche	Un seul passage (single-shot)	Planifiée, itérative, adaptative
Types de requêtes	Questions simples, factuelles	Multi-hop, comparatives, analytiques
Sources de données	Base vectorielle uniquement	Vectorielle + SQL + API + calculs
Gestion de l'échec	Génère quand même (risque d'hallucination)	Reformule, relance ou signale la lacune
Latence	1 à 3 secondes	5 à 30 secondes
Coût par requête	1 appel LLM	3 à 10 appels LLM
Complexité de debug	Pipeline linéaire, traçable	Graphe d'exécution, traces nécessaires
Cas d'usage optimal	FAQ, support, recherche documentaire	Analyse juridique, audit, due diligence

Le point essentiel : l'Agentic RAG n'est pas un remplacement du RAG classique. C'est une couche supplémentaire pour les cas d'usage qui exigent un raisonnement complexe. Les deux architectures coexistent souvent dans le même système.

Cas d'usage concrets où l'Agentic RAG change la donne

Voici les situations que nous rencontrons régulièrement chez nos clients où le passage à l'Agentic RAG a transformé la qualité des réponses. Un principe commun à tous ces cas : l'agent prépare le travail et cite ses sources, l'expert métier valide. C'est ce qui rend le gain de temps réel sans sacrifier la fiabilité.

Analyse de contrats multi-documents

Un cabinet juridique doit comparer les clauses de non-concurrence dans 20 contrats de travail. Le RAG classique ne peut pas gérer cette tâche : il récupère au mieux 3 à 5 passages similaires, sans garantie de couvrir tous les contrats. En support client, la même logique agentique s'applique quand un agent doit croiser l'historique CRM, les tickets précédents et la documentation produit pour répondre à une demande complexe : voir notre article sur l'architecture RAG pour base de connaissances support N1, qui illustre comment l'itération et la boucle de feedback transforment un simple retrieval en un système apprenant.

L'agent Agentic RAG planifie l'analyse : il identifie les 20 contrats, extrait systématiquement la clause de non-concurrence de chacun, les compare sur des critères précis (durée, périmètre géographique, indemnité), et génère un tableau de synthèse avec les références exactes de chaque clause. Le juriste relit ce premier jet en remontant aux sources avant toute utilisation : c'est lui qui engage le cabinet, pas l'agent. Temps gagné sur la collecte et la mise en forme, relecture incluse : plusieurs heures de travail d'un juriste senior.

Audit réglementaire

Un bureau d'études vérifie la conformité d'un projet aux normes DTU et RE2020. Les exigences sont réparties dans des dizaines de documents techniques. L'agent décompose la vérification point par point, croise chaque exigence avec la documentation du projet, et signale les écarts de conformité potentiels, chacun relié au passage de norme concerné. L'ingénieur valide ou écarte chaque signalement : l'agent fait le balayage exhaustif, le jugement de conformité reste le sien.

Due diligence financière

Lors d'une acquisition, l'équipe M&A doit analyser les engagements hors bilan, les litiges en cours et les contrats clés d'une entreprise cible. L'agent parcourt systématiquement les rapports annuels, les procès-verbaux d'assemblées générales et les contrats majeurs pour construire une première cartographie des risques, sourcée document par document. L'équipe M&A et ses conseils repartent de cette base pour creuser et trancher : sur un dossier de cette importance, l'agent accélère l'exploration, il ne remplace pas l'analyse.

Comparaison de spécifications techniques

Un acheteur industriel doit sélectionner un équipement parmi 8 offres fournisseurs. L'agent extrait les spécifications de chaque offre, les normalise dans un format commun, identifie les écarts par rapport au cahier des charges, et produit une matrice de sélection pondérée. L'acheteur garde la main sur la décision : il fixe les pondérations, vérifie les valeurs extraites sur quelques offres (chaque chiffre renvoie à la page source) et choisit le fournisseur en connaissance de cause.

Analyse multi-documents avec Agentic RAG - Agent IA croisant plusieurs sources pour une synthèse fiable — L'Agentic RAG excelle quand la réponse exige de croiser plusieurs documents et de raisonner sur les résultats intermédiaires.

Stack technique pour l'Agentic RAG

Plusieurs frameworks permettent d'implémenter un Agentic RAG. Le choix dépend de la complexité du cas d'usage et du niveau de contrôle souhaité. Pour une comparaison complète de ces frameworks (LangGraph, CrewAI, AutoGen, OpenAI Agents SDK...) avec leurs forces et limites respectives, consultez notre comparatif des frameworks pour agents IA.

LangGraph

LangGraph (par LangChain) modélise le workflow de l'agent comme un graphe d'état. Chaque noeud représente une étape (planification, retrieval, évaluation, génération) et les arêtes définissent les transitions conditionnelles. C'est l'option la plus flexible pour des workflows complexes avec des boucles de rétroaction.

Point fort : le contrôle fin des transitions et la gestion native des états. Point faible : la courbe d'apprentissage et la verbosité du code.

LlamaIndex Workflows

LlamaIndex propose un système de workflows événementiels qui s'intègre naturellement avec ses composants de retrieval. C'est un bon choix si votre stack repose déjà sur LlamaIndex et que vous souhaitez ajouter de l'agenticité progressivement.

CrewAI

CrewAI est orienté multi-agents : chaque agent a un rôle spécialisé (chercheur, analyste, rédacteur) et ils collaborent pour résoudre la tâche. C'est pertinent pour les cas d'usage qui nécessitent plusieurs perspectives ou compétences distinctes.

L'approche custom

Pour les projets en production, nous recommandons souvent un orchestrateur léger construit sur mesure. Les frameworks génériques ajoutent de l'abstraction qui complique le debugging. Un script Python bien structuré avec des appels directs aux API (OpenAI, Anthropic, base vectorielle) offre plus de transparence et de contrôle pour le monitoring en production.

L'important n'est pas le framework. C'est de maîtriser les patterns (decomposition, reflection, tool use) et de les implémenter de manière traçable. Si vous partez de zéro, commencez par optimiser votre RAG classique avant d'ajouter la couche agentique.

Limites et compromis de l'Agentic RAG

L'Agentic RAG n'est pas une solution miracle. Il faut être lucide sur ses contraintes avant de s'engager.

Coût multiplié

Chaque requête peut déclencher 3 à 10 appels LLM (planification + sous-requêtes + évaluation + synthèse). Sur un modèle comme GPT-4o ou Claude 3.5 Sonnet, cela peut représenter 0,05 à 0,30 dollar par requête complexe, contre 0,01 à 0,03 dollar pour un RAG classique. À 1 000 requêtes par jour, la facture mensuelle peut passer de 300 à 3 000 dollars.

Latence accrue

Le temps de réponse passe de 1 à 3 secondes (RAG classique) à 5 à 30 secondes (Agentic RAG), selon le nombre d'itérations. C'est acceptable pour de l'analyse documentaire en back-office, mais incompatible avec un chatbot qui doit répondre en temps réel à des clients.

Complexité de debugging

Le RAG classique est un pipeline linéaire : si la réponse est mauvaise, on vérifie les chunks récupérés, puis le prompt, puis la génération. Avec l'Agentic RAG, chaque requête génère un arbre de décisions qu'il faut pouvoir tracer et inspecter. Sans un système de logging structuré (LangSmith, Arize Phoenix, ou un système maison), le debugging devient un cauchemar.

Risque de boucles

Un agent mal configuré peut tourner en boucle : reformuler indéfiniment une requête, chercher sans trouver, consommer des tokens sans produire de résultat. Il faut impérativement implémenter des limites d'itération (max 5 à 10 étapes) et des conditions d'arrêt explicites.

Quand passer du RAG classique à l'Agentic RAG

La décision n'est pas binaire. Voici les critères concrets pour évaluer si l'Agentic RAG se justifie dans votre contexte.

Restez en RAG classique si

Vos utilisateurs posent des questions factuelles simples (FAQ, recherche documentaire basique)
Le taux de bonnes réponses est supérieur à 85 % et les optimisations classiques n'ont pas encore été épuisées
La latence est critique (chatbot temps réel, support client)
Le budget API est contraint et le volume de requêtes est élevé

Passez à l'Agentic RAG si

Les requêtes impliquent régulièrement le croisement de plusieurs documents
Le taux de bonnes réponses stagne malgré les optimisations (hybrid search, reranking, query rewriting)
Le cas d'usage implique de l'analyse comparative, de la synthèse ou de l'audit
Les données sont hétérogènes (documents + SQL + API) et doivent être combinées
La latence de 5 à 30 secondes est acceptable pour le cas d'usage
Le coût d'une mauvaise réponse est élevé (juridique, réglementaire, financier)

Dans la pratique, la meilleure approche est souvent hybride : un routeur intelligent qui envoie les questions simples vers le RAG classique (rapide, peu coûteux) et les questions complexes vers l'Agentic RAG (plus lent, plus cher, mais plus fiable). Ce routeur peut être un simple classificateur LLM qui évalue la complexité de la requête en amont.

En résumé : l'Agentic RAG est une évolution, pas une révolution

L'Agentic RAG ne remplace pas le RAG classique. Il le complète pour les 20 à 30 % de requêtes que le pipeline linéaire ne peut pas traiter correctement. La clé est de savoir quand l'utiliser, pas de l'appliquer partout.

Si votre système RAG actuel donne des résultats satisfaisants sur les questions simples mais échoue sur l'analyse multi-documents ou la synthèse comparative, l'Agentic RAG est la prochaine étape logique. Mais avant de vous lancer, assurez-vous d'avoir d'abord optimisé les fondamentaux : hybrid search, parsing intelligent, chunking sémantique et reranking.

L'IA n'est pas magique. C'est un système qu'on construit brique par brique, en partant du besoin métier. L'Agentic RAG est une brique puissante, mais elle ne compense jamais des données mal préparées ou un cas d'usage mal cadré.

Questions fréquentes

L'Agentic RAG est une évolution du RAG classique où un agent IA orchestre le processus de recherche et de génération. Au lieu d'une simple requête vers une base vectorielle, l'agent planifie sa stratégie de recherche, décompose les questions complexes en sous-questions, interroge plusieurs sources, évalue la qualité des résultats et reformule si nécessaire. C'est la différence entre chercher un mot dans un index et mener une véritable investigation.

Le RAG classique échoue principalement sur trois types de requêtes : les questions multi-hop qui nécessitent de croiser plusieurs documents, les requêtes ambiguës qui demandent une reformulation, et les analyses comparatives complexes. Par exemple, comparer les clauses de responsabilité dans 15 contrats différents est impossible en un seul passage de retrieval. L'Agentic RAG résout ces cas en itérant et en raisonnant sur les résultats intermédiaires.

Oui, l'Agentic RAG consomme davantage de ressources. Une requête peut générer 3 à 10 appels LLM au lieu d'un seul, ce qui multiplie les coûts API par le même facteur. La latence passe aussi de 1-3 secondes à 5-30 secondes. C'est pourquoi il ne faut pas l'appliquer partout : le RAG classique reste le bon choix pour 70 à 80 % des cas d'usage en entreprise. L'Agentic RAG se justifie uniquement pour les requêtes complexes où le RAG simple échoue.

Les principaux frameworks sont LangGraph (graphes d'état pour orchestrer les étapes), LlamaIndex Workflows (pipelines événementiels), et CrewAI (orchestration multi-agents). Pour les projets en production, nous recommandons souvent une approche custom avec un orchestrateur léger, car les frameworks génériques ajoutent de la complexité inutile. L'essentiel est de maîtriser les patterns sous-jacents : query decomposition, self-reflection et tool use.

Le passage à l'Agentic RAG se justifie quand vos utilisateurs posent régulièrement des questions qui croisent plusieurs documents, quand le taux de bonnes réponses stagne malgré les optimisations classiques (hybrid search, reranking), ou quand le cas d'usage implique de l'analyse comparative ou de la synthèse multi-sources. Si votre RAG classique répond correctement à plus de 85 % des requêtes, commencez par l'optimiser avant de migrer.

Oui, c'est même l'un de ses principaux atouts. Grâce au pattern tool use, l'agent peut décider dynamiquement d'interroger une base vectorielle pour les documents textuels, une base SQL pour les données structurées, ou une API externe pour des données en temps réel. Cette capacité à combiner plusieurs sources dans une même réponse est impossible avec un RAG classique qui ne fait que de la recherche vectorielle.

Le debugging est le principal défi de l'Agentic RAG. Chaque requête génère une chaîne de décisions qu'il faut pouvoir tracer. Les bonnes pratiques incluent : un logging structuré de chaque étape de l'agent (planification, recherche, évaluation), des métriques par étape (pas seulement sur la réponse finale), et des outils de visualisation du graphe d'exécution. LangSmith, Arize Phoenix ou un simple système de traces maison sont indispensables.

Votre RAG atteint ses limites ?

Faisons le diagnostic ensemble.

Réserver un Audit IA Gratuit

Aller plus loin

Découvrez notre offre d'assistant IA interne RAG pour les PME et ETI, ou consultez nos cas clients pour voir des exemples concrets de déploiement. Pour un accompagnement personnalisé, contactez notre équipe à Toulouse.