"Combien ça coûte, un projet RAG ?" C'est la question que posent en premier 9 dirigeants sur 10 quand on leur parle d'assistant IA interne. Et c'est normal. Avant de parler architecture technique ou modèle de langage, il faut parler budget, postes de coût et retour sur investissement.
Le problème, c'est que les fourchettes qu'on trouve en ligne sont soit irréalistes ("un RAG pour 500 euros avec un tutoriel YouTube"), soit volontairement floues ("ça dépend"). Chez Tensoria, nous avons accompagné des dizaines de projets RAG en entreprise, du POC de quelques jours au système de production avec des milliers d'utilisateurs. Nous avons une vision claire de ce que ça coûte réellement.
Cet article donne des fourchettes concrètes, poste par poste, avec un comparatif cloud vs souverain et une grille de décision pour vous aider à dimensionner votre budget.
En bref : les fourchettes de coût d'un projet RAG
- POC (preuve de concept) : 5 000 à 15 000 euros, 2 à 4 semaines
- MVP (premier produit utilisable) : 15 000 à 50 000 euros, 6 à 12 semaines
- Système de production complet : 40 000 à 120 000+ euros, 3 à 6 mois
- TCO annuel : 1,5 à 2x le coût de développement initial
- Facteur n°1 de surcoût : la qualité des documents sources
Les trois niveaux d'un projet RAG et leurs coûts
Un projet RAG ne se lance pas d'un bloc. Il se construit par étapes, et chaque étape a un budget, un objectif et un livrable clairs. Voici ce que nous observons en pratique sur nos accompagnements.
Le POC : valider avant d'investir (5 000 à 15 000 euros)
Le POC (Proof of Concept) est le point de départ. Son objectif n'est pas de livrer un produit fini, mais de répondre à trois questions :
- Est-ce que la technologie RAG fonctionne sur vos vrais documents ?
- Quel niveau de qualité de réponse peut-on atteindre ?
- Les utilisateurs trouvent-ils ça utile ?
En 2 à 4 semaines, on construit un prototype fonctionnel sur un échantillon représentatif de données. Le coût couvre l'analyse des documents, le développement du pipeline (parsing, chunking, embeddings, retrieval), et une interface de test basique.
C'est le meilleur investissement pour réduire le risque. Investir 10 000 euros dans un POC qui révèle que vos documents ne sont pas exploitables en l'état vous fait économiser 50 000 euros de développement inutile.
Le MVP : un outil utilisable au quotidien (15 000 à 50 000 euros)
Le MVP (Minimum Viable Product) est le premier système réellement déployé auprès des utilisateurs. Il inclut :
- Un pipeline de données robuste (parsing avancé, gestion des mises à jour)
- Une interface utilisateur aboutie (chat, intégration Teams/Slack, ou API)
- La gestion des droits d'accès et de la sécurité
- Un système d'évaluation et de monitoring basique
- Les premières optimisations (hybrid search, reranking)
La fourchette est large parce que tout dépend de la complexité des données. Un MVP sur 500 documents PDF bien structurés n'a rien à voir avec un MVP sur 10 000 fichiers hétérogènes (Word, Excel, scans, emails). C'est exactement ce qu'on détaille dans notre retour d'expérience sur les erreurs qui font échouer les projets RAG.
Le système de production : intégré dans le SI (40 000 à 120 000+ euros)
Le passage en production implique des exigences supplémentaires qui ont un coût significatif :
- Intégrations SI : connexion avec l'ERP, le CRM, la GED, les outils métier
- Haute disponibilité : redondance, monitoring 24/7, plan de reprise
- Scalabilité : gestion de la montée en charge (utilisateurs, documents)
- Conformité : audit de sécurité, RGPD, traçabilité des réponses
- Formation : accompagnement au changement, documentation utilisateur
C'est le niveau de complexité qu'on rencontre sur les projets industriels et les éditeurs de logiciels. Deux exemples concrets :
Cas client
Actia — RAG sur base documentaire technique interne
Florian et son équipe consacraient une part significative de leur temps à rechercher des informations dans des centaines de documents techniques. Après déploiement du RAG : 70 % de temps économisé sur la recherche documentaire. "Les équipes retrouvent l'info instantanément."
Cas client
Continental — assistant RAG industriel
Intégration d'un assistant RAG dans les processus industriels quotidiens, avec connexions SI, gestion des droits d'accès et haute disponibilité. Exemple type d'un système de production complet.
Décomposition des postes de coût
Regardons maintenant où va l'argent concrètement. Beaucoup de dirigeants imaginent que le gros du budget part dans les GPU ou les API OpenAI. La réalité est très différente.
Développement et ingénierie de la donnée (50 à 60 % du budget)
C'est le poste principal, et de loin. Il couvre :
- Analyse et préparation des données : audit du corpus documentaire, nettoyage, structuration. C'est souvent le poste le plus sous-estimé.
- Pipeline de parsing : extraction du texte depuis les différents formats (PDF, Word, Excel, images). Sur des documents complexes avec tableaux et schémas, cette étape seule peut représenter 30 % du temps de développement.
- Chunking et embeddings : découpage sémantique des documents, choix et calibration du modèle d'embeddings.
- Pipeline de retrieval : recherche hybride (vectorielle + BM25), reranking, query rewriting. Les techniques détaillées dans notre guide sur l'optimisation d'un système RAG.
- Intégration et interface : API, interface chat, connexion aux outils existants.
Le tarif journalier d'un développeur IA spécialisé RAG se situe entre 600 et 1 200 euros HT en France. Un POC mobilise 8 à 15 jours/homme, un MVP 25 à 50 jours/homme.
Infrastructure et hébergement (15 à 25 % du budget)
L'infrastructure comprend la base de données vectorielle, le stockage des documents, et éventuellement les GPU pour faire tourner un modèle en local. Les coûts mensuels varient fortement selon l'approche choisie :
| Composant | Cloud managé | Auto-hébergé souverain |
|---|---|---|
| Base vectorielle | Pinecone / Qdrant Cloud : 70 à 300 euros/mois | Qdrant / Weaviate auto-hébergé : 50 à 150 euros/mois |
| LLM (inférence) | API OpenAI/Anthropic : 100 à 3 000 euros/mois | GPU OVH/Scaleway : 500 à 2 500 euros/mois |
| Serveur applicatif | 50 à 200 euros/mois | 100 à 400 euros/mois |
| Total mensuel | 220 à 3 500 euros | 650 à 3 050 euros |
Appels API aux modèles de langage (5 à 15 %)
Ce poste dépend directement du volume d'utilisation. Pour donner un ordre de grandeur concret :
- GPT-4o : environ 5 euros pour 1 000 requêtes avec un contexte moyen de 3 000 tokens
- Claude 3.5 Sonnet : environ 4,5 euros pour 1 000 requêtes
- GPT-4o-mini / Claude 3.5 Haiku : environ 0,30 euro pour 1 000 requêtes
- Mistral Large (API) : environ 3 euros pour 1 000 requêtes
Pour une PME avec 50 utilisateurs qui posent en moyenne 5 questions par jour, on parle de 100 à 500 euros par mois en coût API, selon le modèle choisi. Ce n'est pas le poste qui fait exploser le budget.
Maintenance et amélioration continue (15 à 20 % du coût initial par an)
Un système RAG n'est pas un logiciel qu'on installe et qu'on oublie. Les documents évoluent, les utilisateurs découvrent de nouveaux cas d'usage, les modèles sont mis à jour. La maintenance couvre :
- Mise à jour du corpus documentaire (ajout, suppression, re-indexation)
- Correction des cas où le système répond mal
- Optimisation des performances (retrieval, prompt engineering)
- Montées de version des modèles et de l'infrastructure
- Support utilisateur et formation
Comptez 15 à 20 % du budget de développement initial par an. Sur un projet à 40 000 euros, c'est 6 000 à 8 000 euros par an de maintenance.
TCO sur 1 an : le vrai coût d'un projet RAG
Le TCO (Total Cost of Ownership) est le chiffre qui compte pour prendre une décision. Il inclut le développement initial, l'infrastructure sur 12 mois, et la maintenance. Voici trois scénarios concrets :
| Poste | PME (simple) | ETI (intermédiaire) | Grand compte (complexe) |
|---|---|---|---|
| Développement | 20 000 euros | 55 000 euros | 100 000 euros |
| Infrastructure (12 mois) | 3 600 euros | 12 000 euros | 30 000 euros |
| API LLM (12 mois) | 2 400 euros | 9 600 euros | 24 000 euros |
| Maintenance (an 1) | 3 000 euros | 10 000 euros | 20 000 euros |
| TCO année 1 | 29 000 euros | 86 600 euros | 174 000 euros |
Point important sur le TCO
À partir de l'année 2, le coût baisse significativement car le développement initial est amorti. Il ne reste que l'infrastructure, les API et la maintenance, soit 30 à 40 % du TCO de la première année. C'est ce qui rend le RAG rentable sur le moyen terme.
Cloud vs souverain : quel impact sur le budget ?
Le choix entre un RAG cloud (API OpenAI, Azure OpenAI, AWS Bedrock) et un RAG souverain (Mistral sur infrastructure française) a un impact direct sur la structure de coûts. Ce n'est pas qu'une question de prix : c'est aussi une question de conformité, de souveraineté et de contrôle.
RAG cloud via API : coût d'entrée bas, coût variable élevé
- Avantage : pas d'infrastructure GPU à gérer, démarrage rapide, modèles de dernière génération disponibles immédiatement
- Inconvénient : dépendance fournisseur, coût variable qui augmente avec l'usage, données qui transitent par des serveurs étrangers
- Coût type : 200 à 3 000 euros/mois selon le volume
- Adapté pour : POC, MVP, volumes modérés, données non sensibles
RAG souverain auto-hébergé : investissement initial plus élevé, coûts maîtrisés
- Avantage : données 100 % en France, coûts prévisibles, pas de dépendance API, conformité RGPD native
- Inconvénient : infrastructure GPU à provisionner et maintenir, compétences DevOps nécessaires
- Coût type : 500 à 2 500 euros/mois de GPU + infrastructure
- Adapté pour : données sensibles, volumes élevés, exigences réglementaires
Notre article sur l'architecture RAG souveraine avec Mistral détaille la mise en place technique d'une solution 100 % française.
Le point de bascule cloud vs souverain
En dessous de 3 000 à 5 000 requêtes par jour, le cloud via API est généralement plus rentable. Au-delà, le coût variable des API dépasse le coût fixe d'un serveur GPU dédié. Le critère décisif reste souvent la sensibilité des données : si vous traitez des données client, RH, juridiques ou financières, le souverain s'impose indépendamment du coût.
Ce qui fait exploser le budget d'un projet RAG
Après des dizaines de projets, les facteurs de surcoût sont toujours les mêmes. Les connaître permet de les anticiper, ou au moins de les chiffrer correctement dès le départ.
La qualité des documents sources
C'est le facteur numéro un. Un corpus de documents bien structurés (PDF texte, Markdown, HTML) se traite en quelques jours. Un corpus de scans de mauvaise qualité, de tableaux imbriqués dans des PDF, de fichiers aux formats hétérogènes peut multiplier le temps de développement par 3 à 5.
Exemple concret : sur un projet récent, le parsing de documents techniques avec tableaux et schémas a représenté à lui seul 40 % du temps de développement total. Le client pensait avoir "des PDF". Il avait en réalité des scans d'imprimante à 150 DPI avec des annotations manuscrites.
Le volume et la diversité des sources
Passer de 500 à 5 000 documents, ce n'est pas "10 fois plus de travail", c'est un changement de nature. La recherche doit être plus précise, le découpage plus fin, et les conflits entre documents se multiplient. Chaque nouvelle source (emails, Confluence, SharePoint, base SQL) ajoute un connecteur à développer et maintenir.
Les intégrations avec le SI existant
Connecter un RAG à un ERP ou un CRM, c'est rarement une simple API REST. Il faut gérer l'authentification, la synchronisation des données, les droits d'accès, les formats de données propriétaires. Chaque intégration représente 5 000 à 15 000 euros de développement supplémentaire.
Les exigences de sécurité et de conformité
Filtrage par rôle, audit trail, chiffrement des données au repos et en transit, tests de pénétration, conformité RGPD documentée. Ces exigences sont légitimes, mais elles ont un coût. Sur un projet soumis à des contraintes réglementaires fortes, la sécurité peut représenter 20 à 30 % du budget total.
L'absence de cadrage initial
C'est le facteur le plus pernicieux. Un projet sans périmètre clair, sans cas d'usage prioritaires définis, sans critères de succès mesurables, finit toujours par coûter plus cher. Les demandes de modification en cours de route, les changements de périmètre, les "on pourrait aussi ajouter..." sont les vrais ennemis du budget.
Grille de décision pour dimensionner votre budget
Voici une grille pragmatique pour estimer votre budget selon votre situation. Répondez à ces questions pour vous situer :
| Critère | Budget bas | Budget moyen | Budget élevé |
|---|---|---|---|
| Documents | PDF texte, bien structurés | Mix PDF/Word, quelques tableaux | Scans, multi-formats, schémas |
| Volume | Moins de 1 000 documents | 1 000 à 10 000 documents | Plus de 10 000 documents |
| Intégrations | Standalone (chat web) | 1 à 2 intégrations (Teams, API) | Multiples (ERP, CRM, GED) |
| Sécurité | Standard | Droits d'accès, RGPD basique | Conformité forte, audit, souverain |
| Utilisateurs | Moins de 20 | 20 à 200 | Plus de 200 |
| Budget estimé (an 1) | 15 000 à 30 000 euros | 40 000 à 80 000 euros | 80 000 à 180 000+ euros |
Comment réduire le coût sans sacrifier la qualité
Le budget ne doit pas être un frein. Voici les leviers concrets pour maîtriser les coûts d'un projet RAG :
- Commencer par un POC ciblé : valider sur un périmètre restreint (un seul cas d'usage, un corpus limité) avant de généraliser. C'est le meilleur moyen d'éviter les mauvaises surprises.
- Investir dans la préparation des données : nettoyer et structurer les documents en amont réduit considérablement le temps de développement du pipeline.
- Utiliser des modèles plus légers quand c'est suffisant : GPT-4o-mini ou Mistral Small coûtent 10 à 20 fois moins cher que les modèles premium, et sont souvent suffisants pour des cas d'usage standard.
- Éviter le sur-engineering : un RAG simple bien calibré vaut mieux qu'une architecture complexe mal maîtrisée. Pas besoin de 5 agents et 3 modèles pour répondre à des questions sur une documentation technique.
- Définir des critères de succès mesurables dès le départ : un ROI clairement défini permet de piloter l'investissement et d'arrêter au bon moment.
Résultats observés
Trois projets RAG en production, chiffres mesurés
Pour ancrer la fourchette 5 k–120 k € sur des cas réels.
de temps économisé sur la recherche dans la base documentaire interne
« Les équipes retrouvent l'info instantanément. »
Florian, Actia
Assistant IA interne RAG
de temps gagné sur la rédaction des rapports de copropriété
« Concret, mesurable, validé par les équipes. »
Géraud, Copro Assistance
pour rédiger un rapport de sinistre, contre 4 h auparavant
« Le métier a vraiment changé. »
Guy, INFINE
Génération de rapports de sinistre
En résumé : budgéter un projet RAG avec réalisme
Un projet RAG en entreprise est un investissement qui se chiffre en dizaines de milliers d'euros, pas en centaines. Prétendre le contraire, c'est soit vendre un tutoriel, soit préparer une déception.
Mais c'est aussi un investissement qui se rentabilise. Un assistant RAG interne bien conçu fait gagner des heures chaque semaine à vos équipes, réduit les erreurs, et améliore la qualité du service. Le retour sur investissement se mesure en mois, pas en années. Un éditeur de logiciel médical que nous avons accompagné en est un exemple documenté : un RAG sur la base de support utilisateurs, avec des chiffres mesurés après mise en production.
Les clés pour réussir financièrement :
- Commencer par un POC pour valider avant d'investir lourdement
- Regarder les données avant de parler technologie
- Budgéter le TCO, pas seulement le développement initial
- Choisir l'architecture (cloud vs souverain) en fonction des contraintes réelles
- Prévoir un budget maintenance dès le départ
Si vous hésitez encore sur le dimensionnement de votre projet, le bon point de départ est un audit IA qui posera un diagnostic clair sur vos données, vos cas d'usage prioritaires et le budget réaliste à prévoir.
Questions fréquentes
Pour aller plus loin
- Budget IA en entreprise : 6 paliers de 50 € à 200 k €/an : hub complet des fourchettes par taille d'entreprise, avec progression palier par palier.
- Agent IA sur mesure vs SaaS : combien coûte vraiment chaque option : le calcul build vs buy détaillé avec TCO sur 3 ans et points de bascule.
- Coût d'une migration vers Mistral on-premise : budgets hardware (L4, A100, H100), ingénierie et alternatives cloud souverain.
- Pipeline RAG complet pour documents internes en PME : détail des coûts POC, MVP et TCO, avec les choix d'architecture (chunking, retrieval hybride, reranker) qui font varier la facture.
- Générer des propales avec un RAG sur corpus de propales gagnées : un cas d'usage RAG commercial qui illustre concrètement le ROI sur l'avant-vente et la rédaction.
- Copilote CRM IA via extension navigateur : architecture RAG sur historique CRM pour les équipes sales, avec les postes de coût spécifiques à ce type de déploiement.
- RAG en entreprise : tout comprendre sur la technologie
- Optimiser un RAG : de la démo à la production
- 5 erreurs qui font échouer les projets RAG
- RAG souverain avec Mistral : architecture 100 % française
- Cas client Continental : assistant RAG industriel
- Comment mesurer le ROI d'un projet IA
- Combien coûte un assistant IA interne : fourchettes côté usage final (SaaS clé en main vs sur mesure)
Besoin de chiffrer votre projet RAG ?
Décrivez votre cas d'usage, on dimensionne la bonne approche (POC, MVP ou production) et on vous donne une fourchette réaliste.