Un DSI d'une ETI industrielle de 300 personnes posait la question clairement : « On envoie nos données contractuelles à un modèle hébergé aux États-Unis. Ça passe encore en 2026 ? » La réponse honnête : ça dépend de vos données, de votre secteur et de votre exposition réglementaire. Mais la question elle-même est le signe que quelque chose a changé.
En 2026, le on-premise pour les LLMs n'est plus un projet d'expérimentation réservé aux équipes de recherche. C'est une option budgétable, justifiable en comité de direction, et parfois imposée par la réglementation. Le problème, c'est que les chiffres qui circulent dans les présentations commerciales sont souvent théoriques : on vous parle de ROI sans parler du hardware, de souveraineté sans parler du budget réel, de migration sans parler de ce que ça coûte réellement à une PME ou une ETI sans datacenter interne.
Cet article donne les fourchettes de coûts réelles 2026 pour déployer Mistral en on-premise, niveau par niveau de complexité, avec les alternatives moins coûteuses et les situations où le on-premise est pertinent ou non. Les chiffres sont issus des tarifs publics NVIDIA, Scaleway, OVHcloud et de la tarification officielle Mistral La Plateforme.
Points clés à retenir
- Un setup on-premise Mistral pour une PME coûte entre 15 000 et 50 000 € HT en ingénierie initiale, plus le hardware GPU (2 500 à 250 000 € selon le modèle visé).
- En dessous de 10 millions de tokens par mois, l'API Mistral La Plateforme est presque toujours moins chère sur 3 ans que le on-premise.
- Le cloud souverain GPU à la demande (Scaleway, OVHcloud) est le meilleur point de départ : souveraineté juridique sans investissement hardware, idéal pour valider avant de décider.
- Les coûts cachés (énergie, maintenance, mises à jour, formation) représentent 30 à 50 % du coût total de possession sur 3 ans.
- Pour les données santé, défense, ITAR ou secret professionnel renforcé, le on-premise (ou cloud souverain certifié) n'est pas un choix : c'est souvent la seule option légalement solide.
Où se situe cette dépense
Une migration Mistral on-premise correspond typiquement au palier 5 ou 6 de notre hub budget IA en 6 paliers (entre 80 k € et plus de 200 k € par an). Cet article détaille les fourchettes hardware, ingénierie et alternatives — utile aussi pour les ETI du palier 4 qui anticipent leur prochain saut.
Pourquoi le on-premise revient à l'ordre du jour en 2026
Entre 2023 et 2025, la grande majorité des entreprises ont démarré avec une API SaaS américaine : OpenAI, Anthropic, ou Google. C'était la voie la plus rapide et la moins chère pour tester. En 2026, plusieurs signaux simultanés poussent les DSI et dirigeants à reconsidérer cette approche.
La pression réglementaire s'est concrétisée
L'AI Act européen est pleinement applicable depuis août 2026 pour les systèmes à haut risque. Il impose des exigences de traçabilité, de journalisation et de contrôle sur les modèles utilisés dans des processus décisionnels sensibles. Parallèlement, la CNIL a mis en demeure plusieurs entreprises françaises utilisant Microsoft Azure pour traiter des données RH sans garanties contractuelles suffisantes au regard du Cloud Act américain. Pour un dirigeant qui confie des données de paie, des contrats clients ou des dossiers médicaux à un modèle hébergé aux États-Unis, le risque juridique n'est plus théorique.
Notre article sur l'conformité AI Act pour les PME en 2026 détaille les obligations concrètes selon votre secteur et votre taille.
Mistral a changé le rapport de forces
L'émergence de Mistral AI comme alternative française de niveau production change l'équation. Mistral 7B, Mixtral 8x7B et Mistral Large sont des modèles open-weight de qualité qui peuvent être déployés en interne sans licence propriétaire. En mars 2026, Mistral a levé 830 millions de dollars pour financer un datacenter de 13 800 GPUs NVIDIA GB300 en région parisienne, signalant une montée en puissance industrielle de l'infrastructure française. Le modèle Mistral Small 24B, très efficace pour les usages RAG et analyse documentaire, tourne sur des configurations matérielles accessibles à une ETI.
Les données sensibles ont besoin d'une garantie, pas d'une promesse
Les secrets industriels, les données ITAR pour l'aéronautique et la défense, les dossiers couverts par le secret professionnel (notaires, avocats, experts-comptables) ou les données de santé HDS n'ont pas leur place sur une API gérée par une entreprise étrangère soumise à une législation extraterritoriale. Ce n'est pas une question de confiance dans l'éditeur : c'est une question de cadre juridique. Un hébergement souverain ou on-premise est la seule réponse structurellement robuste à ce type de contrainte.
Pour approfondir ce volet réglementaire, notre guide sur la sécurité des données IA et la souveraineté RGPD pour les PME couvre les points de contrôle essentiels.
Les 3 niveaux de "on-premise" : ce que ça change vraiment
Avant d'aborder les chiffres, il est essentiel de clarifier ce qu'on appelle "on-premise". Le terme est souvent utilisé pour désigner des réalités très différentes en termes de souveraineté juridique, de coût et de complexité opérationnelle.
Niveau 1 : le vrai on-premise
Le serveur GPU est dans vos locaux ou dans un datacenter de colocation où vous avez un accès physique exclusif. Vous gérez le hardware, l'OS, les mises à jour, la sécurité physique et les sauvegardes. Contrôle total, responsabilité totale. C'est le seul niveau qui satisfait les exigences les plus strictes (défense, données top secrètes, ITAR). C'est aussi le plus coûteux et le plus complexe à opérer.
Niveau 2 : le cloud souverain français ou européen
OVHcloud, Scaleway, Outscale (Dassault Systèmes), Numspot : ces hébergeurs sont soumis exclusivement au droit français et européen. Vos données ne sont pas exposées au Cloud Act américain. Vous ne gérez pas le hardware, mais vous contrôlez entièrement les données qui y transitent. C'est la solution intermédiaire la plus répandue pour les PME et ETI : souveraineté juridique robuste, sans les contraintes opérationnelles du vrai on-premise.
Note importante : "cloud souverain" n'est pas une certification unique. OVHcloud est qualifié SecNumCloud pour certains de ses services. Scaleway l'est partiellement. Vérifiez que le service GPU spécifique que vous utilisez est bien couvert par la qualification.
Niveau 3 : l'hébergement européen dédié (non SaaS US)
Hetzner (Allemagne), Mistral La Plateforme (hébergement UE Mistral), des fournisseurs comme Cleyrop en France. Ces acteurs hébergent en Europe avec des garanties contractuelles conformes au RGPD, sans transferts vers les États-Unis. Ce n'est pas du on-premise au sens strict, mais c'est une rupture nette avec les APIs OpenAI ou Anthropic. Pour la grande majorité des PME dont les données ne relèvent pas de réglementations sectorielles très strictes, c'est souvent la réponse suffisante et la moins chère.
Point clé
Cloud Act américain : toute entreprise américaine (AWS, Azure, Google Cloud, OpenAI) peut être contrainte de fournir des données hébergées n'importe où dans le monde à des autorités américaines, sans en informer le client européen. Ce risque est réel et documenté. Il ne disparaît pas avec un contrat de traitement des données conforme au RGPD.
Pour naviguer ces distinctions dans un contexte de conformité, notre article sur l'hébergement souverain et le RGPD pour les PME apporte des éléments complémentaires sur les outils d'automatisation dans un contexte souverain.
Coût hardware GPU 2026 : fourchettes par niveau de modèle
Les prix qui suivent sont tirés des tarifs publics NVIDIA partenaires, Scaleway, OVHcloud et des distributeurs européens de serveurs GPU (Dell, HPE, SuperMicro) au premier semestre 2026. Ils varient selon les configurations, les fournisseurs et les niveaux de garantie.
Mistral 7B : la configuration d'entrée de gamme
Mistral 7B nécessite environ 14 Go de VRAM en précision FP16. Le GPU minimum pour une inférence production fluide (5 à 15 utilisateurs simultanés) est le NVIDIA L4 (24 Go VRAM) ou l'A10G (24 Go VRAM).
- Acquisition GPU L4 ou A10G intégré dans un serveur 1U : 4 000 à 7 000 € HT tout compris (carte + serveur de base + RAM 64 Go + NVMe 2 To)
- Location cloud souverain équivalent (Scaleway GPU L4, OVH T1-45) : 0,8 à 1,5 €/h soit 600 à 1 100 €/mois en usage continu
- Amortissement acquisition sur 4 ans : 85 à 145 €/mois (hors maintenance et énergie)
Coûts annexes à prévoir : alimentation redondante (~500 €), onduleur 1 500 VA (~400 €), stockage NVMe supplémentaire si RAG volumineux (500 à 1 500 €).
Mixtral 8x7B : la configuration intermédiaire
Mixtral 8x7B (architecture Mixture of Experts) nécessite environ 48 Go de VRAM en FP16, soit deux GPUs A100 80 Go ou un seul H100 80 Go. C'est le modèle favori des ETI qui cherchent une qualité proche de GPT-3.5 Turbo avec une maîtrise totale des données.
- NVIDIA A100 80 Go (prix acquisition marché secondaire 2026) : 12 000 à 18 000 € HT par GPU, soit 24 000 à 36 000 € HT pour deux A100 dans un serveur DGX A100 d'occasion
- NVIDIA H100 80 Go (neuf ou recertifié) : 22 000 à 35 000 € HT, un seul H100 suffit pour Mixtral
- Serveur 4U avec 2 x A100 ou 1 x H100 clé en main : 30 000 à 55 000 € HT (serveur, RAM 256 Go, NVMe 8 To, networking infiniband)
- Location cloud souverain équivalent (Scaleway H100 SXM5, OVH GPU L40S) : 2 à 4 €/h soit 1 500 à 3 000 €/mois en usage continu
Mistral Large (123B) : la configuration enterprise
Mistral Large 123B est le modèle le plus capable de la gamme open-weight Mistral. Il nécessite environ 240 Go de VRAM en FP16, soit au minimum quatre GPUs H100 80 Go en parallèle. C'est une configuration purement enterprise.
- 4 x NVIDIA H100 80 Go SXM5 dans un serveur 8 GPU : 120 000 à 200 000 € HT (hors infrastructure réseau, stockage et refroidissement)
- Infrastructure complète (serveur 8U, NVLink, NVMe 32 To, alimentation redondante 10 kW) : 160 000 à 280 000 € HT
- Location cloud souverain équivalent (cluster H100 SXM5 x4) : 8 à 20 €/h soit 6 000 à 14 000 €/mois en usage continu
Note sur les prix GPU 2026
Les prix des GPU NVIDIA A100 et H100 ont significativement baissé en 2025-2026 avec l'arrivée des GPU de la gamme Blackwell (GB200, B200) sur le marché enterprise. Un H100 80 Go qui valait 30 000 à 40 000 € en 2024 s'échange désormais à 22 000 à 28 000 € pour du matériel recertifié. Cette fenêtre de prix est favorable pour les projets on-premise lancés courant 2026.
Coût d'ingénierie initial pour une PME
Le hardware est la partie visible. L'ingénierie initiale est souvent sous-estimée dans les budgets. Voici les postes réels pour une PME qui déploie Mistral en on-premise ou cloud souverain avec une intégration RAG sur données internes.
Les postes d'ingénierie à budgéter
| Poste | Description | Fourchette HT |
|---|---|---|
| Audit de faisabilité | Analyse de vos contraintes réelles (volume tokens, sensibilité données, compétences IT), choix du niveau d'hébergement, recommandation hardware ou cloud souverain | 2 500 à 6 500 € |
| Setup infrastructure | Installation et configuration du serveur d'inférence (vLLM, Triton ou Ollama selon les cas), API Gateway, gestion des modèles, containerisation Docker | 5 000 à 12 000 € |
| Intégration RAG | Pipeline d'ingestion documentaire, base vectorielle (Qdrant ou pgvector), connecteurs vers vos sources de données (SharePoint, GED, ERP), interface utilisateur de base | 8 000 à 25 000 € |
| Hardening sécurité | RBAC, journalisation des requêtes et réponses, monitoring, alertes, procédures de sauvegarde, audit de la surface d'attaque | 3 000 à 8 000 € |
| Formation équipe interne | Formation IT sur l'administration de l'infrastructure (1 à 2 personnes), formation utilisateurs sur les cas d'usage déployés | 1 500 à 4 000 € |
| Total setup PME | Hors hardware GPU, pour un premier déploiement production-ready avec RAG | 15 000 à 50 000 € |
Pour comparer avec d'autres types de projets IA, notre guide sur le coût d'un projet IA pour une PME donne un cadre budgétaire complet sur l'ensemble des postes d'investissement IA. Notre article spécifique sur le budget d'un projet RAG en entreprise détaille le poste intégration RAG avec des exemples concrets.
Ce qui fait varier la fourchette à la hausse
Le coût se rapproche des 50 000 € HT quand : le nombre de sources documentaires à indexer est important (plus de 100 000 documents), l'interface utilisateur doit être développée sur mesure avec des droits d'accès granulaires, l'intégration dans un ERP ou un CRM existant est complexe, ou les exigences de haute disponibilité imposent une architecture redondante. Une PME avec une base documentaire raisonnable (5 000 à 20 000 documents) et une interface standard se situe généralement entre 18 000 et 30 000 € HT.
Coûts récurrents : ce qui continue de coûter après le setup
Un déploiement LLM on-premise n'est pas un achat unique. Les coûts récurrents représentent en pratique 30 à 50 % du coût total de possession sur 3 ans. Les ignorer dans le business case est une erreur fréquente.
Détail des coûts récurrents mensuels
| Poste récurrent | Détail | Fourchette mensuelle HT |
|---|---|---|
| Hébergement ou colocation | Datacenter colo pour vrai on-premise (baie 1/4 rack, alimentation, réseau) ou location GPU cloud souverain à la demande (Scaleway, OVH) | 300 à 2 500 € |
| Énergie électrique GPU | Un GPU L4 consomme ~72W en charge (0,072 kW), un H100 jusqu'à 700W. À 0,20 €/kWh, 24/7 : L4 ≈ 10 €/mois, H100 ≈ 100 €/mois. En usage partiel, divisez par 3 à 5. | 30 à 250 € |
| Maintenance évolutive | Mises à jour des versions Mistral (nouvelles releases), montées de version vLLM/Docker, corrections de sécurité, ajustements des prompts système, évolution des pipelines RAG | 800 à 3 000 € |
| Support technique | SLA réponse sous 4h : 1 500 à 2 000 €/mois. SLA réponse sous 24h : 500 à 800 €/mois. Sans SLA formel (best effort) : 0 à 300 €/mois selon contrat prestataire | 500 à 2 000 € |
| Total récurrent PME typique | Mistral 7B ou Mixtral, usage partiel, SLA business hours | 1 000 à 3 500 € / mois |
Ces chiffres rejoignent les ordres de grandeur que nous détaillons dans notre article sur le coût d'un assistant IA interne en entreprise, qui couvre également les coûts d'exploitation sur le long terme.
Les 3 alternatives moins coûteuses au full on-premise
Le on-premise n'est pas la seule réponse à la souveraineté. Selon votre niveau de contrainte réglementaire et votre volume d'usage, des alternatives moins coûteuses et plus rapides à déployer peuvent être suffisantes.
Option 1 : Mistral La Plateforme (hébergement UE Mistral)
Mistral La Plateforme est l'API officielle de Mistral AI, hébergée dans des datacenters européens. Les données ne sont pas utilisées pour réentraîner les modèles, et l'hébergement est exclusivement en UE.
- Tarifs publics 2026 (Mistral Large) : environ 2 €/M tokens en entrée, 6 €/M tokens en sortie
- Mistral Small 24B : 0,1 €/M tokens entrée, 0,3 €/M tokens sortie
- Mistral 7B (Ministral 8B) : 0,1 €/M tokens entrée, 0,1 €/M tokens sortie
- Zéro hardware, zéro ingénierie infra : vous payez uniquement la consommation
C'est la solution la plus simple pour une PME avec un usage modéré, des données sensibles mais non soumises à des réglementations sectorielles très strictes, et pas d'équipe MLOps interne.
Option 2 : GPU à la demande chez un cloud souverain
Scaleway (H100 SXM5 à 2,49 €/h, L40S à 0,99 €/h) et OVHcloud (GPU L40S à 1,35 €/h, H100 à 3,49 €/h) proposent des GPU à la demande ou en instances réservées. Vous déployez votre propre serveur vLLM avec Mistral, les données restent sur l'infrastructure française, et vous payez à l'usage.
Pour un usage de 8h/jour en semaine (160h/mois) avec un L40S Scaleway : 160 € à 220 €/mois. Pour un usage 24/7 : 700 à 1 000 €/mois. C'est la solution idéale pour tester un déploiement production-like avant d'investir en hardware.
Option 3 : container LLM managé chez un fournisseur français
Des acteurs comme Outscale (DSP Cloud de Dassault Systèmes, qualifié SecNumCloud), Numspot (partenariat Banque des Territoires/Docaposte) ou Cleyrop proposent des environnements managés où vous déposez votre modèle Mistral et votre pipeline, sans gérer l'infrastructure. Comptez entre 1 000 et 3 000 €/mois selon le modèle et la volumétrie. C'est la solution clé en main pour les secteurs fortement réglementés (finance, santé, collectivités) qui ont besoin de SecNumCloud sans investir dans leur propre datacenter.
TCO comparatif sur 3 ans selon votre profil
Le coût total de possession sur 3 ans est le bon horizon pour comparer les options. Voici trois profils représentatifs.
Profil A : PME 30 utilisateurs, 5 millions de tokens par mois
Usage : assistant IA interne pour la rédaction, recherche documentaire sur base de 10 000 documents. Données sensibles mais pas de réglementation sectorielle stricte.
| Option | Setup (une fois) | Annuel récurrent | TCO 3 ans |
|---|---|---|---|
| API Mistral La Plateforme | 0 € | ~750 € | ~2 250 € |
| Cloud souverain GPU (Scaleway L40S, usage partiel) | 5 000 à 10 000 € | ~5 000 € | ~20 000 à 25 000 € |
| On-premise Mistral 7B (L4 + ingénierie) | 22 000 à 30 000 € | ~10 000 € | ~52 000 à 60 000 € |
Verdict profil A : l'API Mistral La Plateforme est très largement la plus économique. Le on-premise n'est justifié que si des contraintes réglementaires l'imposent.
Profil B : PME 100 utilisateurs, 50 millions de tokens par mois
Usage : automatisation de processus métier, analyse contractuelle, assistant commercial intensif. Données confidentielles (contrats clients, données RH).
| Option | Setup (une fois) | Annuel récurrent | TCO 3 ans |
|---|---|---|---|
| API Mistral Large La Plateforme | 0 € | ~12 000 € | ~36 000 € |
| Cloud souverain GPU H100 (OVH, usage intensif) | 10 000 à 15 000 € | ~25 000 € | ~85 000 à 90 000 € |
| On-premise Mixtral 8x7B (H100 + ingénierie) | 55 000 à 75 000 € | ~18 000 € | ~109 000 à 129 000 € |
Verdict profil B : l'API reste compétitive. Le on-premise devient intéressant uniquement si les contraintes réglementaires ou la nécessité de fine-tuner le modèle sur vos données le justifient. Le cloud souverain est une option viable à volume élevé si les données imposent la résidence UE. Le break-even on-premise vs API se situe autour de 4 ans dans ce scénario.
Profil C : ETI 500 utilisateurs, données sensibles réglementées
Usage : ETI industrielle (aéronautique, défense, santé) avec des données soumises à des réglementations sectorielles (ITAR, HDS, secret défense). Volume supérieur à 200 millions de tokens par mois. Dans ce profil, le on-premise ou le cloud souverain certifié n'est pas une option : c'est une exigence de conformité. L'API SaaS US est exclue d'emblée. Le TCO on-premise (Mistral Large, 4 H100, ingénierie complète) se situe autour de 300 000 à 500 000 € sur 3 ans, mais c'est le seul chemin légalement défendable.
Notre article sur le coût d'un agent IA sur mesure versus SaaS apporte des éléments complémentaires sur les arbitrages build/buy selon le volume et la criticité des données.
Quand le on-premise est pertinent et quand il ne l'est pas
La question n'est pas "est-ce que le on-premise est mieux ?" mais "est-ce que le on-premise est justifié dans mon contexte ?" Les deux réponses sont valides selon les cas.
Situations où le on-premise (ou cloud souverain) est pertinent
- Données ITAR ou secret défense : aucune alternative légalement acceptable hors infrastructure maîtrisée
- Données de santé HDS : hébergement certifié HDS obligatoire pour les établissements de santé et prestataires traitant des données de santé
- Secret professionnel renforcé : cabinets d'avocats, notaires, experts-comptables traitant des dossiers confidentiels
- Contraintes RGPD strictes documentées : DPO interne qui a identifié l'API SaaS US comme risque inacceptable après analyse d'impact
- Volume massif (50M tokens par mois et plus) : le coût marginal de l'API devient supérieur au coût récurrent d'un serveur amorti
- Besoin de fine-tuner le modèle : un LLM entraîné sur votre propre corpus nécessite l'accès aux poids du modèle, ce qui n'est possible qu'avec un modèle open-weight hébergé en interne
- Latence critique : des cas d'usage temps réel (production industrielle, trading algorithmique) peuvent justifier un serveur local pour minimiser la latence réseau
Situations où le on-premise n'est pas pertinent
- Volume modéré (moins de 10M tokens par mois) : l'API est presque toujours moins chère sur 3 ans, même en comptant les coûts d'ingénierie
- Équipe IT réduite (moins de 3 personnes) : la charge de maintenance d'un serveur GPU de production est réelle. Sans compétence MLOps interne, vous sous-traiterez entièrement, ce qui annule l'avantage coût
- Pas d'expertise Docker/Linux/Python en interne : le setup initial est réalisable par un prestataire, mais les montées de version et les incidents de nuit sont votre responsabilité
- Besoin d'évolutivité rapide : passer d'un modèle Mistral 7B à Mixtral en production nécessite de doubler le hardware. Sur un cloud souverain, c'est une option de configuration
- Données non critiques : si vos données peuvent transiter via un prestataire européen certifié RGPD, l'API Mistral La Plateforme suffit
- Phase de POC ou expérimentation : ne jamais investir en hardware avant d'avoir validé la valeur métier sur un cloud souverain pendant 4 à 8 semaines
Pour explorer les scénarios d'infrastructure plus en détail, notre guide sur le déploiement d'un LLM en production couvre les choix architecturaux et les pièges à éviter.
La méthode Tensoria pour cadrer un projet on-premise
Chez Tensoria, nous avons accompagné plusieurs PME et ETI sur la question du on-premise Mistral. Ce que nous avons appris : la majorité des projets qui démarrent par "on veut du on-premise" aboutissent à une solution hybride moins coûteuse, après avoir mesuré les vrais contraintes réglementaires et la vraie volumétrie.
Étape 1 : cadrer les contraintes avant de choisir le niveau d'hébergement
La première demi-journée de notre audit IA sur ce type de projet est consacrée à trois questions : Quelle est la nature réelle des données traitées par le LLM ? Quelle réglementation sectorielle s'applique ? Quel est le volume réel de tokens consommé ou projeté sur 12 mois ? Les réponses à ces trois questions déterminent si le on-premise est obligatoire, pertinent ou superflu.
Étape 2 : POC sur cloud souverain avant tout achat hardware
Nous recommandons systématiquement un POC de 3 à 6 semaines sur Scaleway ou OVHcloud avant d'investir dans du hardware. Cela permet de valider la qualité de Mistral sur vos données réelles, de mesurer la consommation de tokens effective (toujours différente des estimations initiales), et d'identifier les frictions d'intégration dans votre stack existant. Coût typique d'un POC cloud souverain : 500 à 2 000 € de location GPU plus 3 000 à 8 000 € de prestation d'accompagnement.
Ce POC est directement lié à notre offre d'assistant IA interne RAG, dont la phase de qualification est systématiquement cloud souverain avant toute décision d'infrastructure pérenne.
Étape 3 : décision d'infrastructure basée sur des mesures réelles
À l'issue du POC, trois scenarii sont possibles. Si le volume est inférieur à 10M tokens par mois et les données non réglementées : Mistral La Plateforme. Si le volume est entre 10 et 50M tokens par mois et les données nécessitent la résidence UE : cloud souverain GPU réservé (Scaleway, OVH). Si le volume est supérieur à 50M tokens par mois ou les contraintes réglementaires l'imposent : on-premise avec hardware dimensionné sur les mesures réelles du POC.
Notre approche
Tensoria est une agence IA basée à Toulouse qui accompagne les PME et ETI d'Occitanie et de toute la France sur leurs projets IA concrets. Nous intervenons en audit, en développement et en accompagnement à la mise en production. Nos recommandations sont indépendantes des éditeurs et des hébergeurs.
Le budget réaliste d'un projet on-premise bien conduit
Pour une PME de 50 à 200 personnes qui veut déployer un assistant IA interne avec Mistral sur ses données internes, le budget total sur 18 mois (setup + première année de fonctionnement) se situe généralement entre :
- Option cloud souverain : 20 000 à 45 000 € HT (ingénierie setup + RAG + 12 mois de location GPU + maintenance)
- Option on-premise avec Mistral 7B : 35 000 à 65 000 € HT (hardware L4 + ingénierie + 12 mois de maintenance + colocation)
- Option on-premise avec Mixtral 8x7B : 70 000 à 120 000 € HT (hardware H100 + ingénierie complète + 12 mois de maintenance)
Ces fourchettes supposent un prestataire externe pour le setup et la maintenance. Si vous avez une équipe IT interne capable de prendre en charge la partie opérationnelle, déduire environ 40 % du poste maintenance récurrente.
Pour compléter votre réflexion budgétaire, notre article sur le budget d'un projet RAG en entreprise détaille le poste ingénierie de façon granulaire, et notre guide sur le coût d'un assistant IA interne couvre l'ensemble des options de déploiement.