Les LLM open-source (open weights) auto-hébergeables permettent à une entreprise de déployer un modèle de langage puissant sur sa propre infrastructure, sans envoyer ses données à un tiers. En 2026, cette famille de modèles couvre la quasi-totalité des cas d'usage professionnels : génération de texte, extraction d'information, assistants internes sur documents confidentiels, agents métier. Ce comparatif couvre les 7 modèles les plus pertinents pour un déploiement en entreprise : forces réelles, tailles disponibles, licences, cas d'usage et limites concrètes.
Critères de sélection d'un LLM open-source en entreprise
Choisir un LLM open weights pour un déploiement professionnel ne se réduit pas à comparer les benchmarks publics. Les performances sur MMLU ou HumanEval ne prédisent pas ce que le modèle fera sur vos documents internes, dans votre langue métier, avec vos contraintes d'infrastructure.
Voici les six critères qui structurent ce comparatif.
Licence et usage commercial. Certains modèles sont Apache 2.0 (usage libre sans conditions), d'autres ont des licences propriétaires qui imposent des restrictions au-delà d'un certain volume d'utilisateurs. Vérifier la licence avant tout POC.
Tailles disponibles et empreinte GPU. Un modèle de 7 milliards de paramètres quantifié en 4 bits tient sur un GPU grand public (24 Go VRAM). Un modèle de 70 milliards de paramètres exige des GPU de datacenter. La taille disponible conditionne directement le coût d'infrastructure.
Qualité en français et multilingue. Les modèles entraînés majoritairement sur de l'anglais produisent un français grammaticalement correct mais appauvri en nuance. Pour les cas d'usage franco-européens, ce critère n'est pas négligeable.
Capacité de raisonnement. Certains modèles (notamment les variantes "Instruct" ou "Reasoner") sont optimisés pour des tâches complexes à plusieurs étapes. D'autres sont calibrés pour la vitesse et la tâche simple.
Coût d'hébergement réel. Le modèle est gratuit, mais le GPU ne l'est pas. Un modèle 70B en production nécessite des instances qui coûtent plusieurs euros par heure sur AWS ou Azure. Les modèles compact (7B) divisent ce coût par 5 à 10 sur des tâches à débit modéré.
Souveraineté et confidentialité. Un modèle auto-hébergé sur votre infrastructure (cloud privé, VPC, on-premise) garantit qu'aucune donnée de prompt ne quitte votre périmètre. C'est le critère non négociable pour les secteurs régulés ou les données à fort enjeu de confidentialité.
1. Mistral (open weights)
Mistral AI est une entreprise française fondée en 2023 à Paris. Ses modèles open weights sont les plus utilisés en Europe pour les déploiements souverains.
Forces
Mistral est le modèle de référence pour le français en open weights. Les modèles de la famille Mistral sont entraînés avec un corpus européen significatif, ce qui se traduit par une meilleure maîtrise des nuances linguistiques, des textes juridiques français et des formulations administratives. Sur les benchmarks de compréhension du français, Mistral 7B Instruct surpasse régulièrement des modèles deux à trois fois plus grands entraînés majoritairement sur de l'anglais.
Mistral Large 2 (123B) se positionne parmi les meilleurs modèles open weights sur les tâches de raisonnement, de synthèse et de génération de code en 2026, proche des performances de modèles propriétaires de premier rang sur de nombreux benchmarks.
Tailles disponibles
- Mistral 7B : modèle compact, idéal pour les déploiements sur GPU standard, excellent rapport qualité/coût pour la génération et la classification.
- Mixtral 8x7B : architecture Mixture of Experts (MoE), active 13B de paramètres à l'inférence sur 47B au total, performances supérieures à un modèle 13B dense à coût similaire.
- Mixtral 8x22B : MoE plus grand, concurrent direct des modèles 70B denses à coût réduit.
- Mistral Large 2 (123B) : modèle phare de Mistral AI, performances de haut niveau, nécessite plusieurs GPU de datacenter.
- Mistral Nemo (12B) : contexte de 128k tokens, produit en partenariat avec NVIDIA.
Licence
Apache 2.0 pour les modèles 7B, Mixtral 8x7B et Mixtral 8x22B. Mistral Large 2 est disponible sous la Mistral Research License (usage commercial autorisé sous conditions, voir la licence officielle). Mistral Nemo est sous Apache 2.0.
Cas d'usage entreprise
Assistants RAG sur documents internes en français, extraction d'informations structurées depuis des courriers ou contrats, génération de résumés de réunions, classification de tickets support, agent de veille réglementaire en droit français.
Limites
Mistral Large 2 requiert une infrastructure GPU significative pour la production. Les modèles 7B montrent leurs limites sur des tâches de raisonnement à plusieurs étapes ou de code très complexe. La communauté open-source Mistral, bien que solide, est plus petite que celle de Llama.
2. Llama 3.x (Meta)
La famille Llama de Meta est la plus téléchargée de l'écosystème open weights. Llama 3.1 sorti en juillet 2024 a marqué un tournant en rendant disponible un modèle de 405 milliards de paramètres en open weights.
Forces
La taille de la communauté est un avantage concret : des milliers de fine-tunes, d'adaptateurs LoRA et de variantes spécialisées existent sur Hugging Face pour Llama. Trouver un modèle Llama pré-adapté à votre secteur (médical, juridique, finance) est plus probable qu'avec n'importe quel autre modèle open weights.
Llama 3.3 70B Instruct offre des performances proches de Llama 3.1 405B sur de nombreuses tâches, avec un coût d'inférence bien inférieur. Selon les classements de LM Arena, Llama 3.3 70B figure parmi les meilleurs modèles open weights sur les évaluations humaines préférentielles.
Tailles disponibles
- Llama 3.2 1B et 3B : modèles ultra-compacts pour déploiements edge, mobile ou CPU.
- Llama 3.2 11B et 90B Vision : variantes multimodales (texte + image).
- Llama 3.1 8B : successeur compact de Llama 2 13B, fenêtre de contexte de 128k tokens.
- Llama 3.3 70B : meilleur rapport performance/coût de la famille Llama pour des tâches complexes.
- Llama 3.1 405B : modèle phare, performances proches de GPT-4o sur certains benchmarks, infrastructure lourde requise.
Licence
Llama Community License. Usage commercial autorisé sans redevance si le nombre d'utilisateurs actifs mensuels de votre application ne dépasse pas 700 millions. Au-delà, une licence commerciale avec Meta est requise. Les restrictions sectorielles (armement, surveillance de masse) s'appliquent. Voir la licence Llama 3 officielle.
Cas d'usage entreprise
Chatbot interne sur base documentaire, génération de contenu, extraction d'entités dans des documents complexes, agent de code (Llama 3.1 405B Code), analyse de sentiment sur des données client. La disponibilité de fine-tunes sectoriels est un avantage décisif pour les verticals avec données spécialisées.
Limites
Le français de Llama est bon mais inférieur à Mistral sur des nuances légales ou administratives. Les modèles 70B et 405B nécessitent une infrastructure GPU conséquente. La licence, bien que permissive, n'est pas Apache 2.0 et impose une lecture attentive pour les cas de redistribution ou d'API publique.
3. Qwen 2.5 (Alibaba)
Qwen est la famille de modèles open weights d'Alibaba Cloud. Qwen 2.5, sorti fin 2024, a positionné Alibaba comme un acteur sérieux de l'open weights avec des performances solides sur les benchmarks de code et de mathématiques.
Forces
Qwen 2.5 propose des variantes spécialisées rarement vues dans les familles open weights : Qwen2.5-Coder (72B), Qwen2.5-Math, et Qwen2.5-VL (multimodal). Sur les benchmarks de code comme HumanEval et MBPP, Qwen2.5-Coder 72B dépasse Llama 3.1 405B selon les évaluations publiées par Alibaba.
Le support multilingue est étendu : Qwen 2.5 gère officiellement 29 langues dont le français, l'arabe, le japonais, le coréen et les principales langues européennes. La fenêtre de contexte atteint 128k tokens sur les variantes les plus grandes.
Tailles disponibles
- Qwen2.5 0.5B, 1.5B, 3B : ultra-compacts, pour edge computing ou CPU.
- Qwen2.5 7B, 14B, 32B : tailles intermédiaires, bon rapport performance/ressources.
- Qwen2.5 72B : modèle phare, concurrent direct de Llama 3.3 70B.
- Qwen2.5-Coder 7B et 32B : variantes optimisées code, légères et efficaces.
- QwQ-32B : variante raisonnement (chain-of-thought étendu), concurrent de DeepSeek R1.
Licence
Apache 2.0 pour les modèles jusqu'à 32B inclus. Les modèles 72B sont sous une licence Qwen spécifique autorisant l'usage commercial mais imposant quelques restrictions sur la redistribution. Vérifier les fiches modèles sur Hugging Face pour chaque variante.
Cas d'usage entreprise
Génération et revue de code (Qwen2.5-Coder), traitement de documents multilingues incluant des langues asiatiques, calculs et tableaux financiers (Qwen2.5-Math), extraction structurée depuis des images de documents (Qwen2.5-VL). Le plus pertinent pour les entreprises avec des opérations en Asie ou des besoins de traitement de documents multilingues.
Limites
La communauté francophone autour de Qwen est plus petite que celle de Mistral ou Llama. La documentation est partiellement en anglais et en chinois. Le français, bien que supporté, reste secondaire dans le corpus d'entraînement. L'écosystème d'outils (fine-tuning, évaluation) est moins mature qu'autour de Llama.
4. DeepSeek R2
DeepSeek est une entreprise chinoise dont les modèles ont créé une surprise notable début 2025 en affichant des performances proches de GPT-4o et o1 sur les benchmarks de raisonnement, avec des coûts d'entraînement annoncés bien inférieurs.
Forces
DeepSeek R2 (et son prédécesseur R1) excelle sur les tâches de raisonnement logique, de mathématiques avancées et de génération de code. L'architecture Mixture of Experts de DeepSeek V3 (671B de paramètres totaux, 37B activés à l'inférence) permet des performances élevées à un coût d'inférence comparable à un modèle dense de 37B.
Le modèle publie ses "chaînes de pensée" (chain-of-thought) en natif, ce qui est utile pour les cas d'usage où l'explicabilité du raisonnement importe (audit, vérification de contrats, analyse réglementaire).
Tailles disponibles
- DeepSeek R1 Distill 1.5B, 7B, 8B, 14B, 32B, 70B : versions distillées depuis R1, téléchargeables, performantes sur le raisonnement pour leur taille.
- DeepSeek V3 671B (MoE) : modèle complet, ~37B paramètres actifs à l'inférence, nécessite une infrastructure multi-GPU.
- DeepSeek R2 : successeur de R1, améliorations sur le raisonnement multi-étapes et les langues.
Licence
Licence MIT pour DeepSeek R1 et ses distillations, et pour DeepSeek V3. Usage commercial autorisé sans restriction majeure. Voir le dépôt GitHub officiel pour les détails de licence.
Cas d'usage entreprise
Raisonnement sur des données structurées complexes, vérification de cohérence dans des contrats ou des spécifications techniques, génération et débogage de code, analyse de scénarios financiers à plusieurs hypothèses. Les variantes distillées (7B à 32B) sont particulièrement intéressantes : elles héritent des capacités de raisonnement de R1 dans des formats déployables sur infrastructure standard.
Limites
DeepSeek est une entreprise chinoise soumise au droit chinois, ce qui peut poser des questions de gouvernance dans certains secteurs régulés européens (défense, administration, données de santé), même en hébergement local des poids. La qualité en français est correcte mais inférieure à Mistral. Les chaînes de pensée très longues peuvent ralentir l'inférence et augmenter les coûts. Les modèles full-size (V3 671B) sont très lourds à opérer.
5. Gemma 3 (Google)
Gemma est la famille de modèles open weights de Google DeepMind. Gemma 3, sorti en mars 2025, améliore significativement les performances des versions précédentes tout en maintenant une empreinte matérielle réduite.
Forces
Gemma 3 est conçu pour fonctionner sur du matériel accessible. Le modèle Gemma 3 27B tient sur un seul GPU A100 80 Go ou, en quantification 4 bits, sur un GPU de 24 Go. Pour les entreprises qui souhaitent déployer un modèle capable sur leur propre matériel sans investissement GPU massif, c'est un avantage concret.
Gemma 3 intègre des capacités multimodales (texte et image) sur toutes les tailles à partir de 4B. La fenêtre de contexte atteint 128k tokens. Google a entraîné Gemma 3 sur un corpus multilingue couvrant plus de 140 langues, selon la documentation officielle de Google DeepMind.
Tailles disponibles
- Gemma 3 1B : ultra-compact, pour edge, mobile, CPU.
- Gemma 3 4B : bon modèle de base multimodal pour des tâches simples.
- Gemma 3 12B : équilibre performances/ressources, concurrent de Mistral Nemo.
- Gemma 3 27B : modèle phare de la famille, performances proches des modèles 70B sur plusieurs benchmarks.
Licence
Gemma Terms of Use (licence Google spécifique). Usage commercial autorisé sans redevance. Restrictions : interdiction d'utiliser les sorties pour entraîner des modèles destinés à concurrencer les produits Google, et restrictions sur certains usages sensibles. Voir les conditions Gemma avant un déploiement en production.
Cas d'usage entreprise
Extraction d'informations depuis des images de documents (factures, plans, formulaires) grâce aux capacités vision, traitement de bases documentaires multilingues, assistant interne léger sur infrastructure contrainte, classification de textes à grande cadence sur GPU d'entrée de gamme.
Limites
La licence Gemma n'est pas Apache 2.0, la restriction sur la concurrence avec les produits Google mérite attention pour certains cas d'usage. Le français est correct mais pas aussi maîtrisé que Mistral sur les textes techniques ou juridiques. La communauté de fine-tuning est plus petite que celle de Llama.
6. Phi-4 (Microsoft)
La famille Phi de Microsoft Research adopte un positionnement original : obtenir le maximum de performances à partir de modèles très compacts, en travaillant intensément sur la qualité des données d'entraînement plutôt que sur le volume de paramètres.
Forces
Phi-4 (14B) dépasse des modèles deux à trois fois plus grands sur les benchmarks de raisonnement et de mathématiques. Sur MATH et GPQA Diamond, Phi-4 14B surpasse Llama 3 70B selon les résultats publiés par Microsoft Research. C'est particulièrement utile pour les cas d'usage qui requièrent du raisonnement sur GPU limités.
Les modèles Phi sont optimisés pour fonctionner efficacement avec des ressources matérielles réduites : Phi-3.5 Mini (3.8B) tient sur un smartphone ou un CPU performant, ce qui ouvre des cas d'usage en edge computing ou en traitement local de données sensibles sans GPU.
Tailles disponibles
- Phi-3.5 Mini (3.8B) : ultra-compact, CPU-compatible, fenêtre 128k tokens.
- Phi-3.5 MoE (16x3.8B) : architecture MoE légère, bon compromis performance/coût.
- Phi-4 (14B) : modèle phare, raisonnement solide pour sa taille.
- Phi-4 Multimodal : variante texte + image + audio, pour les cas d'usage multimodaux sur GPU standard.
Licence
MIT pour Phi-3 et Phi-4. Usage commercial libre, redistribution autorisée. C'est l'une des licences les plus permissives de cet écran comparatif.
Cas d'usage entreprise
Déploiements edge et on-device (traitement de données sensibles sans réseau), assistant de code sur poste de travail (Phi-4 est très fort en génération Python, SQL, TypeScript), extraction structurée sur des volumes de documents importants à coût d'inférence maîtrisé, intégration dans des pipelines de traitement automatisé où la latence est critique.
Limites
Phi-4 14B reste un modèle de 14B : il ne peut pas remplacer un modèle 70B sur des tâches de génération longue ou de compréhension de contextes très complexes. Le français est correct mais secondaire dans le corpus d'entraînement. Les capacités multimodales, bien que disponibles, ne rivalisent pas encore avec les modèles spécialisés vision comme GPT-4o ou Claude 3.5 Sonnet sur des documents complexes.
7. Command R+ (Cohere)
Command R+ est le modèle open weights de Cohere, une entreprise canadienne spécialisée dans les LLM pour l'entreprise. Command R et Command R+ ont été conçus explicitement pour les cas d'usage RAG et agents, avec un support multilingue natif.
Forces
Command R+ est l'un des rares modèles open weights conçus dès l'origine pour le RAG en production. Il intègre une gestion native des citations (le modèle indique quel passage source justifie chaque partie de sa réponse), ce qui simplifie l'architecture des assistants documentaires qui exigent de la traçabilité.
Le support multilingue couvre nativement le français, l'espagnol, l'allemand, l'italien, le portugais, le japonais, le coréen, l'arabe et le chinois simplifié. Cohere a publié des évaluations montrant que Command R+ dépasse Llama 3 70B sur plusieurs benchmarks RAG multilingues.
Tailles disponibles
- Command R (35B) : modèle de base, efficace pour les RAG standards.
- Command R+ (104B) : modèle phare, meilleures performances sur des tâches complexes et multilingues.
Licence
CC-BY-NC pour Command R et Command R+. Usage non commercial libre. Pour un usage commercial, une licence Cohere est requise. C'est la contrainte principale de ce modèle pour un déploiement en production en entreprise. Voir la fiche Hugging Face officielle.
Cas d'usage entreprise
Assistants RAG multilingues sur bases documentaires mixtes (français + anglais + autre langue européenne), agents de recherche et synthèse sur de grandes bases de connaissance internes, extraction structurée avec traçabilité des sources sur des corpus réglementaires ou contractuels.
Limites
La licence CC-BY-NC est la moins permissive de ce comparatif pour un usage commercial. Command R+ 104B requiert une infrastructure GPU équivalente à un modèle 70B dense ou plus selon la quantification. Cohere étant une entreprise canadienne, la question de gouvernance est plus simple qu'avec un éditeur hors zone Five Eyes, mais les poids restent sous une licence non commerciale par défaut.
Tableau comparatif des 7 LLM open-source pour l'entreprise
Comparatif LLM open weights entreprise 2026
| Modèle | Taille phare | Licence commerciale | Français | Point fort | Infra GPU min. |
|---|---|---|---|---|---|
| Mistral | Large 2 (123B) | Apache 2.0 / MRL | Excellent | Meilleur open weights FR | GPU 24 Go (7B) |
| Llama 3.x | 3.3 70B / 405B | Llama Community | Bon | Ecosystème et fine-tunes | GPU 24 Go (8B) |
| Qwen 2.5 | 72B / Coder 32B | Apache 2.0 (jusqu'à 32B) | Correct | Code et multilingue | GPU 24 Go (7B) |
| DeepSeek R2 | V3 671B MoE | MIT | Correct | Raisonnement logique | GPU 24 Go (7B distil) |
| Gemma 3 | 27B | Gemma Terms | Correct | Efficacité GPU / vision | GPU 16 Go (4B) |
| Phi-4 | 14B | MIT | Correct | Raisonnement compact | CPU (Mini 3.8B) |
| Command R+ | 104B | CC-BY-NC (com. payant) | Natif | RAG avec citations | GPU 80 Go (104B) |
Open-source vs propriétaire : comment décider
La question n'est pas "lequel est meilleur" : c'est "lequel est adapté à votre contrainte dominante". Les modèles propriétaires comme GPT-4o, Claude Sonnet ou Gemini Pro offrent un accès immédiat à des capacités de pointe sans infrastructure à gérer. Les modèles open weights offrent le contrôle total sur les données et les coûts à grande échelle.
Pour aller plus loin sur cette comparaison, notre article Mistral vs OpenAI vs Anthropic pour les entreprises françaises détaille les arbitrages spécifiques au contexte réglementaire européen.
Quand choisir l'open weights plutôt que le propriétaire
-
1Données confidentielles ou réglementées : les prompts ne doivent pas quitter votre infrastructure. Un LLM open weights hébergé sur votre VPC ou vos serveurs garantit que rien n'est transmis à un tiers.
-
2Volume d'inférence élevé : à partir d'un certain volume de requêtes, le coût d'hébergement GPU devient inférieur au coût des API propriétaires. Le seuil dépend du modèle et de l'usage, mais il est souvent atteint en quelques mois sur des cas d'usage métier intensifs.
-
3Fine-tuning sur données propriétaires : adapter un modèle open weights à votre vocabulaire métier ou à votre format de sortie est possible sans dépendre d'un fournisseur tiers pour accéder à vos poids entraînés.
-
4Indépendance fournisseur : un modèle open weights n'est pas sujet aux changements de tarification, de politique d'usage ou d'arrêt de service d'un éditeur propriétaire.
Comme le formule Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria : "Dans les projets que nous accompagnons, la question n'est jamais open-source contre propriétaire par principe. C'est : qui héberge vos données, à quel coût sur 24 mois, et quelle est votre capacité à maintenir l'infrastructure ? Pour des PME avec des données client sensibles et un volume d'usage modéré, un Mistral 7B bien configuré en RAG répondra à 80 % des besoins avec une confidentialité totale et un coût prévisible. Pour des tâches complexes ponctuelles sans contrainte de souveraineté, l'API propriétaire reste plus simple à exploiter."
Si vous souhaitez structurer votre déploiement LLM open weights, notre article sur l'architecture RAG souveraine avec Mistral détaille les choix d'infrastructure et de stack technique. Pour gérer le cycle de vie complet du modèle en production (versioning, orchestration des pipelines, retraining, surveillance), notre comparatif des outils MLOps pour la production (MLflow, W&B, BentoML, Ray, Airflow) couvre les choix selon la maturité de l'équipe. Pour évaluer objectivement la qualité des réponses avant et après déploiement, notre panorama des outils d'évaluation et d'observabilité LLM (Ragas, DeepEval, LangSmith, Langfuse) aide à choisir le bon outillage selon votre stack.
Pont service
Tensoria accompagne les entreprises dans le choix, le déploiement et la mise en production de LLM open weights : sélection du modèle adapté au cas d'usage, infrastructure d'inférence, fine-tuning et RAG sur données internes. Découvrir notre offre expert IA générative et LLM.