Les meilleurs SLM 2026 — Ministral, Phi-4-mini, Qwen2.5, Gemma 3, SmolLM2 — permettent de déployer un modèle de langage capable sur un GPU grand public, un poste de travail, voire en edge, sans dépendre d'une API cloud. Pour les PME et ETI qui ont des données sensibles à traiter en local, des budgets GPU limités, ou des besoins de tâches répétitives ciblées, ces petits modèles open source sont souvent le bon point d'entrée en 2026.
Ce comparatif se concentre exclusivement sur les modèles de moins de ~14 milliards de paramètres (avec Mistral Small 3.2 à 24B en cas limite). Si vous cherchez un panorama plus large incluant les grands modèles (70B, 123B, 405B...), consultez notre comparatif des LLM open source pour l'entreprise. Ici, on se concentre sur les SLM — leur empreinte réduite, leurs cas d'usage réels et ce qu'ils ne savent pas faire.
Tableau comparatif des meilleurs SLM 2026
Voici une vue d'ensemble des modèles couverts dans cet article. Les besoins VRAM sont indiqués en quantification int4, qui est le standard pour un déploiement local sur GPU grand public.
Comparatif SLM open source — juin 2026
| Modèle | Taille(s) | Licence | VRAM int4 | Contexte | Français | Point fort |
|---|---|---|---|---|---|---|
| Ministral 3B | 3B | Apache 2.0 | ~2 Go | 128K | Excellent | Edge, ultra-léger |
| Ministral 8B | 8B | Mistral Research | ~5-6 Go | 128K | Excellent | Local, sliding-window |
| Mistral Small 3.2 | 24B | Apache 2.0 | ~13-16 Go | 128K | Excellent | Multimodal, meilleure qualité |
| Phi-4-mini | 3,8B | MIT | ~2-2,5 Go | 128K | Correct | Raisonnement compact, GQA |
| Qwen2.5 7B | 0,5B–14B | Apache 2.0 (≤32B) | ~5-6 Go (7B) | 128K | Correct | Gamme la plus large |
| Gemma 3 4B | 1B–12B | Gemma Terms | ~3-4 Go (4B) | 128K (4B+) | Correct | Multimodal, on-device |
| SmolLM2 1,7B | 135M–1,7B | Apache 2.0 | <1 Go | – | Limité | Ultra-léger, on-device |
| Llama 3.2 3B | 1B–3B | Llama Community | ~2-3 Go | 128K | Bon | Multilingue, communauté |
Ministral 3B & 8B — la référence SLM française
Les deux modèles Ministral ont été publiés le 16 octobre 2024 par Mistral AI, l'éditeur français basé à Paris. Ils ont été conçus dès le départ pour le déploiement local et edge — pas pour les serveurs de datacenter, mais pour tourner là où les données ne bougent pas.
Ministral 3B : le plus libre, le plus léger
Ministral 3B est publié sous Apache 2.0, la licence la plus permissive qui soit. Usage commercial libre, redistribution autorisée, pas de condition cachée. C'est la version à utiliser dès qu'on veut intégrer un SLM dans un produit ou un pipeline sans friction légale.
En quantification int4, il tient dans environ 2 Go de VRAM. Concrètement : il tourne sur un GPU de laptop récent, sur une RTX 3060, ou en CPU avec une latence acceptable pour des usages à faible cadence. Pour des tâches de classification ou d'extraction sur des documents courts, c'est souvent suffisant.
Limite à connaître : sur des séquences longues ou des tâches de raisonnement complexe, les 3 milliards de paramètres montrent leurs limites. C'est un outil de précision sur des tâches ciblées, pas un généraliste.
Ministral 8B : mieux sur les longues séquences
Ministral 8B intègre une attention à fenêtre glissante (sliding-window attention), une architecture qui lui permet de gérer efficacement les longues séquences sans explosion de la mémoire. Source : Mistral AI.
Il tient dans 5 à 6 Go de VRAM int4, accessible sur un GPU RTX 3070 ou équivalent. Pour les cas d'usage où les documents à analyser sont longs (contrats, rapports, transcriptions), c'est le bon choix dans la gamme Mistral compacte.
Sa licence est la Mistral Research License — moins permissive qu'Apache 2.0 mais l'usage commercial reste autorisé. À vérifier sur la page officielle avant un déploiement à grande échelle.
Quand choisir Ministral
- Ministral 3B : tâches simples, classification courte, contrainte matérielle forte, besoin d'une licence Apache 2.0 sans discussion.
- Ministral 8B : documents plus longs, qualité de sortie supérieure, GPU d'au moins 6 Go, usage commercial standard.
- Dans les deux cas : meilleur choix quand la qualité en français professionnel est un critère, et quand on veut un éditeur européen souverain.
Mistral Small 3.2 (24B) — la frontière haute du SLM
Mistral Small 3.2 est sorti en juin 2025. À 24 milliards de paramètres, il se situe à la limite haute de ce qu'on peut raisonnablement qualifier de SLM : en quantification int4, il demande entre 13 et 16 Go de VRAM, ce qui exige un GPU A10G, RTX 4090 (24 Go) ou équivalent. Ce n'est plus un modèle de laptop, mais ça reste déployable sur un seul GPU sans infrastructure de datacenter.
Ce qui le distingue dans cette gamme de taille :
- Licence Apache 2.0 — la plus permissive pour un modèle de cette qualité.
- Fenêtre de contexte 128K tokens — pour des documents très longs.
- Capacités multimodales (texte + image) — utile pour les cas d'usage d'extraction depuis des factures ou formulaires scannés.
- Qualité en français nettement supérieure aux modèles 8B sur des tâches de génération et de compréhension complexes.
Source : Mistral documentation officielle.
Soyons honnêtes sur le positionnement : si vous avez un GPU RTX 4090 disponible, Mistral Small 3.2 offre un rapport qualité/coût difficile à battre parmi les modèles open weights à licence commerciale libre. C'est le bon modèle pour construire un assistant RAG en français avec contrainte de souveraineté, quand Ministral 8B ne suffit plus sur la qualité des sorties.
Phi-4-mini — le plus compact sur le raisonnement
Phi-4-mini est la dernière version de la famille Phi de Microsoft Research. 3,8 milliards de paramètres, licence MIT (la plus libre possible), fenêtre de contexte de 128K tokens. En int4, il occupe environ 2 à 2,5 Go de VRAM — à peu près le même gabarit que Ministral 3B, mais avec une architecture différente.
Ce qui distingue Phi-4-mini : une architecture GQA (Grouped Query Attention) et une philosophie d'entraînement axée sur la qualité des données plutôt que le volume de paramètres. Microsoft Research a investi massivement dans la curation du jeu d'entraînement, ce qui produit un modèle étonnamment fort en raisonnement logique et en structuration de réponse pour sa taille.
Source : fiche HuggingFace Phi-4-mini-instruct.
Cas d'usage où Phi-4-mini excelle :
- Extraction d'entités structurées depuis des formulaires ou des tickets.
- Classification fine sur des catégories logiques bien définies.
- Génération de code Python ou SQL court.
- Déploiements edge où on veut une licence MIT sans contrainte.
Limite principale : le français n'est pas le corpus dominant dans son entraînement. Pour des textes professionnels en français avec nuances stylistiques ou légales, Ministral reste supérieur. Sur des tâches plus "universelles" (code, logique, JSON), Phi-4-mini compense largement.
Qwen2.5 — la gamme la plus large
Qwen2.5 d'Alibaba propose la gamme de tailles la plus étendue de ce comparatif : 0,5B, 1,5B, 3B, 7B, 14B (et au-delà, mais ce sont des LLM, pas des SLM). Les modèles ont été entraînés sur plus de 18 000 milliards de tokens, ce qui représente un corpus d'entraînement massif même pour les petites variantes.
Source : blog Qwen officiel.
Licence : Apache 2.0 pour les variantes jusqu'à 32B inclus, ce qui couvre l'ensemble de la gamme SLM. C'est un avantage concret pour les projets avec une licence commerciale sans discussion.
Quelle taille Qwen2.5 choisir ?
- 0,5B à 1,5B : vraiment ultra-légers, pour des tâches très simples en edge ou sur des appareils contraints. Performances limitées.
- 3B : point d'entrée raisonnable pour de la classification ou de l'extraction courte.
- 7B : le meilleur rapport dans la gamme Qwen pour des usages PME — 5 à 6 Go VRAM, bon multilingue, performances solides sur les tâches standard.
- 14B : concurrent direct de Mistral Small ou Phi-4 14B, nécessite un GPU d'environ 10 Go int4.
Le multilingue est un point fort de Qwen2.5 : la gamme gère officiellement un grand nombre de langues dont le français, l'arabe, le japonais et les principales langues européennes. Pour des entreprises avec des opérations multilingues, c'est un argument sérieux.
En revanche, pour du français professionnel pur (rédaction juridique, documents administratifs), Mistral reste l'éditeur de référence. Qwen est plus fort sur des tâches multilingues mixtes ou sur du code.
Gemma 3 — multimodal léger de Google
Gemma 3 est la famille de modèles open weights de Google DeepMind. Dans la gamme SLM, les variantes pertinentes sont :
- Gemma 3 1B : texte uniquement, fenêtre de 32K tokens, optimisé pour le déploiement on-device (téléphone, CPU). Le plus léger de la gamme.
- Gemma 3 4B : multimodal (texte + image), fenêtre de 128K tokens. C'est ici que la famille devient vraiment intéressante pour les PME.
- Gemma 3 12B : frontière haute de la gamme SLM de Google, multimodal, concurrent direct de Ministral 8B et Phi-4 14B.
Source : documentation officielle Gemma 3.
Ce qui rend Gemma 3 4B particulièrement intéressant : les capacités multimodales dès 4 milliards de paramètres avec seulement 3 à 4 Go de VRAM int4. Pour extraire des informations depuis des images de documents (factures scannées, formulaires papier photographiés), c'est une fenêtre d'entrée accessible qu'aucun autre modèle de ce comparatif n'offre à cette taille.
Limite à connaître : la licence Gemma n'est pas Apache 2.0. Les Gemma Terms of Use autorisent l'usage commercial mais interdisent d'utiliser les sorties pour entraîner des modèles destinés à concurrencer les produits Google. À lire avant un déploiement en production. Le français est correct mais secondaire dans le corpus — Mistral reste supérieur sur la langue.
SmolLM2 & Llama 3.2 — ultra-légers pour l'edge
SmolLM2 (HuggingFace)
SmolLM2 est la réponse de HuggingFace aux besoins de déploiement on-device extrême. La gamme propose trois tailles : 135M, 360M et 1,7B de paramètres. Licence Apache 2.0 dans tous les cas.
À 1,7 milliards de paramètres, SmolLM2 tient dans moins d'un gigaoctet de VRAM — voire tourne directement sur un CPU de smartphone. C'est un cas d'usage différent de tous les autres modèles de ce comparatif : on n'est plus sur un serveur ou un PC de bureau, mais sur un appareil embarqué, une application mobile ou un système temps réel à contrainte forte.
La contrepartie est claire : les performances sur des tâches complexes sont limitées. SmolLM2 est fait pour des tâches très ciblées et bien définies (complétion de formulaire, génération de réponse courte, classification binaire), pas pour de la génération libre ou du raisonnement.
Llama 3.2 1B & 3B (Meta)
Meta a publié les variantes compactes de Llama 3.2 en septembre 2024. Ces modèles de 1 et 3 milliards de paramètres partagent les mêmes caractéristiques que la famille Llama 3 : multilingue, fenêtre de contexte 128K tokens, et la Llama Community License (usage commercial autorisé sans redevance pour la grande majorité des cas).
La force de Llama 3.2 1B/3B est l'écosystème : des milliers de fine-tunes sectoriels existent déjà sur HuggingFace, certains déjà adaptés à des domaines spécifiques (médical, juridique, finance). Si vous cherchez un modèle pré-adapté à votre secteur en taille compacte, c'est là qu'il faut chercher en premier.
Le français de Llama 3.2 est bon — moins nuancé que Ministral sur des textes professionnels complexes, mais largement suffisant pour des usages courants de traitement documentaire.
Comment choisir son SLM pour une PME
Quelques questions simples pour orienter le choix :
Arbre de décision SLM
-
1Le français professionnel est crucial ? Commencer par Ministral 8B (si GPU 6 Go+) ou Mistral Small 3.2 (si GPU 16 Go+). L'éditeur français et le corpus d'entraînement font la différence sur les textes juridiques, comptables ou administratifs.
-
2Contrainte matérielle extrême (CPU ou <3 Go VRAM) ? SmolLM2 1,7B (Apache 2.0) pour des tâches très ciblées, ou Phi-4-mini (~2-2,5 Go VRAM) pour plus de polyvalence.
-
3Besoin de multimodal (images + texte) sur un GPU léger ? Gemma 3 4B est le seul modèle compact de ce comparatif à offrir cette combinaison dès 3 Go VRAM.
-
4Usage multilingue (hors français dominant) ou code ? Qwen2.5 7B ou 14B, avec Apache 2.0 sur toute la gamme SLM et un corpus d'entraînement massif.
-
5Besoin d'un fine-tune sectoriel existant ? Llama 3.2 3B a l'écosystème le plus large de fine-tunes pré-faits sur HuggingFace.
-
6Priorité à la licence la plus libre (MIT) ? Phi-4-mini est le seul modèle de ce comparatif sous MIT avec une fenêtre 128K — utilisable sans aucune condition dans n'importe quel produit commercial ou redistribution.
Si votre contrainte dominante est la souveraineté et le RGPD (ce qui est le cas de la majorité des PME que l'on accompagne sur des données sensibles), l'angle est différent : le bon SLM est celui qui se déploie on-premise ou sur cloud souverain, avec un éditeur européen de préférence. Ministral ou Mistral Small 3.2 cochent toutes ces cases. Notre offre expert IA générative et LLM couvre exactement ce type de déploiement — sélection du modèle, infrastructure, RAG sur vos données internes.
Limites réelles des SLM — ce qu'il ne faut pas leur demander
Soyons directs : un SLM n'est pas un LLM en réduction. C'est un outil différent, avec des cas d'usage différents. Les confondre génère des projets décevants.
Ce qu'un SLM fait mal, comparé à un Llama 3.3 70B ou un Mistral Large 2 :
- Raisonnement long et multi-étapes. Demander à un modèle 3B de raisonner sur un problème complexe en plusieurs étapes donne souvent des résultats instables. Les SLM excellent sur des tâches délimitées, pas sur des chaînes de pensée longues.
- Génération de documents longs et cohérents. Un rapport de 10 pages, une analyse financière structurée, un contrat complet : la cohérence sur de longues sorties est meilleure sur les grands modèles.
- Compréhension de contextes très longs. Même si la fenêtre de contexte affiche 128K, les modèles compacts "oublient" plus facilement les informations en début de contexte sur les longues séquences.
- Instructions complexes et multi-contraintes. "Fais X mais pas Y, en tenant compte de Z, sauf si W" — les SLM suivent moins fiablement les instructions avec de nombreuses contraintes croisées.
Ce qu'un SLM fait bien, souvent aussi bien qu'un grand modèle :
- Classification sur un nombre limité de catégories bien définies.
- Extraction d'entités nommées depuis des documents courts.
- Résumé de documents de longueur standard.
- Génération de texte court et répétitif (emails types, descriptions produit).
- Conversion de format (JSON depuis du texte non structuré).
Et quand un SLM fine-tuné sur vos données métier est comparé à un grand modèle généraliste sur la même tâche, il gagne souvent. C'est là que le rapport qualité/coût devient imbattable. Pour en savoir plus sur quand et comment fine-tuner, notre article sur les SLM vs LLM pour les PME et notre guide sur la quantization int4 et GGUF couvrent les détails pratiques.
Pour aller plus loin
- Qu'est-ce qu'un SLM et pour quel usage en entreprise : définition, cas d'usage et positionnement par rapport aux LLM.
- Top modèles LLM open-source pour l'entreprise : le comparatif complet incluant les grands modèles (70B, 123B, 405B) pour des besoins plus complexes.
- Ministral et Mistral Small : guide complet des SLM français : architecture, licences, benchmarks et cas d'usage détaillés.
- SLM vs LLM : quel modèle choisir pour votre PME : arbre de décision selon vos contraintes GPU, budget et cas d'usage.
- Quantization LLM : guide GGUF et int4 : comment réduire l'empreinte GPU d'un modèle sans dégrader les performances.
- Top serveurs d'inférence LLM open source : vLLM, Ollama, llama.cpp — quel framework pour servir un SLM en production.
- Annonce officielle Ministraux (Mistral AI) : détails d'architecture et cas d'usage des Ministral 3B et 8B.
- Fiche HuggingFace Phi-4-mini-instruct (Microsoft) : spécifications techniques et exemples d'usage.
Vous hésitez encore ?
Discutons de votre cas d'usage. 30 minutes pour identifier le bon SLM et l'architecture adaptée à votre contrainte.
En résumé — petits modèles, vrais résultats
Les SLM de 2026 ne sont pas des compromis par défaut. Sur des tâches ciblées — extraction, classification, résumé, génération courte — un Ministral 8B ou un Phi-4-mini fine-tuné sur vos données fait souvent mieux qu'un grand modèle généraliste, à un coût d'infrastructure sans commune mesure.
Le bon choix dépend de trois critères concrets : votre GPU disponible, votre besoin de qualité en français, et la complexité réelle de votre tâche. Pour de la souveraineté et du français professionnel, Mistral reste la référence. Pour de la licence MIT sans friction, Phi-4-mini. Pour de la gamme et du multilingue, Qwen2.5. Pour du multimodal léger, Gemma 3 4B.
Ce qui ne change pas : un SLM mal calibré sur la mauvaise tâche donne de mauvais résultats, quelle que soit la qualité du modèle. Définir précisément la tâche avant de choisir le modèle — c'est toujours la première étape.