Qu'est-ce qu'un SLM (Small Language Model) ?

Un SLM (Small Language Model) est un modèle de langage dont la taille ne dépasse pas environ 14 milliards de paramètres. Contrairement aux grands LLM (70B, 405B...), un SLM tient sur un GPU grand public ou même sur CPU, ce qui le rend déployable sur edge, poste de travail ou serveur on-premise sans infrastructure lourde. En contrepartie, ses capacités de raisonnement complexe sont plus limitées — mais sur des tâches ciblées (classification, extraction, génération courte), un bon SLM atteint des performances très proches d'un LLM plus grand, à une fraction du coût.

Quel est le meilleur SLM en français en 2026 ?

Pour le français, Ministral 8B et Mistral Small 3.2 (24B, à la frontière haute du SLM) sont les références en 2026. Mistral AI est un éditeur français dont les modèles sont entraînés avec un corpus européen significatif, ce qui se traduit par une meilleure maîtrise du français professionnel, juridique et administratif. Ils sont déployables on-premise ou sur cloud souverain (OVH, Scaleway), ce qui les rend compatibles avec une stratégie RGPD stricte.

Combien de VRAM faut-il pour faire tourner un SLM en local ?

En quantification int4 (le standard pour un déploiement local), comptez environ : 1 Go de VRAM pour un modèle 1B, 2 à 4 Go pour un modèle 3 à 4B, 5 à 6 Go pour un modèle 8B, et 13 à 16 Go pour un modèle 24B. Un GPU RTX 3060 (12 Go) fait tourner confortablement un modèle 8B. Un modèle 1 à 4B peut même s'exécuter sur CPU avec une latence acceptable pour des cas d'usage à faible cadence.

Les SLM sont-ils compatibles RGPD ?

Oui, à condition de les déployer sur votre propre infrastructure ou un cloud souverain européen. Contrairement aux API cloud (OpenAI, Anthropic), un SLM hébergé on-premise ou sur OVH/Scaleway garantit qu'aucune donnée de prompt ne quitte votre périmètre. C'est l'avantage structurel des modèles open weights déployés localement. Les modèles Mistral (éditeur français, Apache 2.0) sont particulièrement adaptés à cette logique.

Quelle est la différence entre un SLM et un LLM pour une PME ?

Un LLM (70B+) nécessite plusieurs GPU de datacenter pour l'inférence — coûteux et complexe à opérer. Un SLM (<14B) tient sur un GPU grand public ou un serveur d'entrée de gamme. Pour une PME, le SLM est souvent le bon compromis : coût d'infrastructure raisonnable, performances suffisantes sur les tâches ciblées (extraction, classification, résumé, génération courte), et souveraineté totale si déployé on-premise. La limite est réelle sur les tâches de raisonnement long ou de génération complexe : là, un LLM plus grand ou une API cloud reste supérieur.

Peut-on fine-tuner un SLM sur des données métier ?

Oui, et c'est souvent là que le rapport qualité/coût d'un SLM devient imbattable. Un fine-tuning LoRA sur un modèle 3 à 8B nécessite un GPU d'entrée de gamme et quelques heures d'entraînement. Sur une tâche ciblée avec 500 à 2 000 exemples de qualité, un SLM fine-tuné dépasse souvent en précision un grand modèle généraliste. Les modèles Phi-4-mini (MIT) et Ministral 3B (Apache 2.0) sont particulièrement bien documentés pour le fine-tuning.

Quelle différence entre Ministral 3B et Ministral 8B ?

Ministral 3B (Apache 2.0) est le plus léger des deux : il tient sur ~2 Go de VRAM int4, tournant sur presque n'importe quel GPU ou en CPU. Il convient aux tâches simples et aux déploiements edge contraints. Ministral 8B intègre une attention à fenêtre glissante (sliding-window attention) qui lui permet de gérer efficacement les longues séquences ; il produit des sorties de meilleure qualité sur les tâches complexes, au prix d'une empreinte GPU plus élevée (~5-6 Go int4). Les deux ont été publiés le 16 octobre 2024 et sont conçus pour le local et l'edge.

Top SLM 2026 : les meilleurs petits modèles de langage

Q: Peut-on fine-tuner un SLM sur des données métier ?

Oui, et c'est souvent là que le rapport qualité/coût d'un SLM devient imbattable. Un fine-tuning LoRA sur un modèle 3 à 8B nécessite un GPU d'entrée de gamme et quelques heures d'entraînement. Sur une tâche ciblée avec 500 à 2 000 exemples de qualité, un SLM fine-tuné dépasse souvent en précision un grand modèle généraliste. Les modèles Phi-4-mini (MIT) et Ministral 3B (Apache 2.0) sont particulièrement bien documentés pour le fine-tuning.

Q: Quelle différence entre Ministral 3B et Ministral 8B ?

Ministral 3B (Apache 2.0) est le plus léger des deux : il tient sur ~2 Go de VRAM int4, tournant sur presque n'importe quel GPU ou en CPU. Il convient aux tâches simples et aux déploiements edge contraints. Ministral 8B intègre une attention à fenêtre glissante (sliding-window attention) qui lui permet de gérer efficacement les longues séquences ; il produit des sorties de meilleure qualité sur les tâches complexes, au prix d'une empreinte GPU plus élevée (~5-6 Go int4). Les deux ont été publiés le 16 octobre 2024 et sont conçus pour le local et l'edge.

Comparatif des meilleurs SLM 2026 - petits modèles de langage open source pour entreprise, Ministral, Phi-4-mini, Qwen2.5, Gemma 3

Les meilleurs SLM 2026 — Ministral, Phi-4-mini, Qwen2.5, Gemma 3, SmolLM2 — permettent de déployer un modèle de langage capable sur un GPU grand public, un poste de travail, voire en edge, sans dépendre d'une API cloud. Pour les PME et ETI qui ont des données sensibles à traiter en local, des budgets GPU limités, ou des besoins de tâches répétitives ciblées, ces petits modèles open source sont souvent le bon point d'entrée en 2026.

Ce comparatif se concentre exclusivement sur les modèles de moins de ~14 milliards de paramètres (avec Mistral Small 3.2 à 24B en cas limite). Si vous cherchez un panorama plus large incluant les grands modèles (70B, 123B, 405B...), consultez notre comparatif des LLM open source pour l'entreprise. Ici, on se concentre sur les SLM — leur empreinte réduite, leurs cas d'usage réels et ce qu'ils ne savent pas faire.

Tableau comparatif des meilleurs SLM 2026

Voici une vue d'ensemble des modèles couverts dans cet article. Les besoins VRAM sont indiqués en quantification int4, qui est le standard pour un déploiement local sur GPU grand public.

Comparatif SLM open source — juin 2026

Modèle	Taille(s)	Licence	VRAM int4	Contexte	Français	Point fort
Ministral 3B	3B	Apache 2.0	~2 Go	128K	Excellent	Edge, ultra-léger
Ministral 8B	8B	Mistral Research	~5-6 Go	128K	Excellent	Local, sliding-window
Mistral Small 3.2	24B	Apache 2.0	~13-16 Go	128K	Excellent	Multimodal, meilleure qualité
Phi-4-mini	3,8B	MIT	~2-2,5 Go	128K	Correct	Raisonnement compact, GQA
Qwen2.5 7B	0,5B–14B	Apache 2.0 (≤32B)	~5-6 Go (7B)	128K	Correct	Gamme la plus large
Gemma 3 4B	1B–12B	Gemma Terms	~3-4 Go (4B)	128K (4B+)	Correct	Multimodal, on-device
SmolLM2 1,7B	135M–1,7B	Apache 2.0	<1 Go	–	Limité	Ultra-léger, on-device
Llama 3.2 3B	1B–3B	Llama Community	~2-3 Go	128K	Bon	Multilingue, communauté

Ministral 3B & 8B — la référence SLM française

Les deux modèles Ministral ont été publiés le 16 octobre 2024 par Mistral AI, l'éditeur français basé à Paris. Ils ont été conçus dès le départ pour le déploiement local et edge — pas pour les serveurs de datacenter, mais pour tourner là où les données ne bougent pas.

Ministral 3B : le plus libre, le plus léger

Ministral 3B est publié sous Apache 2.0, la licence la plus permissive qui soit. Usage commercial libre, redistribution autorisée, pas de condition cachée. C'est la version à utiliser dès qu'on veut intégrer un SLM dans un produit ou un pipeline sans friction légale.

En quantification int4, il tient dans environ 2 Go de VRAM. Concrètement : il tourne sur un GPU de laptop récent, sur une RTX 3060, ou en CPU avec une latence acceptable pour des usages à faible cadence. Pour des tâches de classification ou d'extraction sur des documents courts, c'est souvent suffisant.

Limite à connaître : sur des séquences longues ou des tâches de raisonnement complexe, les 3 milliards de paramètres montrent leurs limites. C'est un outil de précision sur des tâches ciblées, pas un généraliste.

Ministral 8B : mieux sur les longues séquences

Ministral 8B intègre une attention à fenêtre glissante (sliding-window attention), une architecture qui lui permet de gérer efficacement les longues séquences sans explosion de la mémoire. Source : Mistral AI.

Il tient dans 5 à 6 Go de VRAM int4, accessible sur un GPU RTX 3070 ou équivalent. Pour les cas d'usage où les documents à analyser sont longs (contrats, rapports, transcriptions), c'est le bon choix dans la gamme Mistral compacte.

Sa licence est la Mistral Research License — moins permissive qu'Apache 2.0 mais l'usage commercial reste autorisé. À vérifier sur la page officielle avant un déploiement à grande échelle.

Quand choisir Ministral

Ministral 3B : tâches simples, classification courte, contrainte matérielle forte, besoin d'une licence Apache 2.0 sans discussion.
Ministral 8B : documents plus longs, qualité de sortie supérieure, GPU d'au moins 6 Go, usage commercial standard.
Dans les deux cas : meilleur choix quand la qualité en français professionnel est un critère, et quand on veut un éditeur européen souverain.

Mistral Small 3.2 (24B) — la frontière haute du SLM

Mistral Small 3.2 est sorti en juin 2025. À 24 milliards de paramètres, il se situe à la limite haute de ce qu'on peut raisonnablement qualifier de SLM : en quantification int4, il demande entre 13 et 16 Go de VRAM, ce qui exige un GPU A10G, RTX 4090 (24 Go) ou équivalent. Ce n'est plus un modèle de laptop, mais ça reste déployable sur un seul GPU sans infrastructure de datacenter.

Ce qui le distingue dans cette gamme de taille :

Licence Apache 2.0 — la plus permissive pour un modèle de cette qualité.
Fenêtre de contexte 128K tokens — pour des documents très longs.
Capacités multimodales (texte + image) — utile pour les cas d'usage d'extraction depuis des factures ou formulaires scannés.
Qualité en français nettement supérieure aux modèles 8B sur des tâches de génération et de compréhension complexes.

Source : Mistral documentation officielle.

Soyons honnêtes sur le positionnement : si vous avez un GPU RTX 4090 disponible, Mistral Small 3.2 offre un rapport qualité/coût difficile à battre parmi les modèles open weights à licence commerciale libre. C'est le bon modèle pour construire un assistant RAG en français avec contrainte de souveraineté, quand Ministral 8B ne suffit plus sur la qualité des sorties.

Phi-4-mini — le plus compact sur le raisonnement

Phi-4-mini est la dernière version de la famille Phi de Microsoft Research. 3,8 milliards de paramètres, licence MIT (la plus libre possible), fenêtre de contexte de 128K tokens. En int4, il occupe environ 2 à 2,5 Go de VRAM — à peu près le même gabarit que Ministral 3B, mais avec une architecture différente.

Ce qui distingue Phi-4-mini : une architecture GQA (Grouped Query Attention) et une philosophie d'entraînement axée sur la qualité des données plutôt que le volume de paramètres. Microsoft Research a investi massivement dans la curation du jeu d'entraînement, ce qui produit un modèle étonnamment fort en raisonnement logique et en structuration de réponse pour sa taille.

Source : fiche HuggingFace Phi-4-mini-instruct.

Cas d'usage où Phi-4-mini excelle :

Extraction d'entités structurées depuis des formulaires ou des tickets.
Classification fine sur des catégories logiques bien définies.
Génération de code Python ou SQL court.
Déploiements edge où on veut une licence MIT sans contrainte.

Limite principale : le français n'est pas le corpus dominant dans son entraînement. Pour des textes professionnels en français avec nuances stylistiques ou légales, Ministral reste supérieur. Sur des tâches plus "universelles" (code, logique, JSON), Phi-4-mini compense largement.

Qwen2.5 — la gamme la plus large

Qwen2.5 d'Alibaba propose la gamme de tailles la plus étendue de ce comparatif : 0,5B, 1,5B, 3B, 7B, 14B (et au-delà, mais ce sont des LLM, pas des SLM). Les modèles ont été entraînés sur plus de 18 000 milliards de tokens, ce qui représente un corpus d'entraînement massif même pour les petites variantes.

Source : blog Qwen officiel.

Licence : Apache 2.0 pour les variantes jusqu'à 32B inclus, ce qui couvre l'ensemble de la gamme SLM. C'est un avantage concret pour les projets avec une licence commerciale sans discussion.

Quelle taille Qwen2.5 choisir ?

0,5B à 1,5B : vraiment ultra-légers, pour des tâches très simples en edge ou sur des appareils contraints. Performances limitées.
3B : point d'entrée raisonnable pour de la classification ou de l'extraction courte.
7B : le meilleur rapport dans la gamme Qwen pour des usages PME — 5 à 6 Go VRAM, bon multilingue, performances solides sur les tâches standard.
14B : concurrent direct de Mistral Small ou Phi-4 14B, nécessite un GPU d'environ 10 Go int4.

Le multilingue est un point fort de Qwen2.5 : la gamme gère officiellement un grand nombre de langues dont le français, l'arabe, le japonais et les principales langues européennes. Pour des entreprises avec des opérations multilingues, c'est un argument sérieux.

En revanche, pour du français professionnel pur (rédaction juridique, documents administratifs), Mistral reste l'éditeur de référence. Qwen est plus fort sur des tâches multilingues mixtes ou sur du code.

Gemma 3 — multimodal léger de Google

Gemma 3 est la famille de modèles open weights de Google DeepMind. Dans la gamme SLM, les variantes pertinentes sont :

Gemma 3 1B : texte uniquement, fenêtre de 32K tokens, optimisé pour le déploiement on-device (téléphone, CPU). Le plus léger de la gamme.
Gemma 3 4B : multimodal (texte + image), fenêtre de 128K tokens. C'est ici que la famille devient vraiment intéressante pour les PME.
Gemma 3 12B : frontière haute de la gamme SLM de Google, multimodal, concurrent direct de Ministral 8B et Phi-4 14B.

Source : documentation officielle Gemma 3.

Ce qui rend Gemma 3 4B particulièrement intéressant : les capacités multimodales dès 4 milliards de paramètres avec seulement 3 à 4 Go de VRAM int4. Pour extraire des informations depuis des images de documents (factures scannées, formulaires papier photographiés), c'est une fenêtre d'entrée accessible qu'aucun autre modèle de ce comparatif n'offre à cette taille.

Limite à connaître : la licence Gemma n'est pas Apache 2.0. Les Gemma Terms of Use autorisent l'usage commercial mais interdisent d'utiliser les sorties pour entraîner des modèles destinés à concurrencer les produits Google. À lire avant un déploiement en production. Le français est correct mais secondaire dans le corpus — Mistral reste supérieur sur la langue.

SmolLM2 & Llama 3.2 — ultra-légers pour l'edge

SmolLM2 (HuggingFace)

SmolLM2 est la réponse de HuggingFace aux besoins de déploiement on-device extrême. La gamme propose trois tailles : 135M, 360M et 1,7B de paramètres. Licence Apache 2.0 dans tous les cas.

À 1,7 milliards de paramètres, SmolLM2 tient dans moins d'un gigaoctet de VRAM — voire tourne directement sur un CPU de smartphone. C'est un cas d'usage différent de tous les autres modèles de ce comparatif : on n'est plus sur un serveur ou un PC de bureau, mais sur un appareil embarqué, une application mobile ou un système temps réel à contrainte forte.

La contrepartie est claire : les performances sur des tâches complexes sont limitées. SmolLM2 est fait pour des tâches très ciblées et bien définies (complétion de formulaire, génération de réponse courte, classification binaire), pas pour de la génération libre ou du raisonnement.

Llama 3.2 1B & 3B (Meta)

Meta a publié les variantes compactes de Llama 3.2 en septembre 2024. Ces modèles de 1 et 3 milliards de paramètres partagent les mêmes caractéristiques que la famille Llama 3 : multilingue, fenêtre de contexte 128K tokens, et la Llama Community License (usage commercial autorisé sans redevance pour la grande majorité des cas).

La force de Llama 3.2 1B/3B est l'écosystème : des milliers de fine-tunes sectoriels existent déjà sur HuggingFace, certains déjà adaptés à des domaines spécifiques (médical, juridique, finance). Si vous cherchez un modèle pré-adapté à votre secteur en taille compacte, c'est là qu'il faut chercher en premier.

Le français de Llama 3.2 est bon — moins nuancé que Ministral sur des textes professionnels complexes, mais largement suffisant pour des usages courants de traitement documentaire.

Comment choisir son SLM pour une PME

Quelques questions simples pour orienter le choix :

Arbre de décision SLM

1
Le français professionnel est crucial ? Commencer par Ministral 8B (si GPU 6 Go+) ou Mistral Small 3.2 (si GPU 16 Go+). L'éditeur français et le corpus d'entraînement font la différence sur les textes juridiques, comptables ou administratifs.
2
Contrainte matérielle extrême (CPU ou <3 Go VRAM) ? SmolLM2 1,7B (Apache 2.0) pour des tâches très ciblées, ou Phi-4-mini (~2-2,5 Go VRAM) pour plus de polyvalence.
3
Besoin de multimodal (images + texte) sur un GPU léger ? Gemma 3 4B est le seul modèle compact de ce comparatif à offrir cette combinaison dès 3 Go VRAM.
4
Usage multilingue (hors français dominant) ou code ? Qwen2.5 7B ou 14B, avec Apache 2.0 sur toute la gamme SLM et un corpus d'entraînement massif.
5
Besoin d'un fine-tune sectoriel existant ? Llama 3.2 3B a l'écosystème le plus large de fine-tunes pré-faits sur HuggingFace.
6
Priorité à la licence la plus libre (MIT) ? Phi-4-mini est le seul modèle de ce comparatif sous MIT avec une fenêtre 128K — utilisable sans aucune condition dans n'importe quel produit commercial ou redistribution.

Si votre contrainte dominante est la souveraineté et le RGPD (ce qui est le cas de la majorité des PME que l'on accompagne sur des données sensibles), l'angle est différent : le bon SLM est celui qui se déploie on-premise ou sur cloud souverain, avec un éditeur européen de préférence. Ministral ou Mistral Small 3.2 cochent toutes ces cases. Notre offre expert IA générative et LLM couvre exactement ce type de déploiement — sélection du modèle, infrastructure, RAG sur vos données internes.

Limites réelles des SLM — ce qu'il ne faut pas leur demander

Soyons directs : un SLM n'est pas un LLM en réduction. C'est un outil différent, avec des cas d'usage différents. Les confondre génère des projets décevants.

Ce qu'un SLM fait mal, comparé à un Llama 3.3 70B ou un Mistral Large 2 :

Raisonnement long et multi-étapes. Demander à un modèle 3B de raisonner sur un problème complexe en plusieurs étapes donne souvent des résultats instables. Les SLM excellent sur des tâches délimitées, pas sur des chaînes de pensée longues.
Génération de documents longs et cohérents. Un rapport de 10 pages, une analyse financière structurée, un contrat complet : la cohérence sur de longues sorties est meilleure sur les grands modèles.
Compréhension de contextes très longs. Même si la fenêtre de contexte affiche 128K, les modèles compacts "oublient" plus facilement les informations en début de contexte sur les longues séquences.
Instructions complexes et multi-contraintes. "Fais X mais pas Y, en tenant compte de Z, sauf si W" — les SLM suivent moins fiablement les instructions avec de nombreuses contraintes croisées.

Ce qu'un SLM fait bien, souvent aussi bien qu'un grand modèle :

Classification sur un nombre limité de catégories bien définies.
Extraction d'entités nommées depuis des documents courts.
Résumé de documents de longueur standard.
Génération de texte court et répétitif (emails types, descriptions produit).
Conversion de format (JSON depuis du texte non structuré).

Et quand un SLM fine-tuné sur vos données métier est comparé à un grand modèle généraliste sur la même tâche, il gagne souvent. C'est là que le rapport qualité/coût devient imbattable. Pour en savoir plus sur quand et comment fine-tuner, notre article sur les SLM vs LLM pour les PME et notre guide sur la quantization int4 et GGUF couvrent les détails pratiques.

Pour aller plus loin

Qu'est-ce qu'un SLM et pour quel usage en entreprise : définition, cas d'usage et positionnement par rapport aux LLM.
Top modèles LLM open-source pour l'entreprise : le comparatif complet incluant les grands modèles (70B, 123B, 405B) pour des besoins plus complexes.
Ministral et Mistral Small : guide complet des SLM français : architecture, licences, benchmarks et cas d'usage détaillés.
SLM vs LLM : quel modèle choisir pour votre PME : arbre de décision selon vos contraintes GPU, budget et cas d'usage.
Quantization LLM : guide GGUF et int4 : comment réduire l'empreinte GPU d'un modèle sans dégrader les performances.
Top serveurs d'inférence LLM open source : vLLM, Ollama, llama.cpp — quel framework pour servir un SLM en production.
Annonce officielle Ministraux (Mistral AI) : détails d'architecture et cas d'usage des Ministral 3B et 8B.
Fiche HuggingFace Phi-4-mini-instruct (Microsoft) : spécifications techniques et exemples d'usage.

Vous hésitez encore ?

Discutons de votre cas d'usage. 30 minutes pour identifier le bon SLM et l'architecture adaptée à votre contrainte.

Réserver un échange

En résumé — petits modèles, vrais résultats

Les SLM de 2026 ne sont pas des compromis par défaut. Sur des tâches ciblées — extraction, classification, résumé, génération courte — un Ministral 8B ou un Phi-4-mini fine-tuné sur vos données fait souvent mieux qu'un grand modèle généraliste, à un coût d'infrastructure sans commune mesure.

Le bon choix dépend de trois critères concrets : votre GPU disponible, votre besoin de qualité en français, et la complexité réelle de votre tâche. Pour de la souveraineté et du français professionnel, Mistral reste la référence. Pour de la licence MIT sans friction, Phi-4-mini. Pour de la gamme et du multilingue, Qwen2.5. Pour du multimodal léger, Gemma 3 4B.

Ce qui ne change pas : un SLM mal calibré sur la mauvaise tâche donne de mauvais résultats, quelle que soit la qualité du modèle. Définir précisément la tâche avant de choisir le modèle — c'est toujours la première étape.

Top SLM 2026 : les meilleurs petits modèles de langage

Tableau comparatif des meilleurs SLM 2026

Ministral 3B & 8B — la référence SLM française

Ministral 3B : le plus libre, le plus léger

Ministral 8B : mieux sur les longues séquences

Mistral Small 3.2 (24B) — la frontière haute du SLM

Phi-4-mini — le plus compact sur le raisonnement

Qwen2.5 — la gamme la plus large

Quelle taille Qwen2.5 choisir ?

Gemma 3 — multimodal léger de Google

SmolLM2 & Llama 3.2 — ultra-légers pour l'edge

SmolLM2 (HuggingFace)

Llama 3.2 1B & 3B (Meta)

Comment choisir son SLM pour une PME

Limites réelles des SLM — ce qu'il ne faut pas leur demander

Pour aller plus loin

En résumé — petits modèles, vrais résultats

Vous voulez appliquer ça dans votre entreprise ?

Articles liés

SLM vs LLM : quel modèle d'IA choisir en PME

SLM : le guide des Small Language Models en entreprise

SLM on-device : l'IA générative en local et en edge

Router SLM/LLM : l'architecture hybride qui réduit les coûts

Quantization de LLM : faire tourner un modèle sur petit GPU

Préparer un dataset de fine-tuning LLM : la méthode