Qu'est-ce qu'un SLM on-device ?

Un SLM on-device (Small Language Model embarqué) est un petit modèle de langage génératif qui s'exécute directement sur un appareil local — poste de travail, serveur interne, mobile ou équipement edge — sans envoyer aucune donnée vers un cloud externe. Ces modèles ont généralement entre 1 et 8 milliards de paramètres, quantifiés au format GGUF en INT4 ou INT8 pour tenir sur du matériel courant.

Quel matériel faut-il pour faire tourner un LLM en local ?

Un modèle 1B quantifié en INT4 nécessite environ 1 Go de RAM — un smartphone récent suffit. Un modèle 3-4B demande 2 à 4 Go, compatible avec un laptop récent de 8-16 Go de RAM en inférence CPU via llama.cpp. Un modèle 8B quantifié en INT4 nécessite 5 à 6 Go de VRAM, soit un GPU milieu de gamme (RTX 3060/4060) ou un Mac M2 avec 16 Go de RAM unifiée.

Ollama ou llama.cpp : lequel choisir pour l'IA en local ?

llama.cpp est le moteur d'inférence bas niveau en C++ qui exécute les modèles GGUF sur CPU et GPU, avec un contrôle fin des paramètres. Ollama est une surcouche qui s'appuie sur llama.cpp, ajoute une CLI et une API REST compatible OpenAI, et simplifie l'installation. Pour démarrer rapidement : Ollama. Pour un déploiement edge contraignant (ARM, Raspberry Pi, production) : llama.cpp directement.

Quels modèles sont adaptés au on-device en entreprise en 2026 ?

Les modèles edge réalistes en 2026 sont : Llama 3.2 1B et 3B (Meta, polyvalents, légers), Ministral 3B (Mistral AI, excellent en français professionnel), Phi-4-mini (Microsoft, 3,8B, fort en raisonnement structuré), Gemma 3 1B et 4B (Google), Qwen2.5 0,5B à 3B (fort en multilingue), SmolLM2 de Hugging Face (135M à 1,7B, ultra-léger). Tous disponibles au format GGUF via Ollama ou llama.cpp.

L'IA on-device est-elle conforme au RGPD ?

Oui — c'est même l'un de ses avantages structurels. En mode on-device ou edge, aucune donnée ne quitte le périmètre de l'entreprise. Les textes traités ne transitent pas chez un fournisseur cloud tiers. Pour les secteurs sensibles (santé, juridique, défense, RH), cela supprime la question de la sous-traitance de traitement des données personnelles, contrairement aux API cloud (OpenAI, Anthropic, Google).

Quelles sont les principales limites d'un SLM on-device ?

Les limites sont réelles : qualité inférieure aux grands modèles cloud sur les tâches de raisonnement complexe, contexte souvent limité à 4K-8K tokens en pratique, vitesse plus lente sur CPU seul (3-10 tokens/s pour un 3B), maintenance des postes ou serveurs à charge de l'équipe IT, et inadaptation aux tâches de raisonnement lourd ou de génération longue qui nécessitent des modèles 70B+.

Peut-on faire du RAG avec un modèle on-device ?

Oui, et c'est un cas d'usage très pertinent pour les PME soucieuses de souveraineté. On couple un SLM local (Ollama ou llama.cpp) avec une base vectorielle locale (ChromaDB, Qdrant en mode local) et un pipeline de retrieval. Le tout tourne sur un serveur interne sans aucun flux sortant. Les résultats sont corrects pour des tâches de Q&A sur documents structurés avec un modèle 3B minimum et des chunks bien découpés.

SLM on-device : l'IA générative en local et en edge

SLM on-device IA embarquée edge — faire tourner un petit modèle de langage en local sur poste ou serveur sans cloud

Un SLM on-device, c'est un modèle de langage qui tourne directement sur votre poste, votre serveur local ou un équipement edge — sans envoyer une seule ligne de texte vers un cloud externe. Latence quasi nulle, confidentialité native, zéro coût marginal d'API après la mise en place, fonctionnement hors ligne garanti. Sur du matériel courant avec 8 à 16 Go de RAM, un modèle 1B à 4B quantifié en GGUF tourne aujourd'hui sans GPU dédié.

Ce guide vous montre concrètement comment faire tourner un LLM en local : pourquoi c'est pertinent pour une PME, quels outils choisir (Ollama, llama.cpp), quels modèles fonctionnent sur quel matériel, et surtout où s'arrêtent honnêtement les capacités de l'IA edge — pour ne pas l'appliquer là où elle ne conviendra pas.

Pourquoi exécuter un modèle IA en local plutôt que dans le cloud

La plupart des démonstrations IA se font via une API cloud. C'est pratique, rapide à prototyper — et ça masque complètement ce qui se passe côté données. Pour beaucoup de PME, ce modèle suffit. Pour d'autres, il pose trois problèmes concrets.

Confidentialité et RGPD. Dès qu'un document client, un contrat ou un email interne passe dans un appel API, il transite sur des serveurs tiers. Pour les secteurs réglementés (santé, juridique, finance, défense industrielle), c'est souvent un blocage net. En local, les données ne sortent jamais du périmètre de l'entreprise — c'est une architecture qui supprime le problème structurellement, pas un engagement contractuel.

Latence et fonctionnement hors ligne. Une inférence locale sur un bon GPU prend moins d'une seconde pour un modèle 3B. Pas d'aller-retour réseau, pas de dépendance à la disponibilité d'une API tierce. Sur un site industriel avec une connexion fragile, dans un outil embarqué sur mobile ou dans un environnement avec exigences de latence strictes — c'est souvent non-négociable.

Coût marginal zéro. Une fois le modèle installé, chaque inférence est gratuite. Pour des usages à fort volume sur des tâches simples (classification de documents, extraction de champs, reformulation courte en lot), le on-device devient économiquement imbattable face à des APIs facturées au token dès quelques dizaines de milliers d'appels par mois.

Ollama et llama.cpp : les deux outils de référence pour le LLM en local

Deux outils concentrent la quasi-totalité des déploiements on-device sérieux en 2026. Ils ne sont pas interchangeables.

llama.cpp : le moteur d'inférence bas niveau

llama.cpp, développé par Georgi Gerganov, est le moteur d'inférence open source écrit en C++ qui a rendu le on-device viable sur CPU. Il exécute les modèles au format GGUF sur x86, ARM, Apple Silicon et même WASM. Pas de dépendance Python, pas d'overhead de framework — juste du C++ optimisé avec support BLAS, CUDA et Metal.

Pour un déploiement edge en production avec des contraintes de matériel précises (Raspberry Pi, Jetson Orin, serveur ARM), ou quand on veut contrôler finement les threads CPU, les couches GPU, le contexte et les paramètres de sampling — c'est la bonne brique. La contrepartie : il faut gérer soi-même le téléchargement des modèles et les paramètres d'exécution.

Ollama : l'accès le plus rapide pour commencer

Ollama est une surcouche qui s'appuie sur llama.cpp et ajoute une couche de gestion : CLI simple, téléchargement des modèles depuis un registry, et une API REST locale compatible avec le format OpenAI. En une commande — ollama run phi4-mini — un modèle tourne et expose une API sur localhost:11434.

Cette compatibilité API OpenAI est le vrai atout : la plupart des frameworks (LangChain, LlamaIndex, LiteLLM) et des applications qui pointaient vers l'API d'OpenAI s'y connectent sans modifier le code. Pour prototyper rapidement, valider un modèle sur vos données ou mettre en place un assistant interne sans équipe DevOps dédiée, Ollama est la meilleure porte d'entrée.

LM Studio et les outils mobiles

LM Studio est une application desktop avec interface graphique pour télécharger et tester des modèles GGUF, utile pour les équipes non-techniques en phase d'évaluation. Sur mobile, llama.cpp existe en version iOS/Android, et MLC (Machine Learning Compilation) propose des runtimes optimisés pour les accélérateurs ARM des smartphones. Les usages restent limités aux modèles 1B maximum sur la plupart des appareils, mais les premières applications edge embarquées réelles tournent déjà dessus.

Quels modèles sont réalistes pour une IA on-device en entreprise ?

Soyons précis sur ce qui existe en juin 2026. Les modèles "edge" crédibles se situent tous entre 500M et 8B paramètres, utilisés au format GGUF quantifié.

En INT4 (Q4_K_M), les besoins mémoire sont les suivants : un modèle 1B pèse environ 1 Go, un 3-4B entre 2 et 4 Go, un 8B entre 5 et 6 Go. Ces chiffres déterminent ce que votre matériel peut faire tourner.

Les candidats on-device validés en 2026 :

Llama 3.2 1B et 3B (Meta) — bonne qualité générale pour la taille, multilingue correct. Le 3B est le modèle le plus polyvalent pour les tâches de Q&A et de reformulation on-device.
Ministral 3B (Mistral AI) — performant en français professionnel pour 3B. Notre recommandation pour les PME françaises avec des documents métier en français.
Phi-4-mini (Microsoft, 3,8B) — performances étonnantes sur les tâches de raisonnement structuré et d'extraction JSON pour sa taille. Le meilleur candidat quand le 3B généraliste ne suffit plus.
Gemma 3 1B et 4B (Google) — architecture optimisée pour l'inférence CPU, bonne documentation, convient bien aux environnements contraints.
Qwen2.5 0,5B à 3B (Alibaba) — fort en multilingue dont le français, excellent sur les tâches structurées (code, JSON, SQL).
SmolLM2 (Hugging Face, 135M à 1,7B) — ultra-léger, conçu explicitement pour le on-device. Qualité limitée mais latence minimale, parfait pour des appareils très contraints.

Pour un comparatif complet avec benchmarks et licences, voir notre article sur les meilleurs SLM en 2026 et notre présentation des SLM pour l'entreprise.

Tableau matériel → modèle réaliste

La question concrète : est-ce que ça tourne sur mon matériel ? Voici les correspondances basées sur les contraintes réelles de RAM et VRAM en quantification INT4, avec des vitesses de génération suffisantes pour un usage interactif.

Matériel	RAM / VRAM disponible	Modèle recommandé	Format GGUF	Tokens/s approx.
Laptop récent, CPU seul, 8 Go RAM	~4 Go utilisables	SmolLM2 1,7B, Llama 3.2 1B	Q4_K_M	3–8 t/s
Laptop récent, CPU seul, 16 Go RAM	~8–10 Go utilisables	Llama 3.2 3B, Phi-4-mini, Ministral 3B	Q4_K_M	5–12 t/s
Mac Apple Silicon M2/M3, 16 Go RAM unifiée	~12 Go utilisables	Llama 3.2 3B, Phi-4-mini, Gemma 3 4B	Q4_K_M	30–60 t/s
PC avec GPU NVIDIA RTX 3060/4060 (12 Go VRAM)	12 Go VRAM	Llama 3.2 8B, Mistral 7B Q4	Q4_K_M	40–80 t/s
Serveur edge (Jetson Orin, 32 Go)	~24 Go utilisables	Llama 3.2 8B, Ministral 8B	Q4_K_M	15–35 t/s
Mini-PC ARM / Raspberry Pi 5	4–8 Go RAM	Llama 3.2 1B, Qwen2.5 0,5B	Q4_0	2–6 t/s
Smartphone récent (ARM, 8–12 Go RAM)	~2–3 Go utilisables	SmolLM2 135M–360M (via MLC)	Q4_0	3–8 t/s

Le seuil acceptable pour un usage interactif (assistant texte) est généralement autour de 10 tokens/seconde. En dessous, c'est utilisable pour du traitement par lot (classification, extraction en différé), mais frustrant en interactif. La RAM unifiée des puces Apple Silicon est particulièrement efficace pour le on-device : le GPU et le CPU partagent la même mémoire, ce qui élimine les copies de données et explique les vitesses élevées malgré l'absence de GPU discret.

Pour les configurations qui dépassent le on-device et nécessitent un serveur GPU dédié, notre guide de déploiement LLM en production couvre les configurations datacenter — un périmètre différent de l'edge et du local traités ici.

Cas d'usage concrets : où le on-device tient vraiment ses promesses

Trois usages reviennent régulièrement sur les projets que nous accompagnons.

RAG souverain sur données confidentielles

Un cabinet juridique ou une équipe RH qui traite des données personnelles ne peut pas envoyer ces documents vers une API externe. En couplant un SLM local via Ollama avec une base vectorielle hébergée sur le même serveur interne (ChromaDB, Qdrant en mode local), on construit un assistant documentaire capable de répondre à des questions sur des fiches de poste, des évaluations ou des contrats — sans qu'une seule donnée ne sorte du réseau interne. Pour l'architecture complète d'un tel système, notre guide sur le RAG souverain avec Mistral détaille les choix techniques.

Traitement de documents en lot sur site industriel

Un bureau d'études qui extrait des entités de plans techniques ou de rapports d'inspection. Les plans sont confidentiels, le site peut être hors réseau. Un serveur local avec un modèle 7B Q4 tourne des pipelines d'extraction la nuit sur les documents de la journée. Résultat le matin, zéro octet sorti vers l'extérieur. Le modèle ne comprend pas les plans CAO complexes — mais il extrait des champs structurés depuis des rapports texte associés, et c'est déjà beaucoup.

Assistance rédactionnelle hors ligne

Ollama exposé localement avec une intégration dans VS Code ou un éditeur métier. Un développeur ou un rédacteur qui travaille sans internet conserve un assistant IA opérationnel. Un modèle 3B suffit pour la complétion de code simple, les reformulations courtes et les réponses à des questions sur la documentation locale.

Les limites réelles : ce qu'il ne faut pas attendre d'un SLM on-device

Le on-device n'est pas une solution universelle. Voici les limites structurelles à nommer avant de décider.

Qualité plafonnée sur les tâches complexes. Un Llama 3.2 3B n'est pas GPT-4o. Sur des tâches de raisonnement multi-étapes, d'analyse juridique fine, de synthèse de documents longs ou de génération créative avancée, la différence est réelle et mesurable. Le on-device est pertinent sur des tâches délimitées et répétitives — extraction, classification, reformulation courte — pas sur des requêtes ouvertes complexes. À tester impérativement sur votre cas d'usage réel avant de décider : pas les benchmarks génériques, vos données à vous.

Contexte limité en pratique. Les modèles on-device acceptent théoriquement de longues fenêtres de contexte, mais les performances chutent fortement au-delà de 8K tokens sur du matériel courant. Pour des documents longs, un pipeline RAG local avec découpage en chunks reste indispensable plutôt que de tout passer dans le contexte.

Vitesse sur CPU : acceptable pour du batch, lente en interactif. 5 à 12 tokens par seconde sur CPU avec un 3B, c'est tolérable pour de la génération en différé. Pour un chatbot interne utilisé en temps réel, c'est lent. Un GPU d'entrée de gamme (RTX 3060, 400–500 € d'occasion) change l'équation en passant à 40–80 tokens/s.

Maintenance à votre charge. Mises à jour des modèles, gestion des versions GGUF, déploiement sur plusieurs postes — rien ne se fait automatiquement. Sur 10 postes, c'est gérable avec Ollama. Sur 50, un serveur d'inférence centralisé on-premise est souvent plus rationnel qu'un déploiement distribué poste par poste. Notre comparatif des serveurs d'inférence LLM open source couvre cette alternative (vLLM, Ollama server, LMDeploy, Triton).

Pas adapté au raisonnement lourd. Les modèles de raisonnement type o1, o3 ou DeepSeek R1 nécessitent des architectures plus grandes. Les versions quantifiées qui tournent on-device perdent trop en qualité sur ces cas. Pour ces usages, un déploiement sur serveur GPU dédié reste nécessaire — les deux approches sont complémentaires.

Pour aller plus loin

Notre service d'expert en IA générative et déploiement LLM : de l'architecture on-device à l'intégration en production sur votre infrastructure.
Guide complet sur la quantisation LLM, GGUF et INT4 : niveaux de quantisation (Q4_K_M, Q5_K_M, Q8_0), compromis qualité/vitesse, comment choisir le bon format.
SLM pour l'entreprise : pourquoi les petits modèles de langage sont devenus crédibles en production en 2026.
Comparatif des meilleurs SLM en 2026 : benchmarks, licences et cas d'usage par modèle (Phi-4-mini, Ministral, Gemma 3, Qwen2.5…).
Comparatif des serveurs d'inférence LLM open source : Ollama, vLLM, Triton, LMDeploy — quand centraliser plutôt que distribuer poste par poste.
RAG souverain avec Mistral : combiner un SLM local avec une base documentaire interne sans aucun flux cloud.
Déployer un LLM en production : infrastructure GPU serveur, vLLM, coûts et monitoring — quand on sort du on-device pour un datacenter.
Ollama.com : documentation officielle, registry de modèles disponibles via ollama pull.
llama.cpp (GitHub) : le moteur C++ de référence pour l'inférence locale sur CPU et GPU.

Vous hésitez encore ?

On regarde ensemble si le on-device tient sur votre matériel et votre cas d'usage. 30 minutes suffisent.

Réserver un échange

En résumé : le on-device pour les tâches délimitées, le cloud pour le raisonnement lourd

Le SLM on-device n'est pas un gadget de puriste de la souveraineté. C'est une architecture viable, testée en production, qui résout de vrais problèmes : confidentialité des données, latence, fonctionnement hors ligne, coût marginal nul sur du volume. Ollama et llama.cpp ont rendu le déploiement accessible. Les modèles 1B à 8B quantifiés en GGUF tournent sur du matériel qu'on a déjà dans la plupart des PME.

La règle de décision est simple : tâche délimitée, répétitive, sur données sensibles ou sans connexion fiable — on-device. Raisonnement complexe, documents longs, contexte étendu, volume qui nécessite 70B+ — serveur GPU dédié ou API cloud. Les deux s'utilisent souvent ensemble sur des architectures hybrides où le on-device traite le volume courant et le cloud prend le relais sur les cas difficiles.

Première étape concrète : identifier la tâche candidate, vérifier le tableau matériel ci-dessus, tester un modèle en 30 minutes avec Ollama. C'est ce qu'on fait avant de recommander une architecture à un client.

SLM on-device : l'IA générative en local et en edge

Pourquoi exécuter un modèle IA en local plutôt que dans le cloud

Ollama et llama.cpp : les deux outils de référence pour le LLM en local

llama.cpp : le moteur d'inférence bas niveau

Ollama : l'accès le plus rapide pour commencer

LM Studio et les outils mobiles

Quels modèles sont réalistes pour une IA on-device en entreprise ?

Tableau matériel → modèle réaliste

Cas d'usage concrets : où le on-device tient vraiment ses promesses

RAG souverain sur données confidentielles

Traitement de documents en lot sur site industriel

Assistance rédactionnelle hors ligne

Les limites réelles : ce qu'il ne faut pas attendre d'un SLM on-device

Pour aller plus loin

En résumé : le on-device pour les tâches délimitées, le cloud pour le raisonnement lourd

Vous voulez appliquer ça dans votre entreprise ?

Articles liés

Top SLM 2026 : les meilleurs petits modèles de langage

SLM vs LLM : quel modèle d'IA choisir en PME

SLM : le guide des Small Language Models en entreprise

Router SLM/LLM : l'architecture hybride qui réduit les coûts

Quantization de LLM : faire tourner un modèle sur petit GPU

Préparer un dataset de fine-tuning LLM : la méthode