La distillation de LLM, c'est simple sur le papier : un gros modèle teacher (GPT-4, Mistral Large, Llama 3 70B) génère des données ou transmet ses distributions internes à un petit modèle student (Mistral 7B, Phi-3, Qwen 2.5 3B) qui apprend à imiter ses capacités sur une tâche précise. Le résultat : un SLM rapide, souverain et peu coûteux à l'inférence, qui atteint 80 à 95 % des performances du teacher sur ce périmètre délimité.
Pourquoi ça intéresse de plus en plus d'entreprises en 2026 ? Parce que les API des gros modèles coûtent cher à l'échelle, que la souveraineté des données devient un critère bloquant dans beaucoup de secteurs, et qu'un modèle distillé déployé sur votre infrastructure est 10 à 50 fois moins cher à faire tourner qu'un appel GPT-4 en prod. Mais la distillation n'est pas une baguette magique, et il y a des pièges sérieux — notamment sur les licences et les CGU des modèles teacher.
Distillation de LLM : les deux grandes familles de méthodes
La distillation de modèle LLM recouvre deux approches bien distinctes. Les confondre est la première erreur de chantier.
Distillation par génération de données synthétiques
C'est la méthode la plus accessible, et de loin la plus utilisée en pratique en 2026. Le principe : on fait appel au teacher pour générer un grand volume d'exemples input/output sur la tâche cible, et on fine-tune ensuite le student sur ce dataset synthétique.
Exemple concret : vous voulez un SLM capable de classer des emails SAV en 15 catégories métier. Vous envoyez 10 000 emails réels à Mistral Large (teacher), vous collectez ses classifications avec ses justifications, et vous entraînez Mistral 7B (student) sur ce dataset. Le student apprend à raisonner comme le teacher sur cette tâche précise.
Avantages : aucune modification de l'architecture du student, les outils de fine-tuning classiques suffisent (Unsloth, TRL, Axolotl), et la technique est applicable même sans accès aux poids internes du teacher.
Distillation de logits (soft labels)
La technique originelle, décrite par Hinton et al. en 2015. Le teacher ne fournit pas juste sa réponse finale, mais sa distribution de probabilités complète sur le vocabulaire à chaque étape de génération — ce qu'on appelle les logits ou soft labels. Le student apprend à reproduire cette distribution, pas juste le token le plus probable.
Pourquoi c'est plus riche ? Parce que les probabilités du teacher encodent ses "doutes" : si le teacher hésite entre "résiliation" et "modification" dans 30 % des cas, le student capture cette nuance. Avec la réponse finale seule (hard label), cette information est perdue.
Contrainte forte : il faut accès aux logits du teacher, donc à ses poids. Impossible avec GPT-4 ou Claude via API. Uniquement faisable avec des modèles open-weight comme Mistral, Llama ou Qwen. C'est aussi plus exigeant en compute et en ingénierie.
Le piège des licences et CGU : la question à régler en premier
Soyons honnêtes sur ce point, parce que personne ne le dit assez clairement : utiliser GPT-4, Claude ou Gemini pour générer un dataset destiné à entraîner votre propre modèle est une violation des CGU de ces providers.
OpenAI l'interdit explicitement dans ses conditions d'utilisation : "You may not use output from the Services to develop models that compete with OpenAI." Anthropic a des restrictions similaires. En pratique, beaucoup d'équipes ont fait ça en ignorant les implications — ça n'en fait pas une bonne idée pour une entreprise exposée.
Les modèles open-weight ne posent pas ce problème pour la distillation, à condition de vérifier leurs licences :
- Mistral (7B, NeMo, Large) : Apache 2.0 pour les petits, licence commerciale spécifique pour Mistral Large — vérifier si la distillation est couverte.
- Llama 3 (Meta) : licence Meta autorisant l'usage commercial et la distillation, avec des restrictions sur la redistribution si votre dérivé dépasse 700M d'utilisateurs mensuels.
- Qwen 2.5 (Alibaba) : Apache 2.0 pour les versions jusqu'à 72B — le plus permissif du marché à ce jour pour la distillation.
- DeepSeek R1/V3 : licence MIT — la plus permissive, et ses modèles sont de très bons teachers pour le raisonnement.
Règle simple : si votre teacher est accessible uniquement via API fermée, n'utilisez pas ses sorties pour entraîner un modèle. Choisissez un teacher open-weight de qualité équivalente.
Distillation, fine-tuning classique ou RAG : tableau de décision
C'est la question qu'on nous pose le plus souvent. Voici une grille honnête, sans marketing autour.
| Critère | RAG | Fine-tuning sur données réelles | Distillation |
|---|---|---|---|
| Accès à des documents internes évolutifs | Idéal | Inadapté | Inadapté |
| Données réelles annotées disponibles (≥500) | — | Idéal | Optionnel |
| Peu ou pas de données réelles annotées | — | Risqué | Idéal |
| Tâche répétitive et stable | Partiel | Fort | Fort |
| Souveraineté / déploiement on-premise | Fort | Fort | Fort |
| Coût d'inférence minimal à l'échelle | Moyen | Fort (SLM) | Fort (SLM) |
| Temps de mise en œuvre | Semaines | Semaines | Semaines à mois |
| Accès aux poids du teacher requis | Non | Non | Non (données synth.) / Oui (logits) |
En pratique, on voit souvent des architectures hybrides : RAG pour la connaissance documentaire, SLM distillé pour le comportement et le style. Ce sont deux problèmes différents et les deux approches se complètent bien.
Quand la distillation vaut le coup pour une entreprise
Trois situations où la distillation est clairement le bon choix, tiré de projets en production.
Vous déployez massivement un cas d'usage précis
Vous traitez un million de documents par mois avec un gros modèle via API. Le coût est devenu visible dans votre budget cloud. Un SLM distillé déployé sur une instance GPU dédiée peut diviser ce coût par 10 à 20. Le calcul est simple : si le coût mensuel API dépasse quelques milliers d'euros et que la tâche est stable, la distillation s'amortit souvent en quelques mois.
Vous n'avez pas de données réelles suffisantes pour un fine-tuning classique
Un dataset de fine-tuning de qualité exige généralement quelques centaines à milliers d'exemples annotés par des experts métier. C'est long et cher à constituer. La distillation contourne partiellement ce problème : le teacher génère les exemples d'entraînement à votre place, à partir de vos données non annotées ou de prompts représentatifs. Vous économisez le coût d'annotation, pas le coût d'évaluation — et la différence est importante.
Vous voulez un modèle embarqué ou edge
Déployer un LLM sur des appareils avec peu de VRAM (stations industrielles, appareils médicaux, postes sans GPU), ou nécessiter une latence inférieure à la seconde en local : la distillation vers un SLM de 1 à 3 milliards de paramètres est souvent le seul chemin viable. Des modèles comme Phi-4 Mini (Microsoft) ou Qwen 2.5 1.5B ont été en partie construits via ces techniques et tournent sur CPU dans des configurations acceptables.
Les outils et méthodes concrets pour distiller un LLM
Le marché des outils a beaucoup évolué en 2025-2026. Voici ce qu'on utilise et recommande.
Pour la génération du dataset synthétique
Distilabel (Argilla) est devenu la référence open source pour la génération de datasets synthétiques via LLM. Il permet de définir des pipelines de génération multi-étapes (génération par le teacher, critique, filtrage qualité) avec une bonne reproductibilité. C'est notre outil par défaut pour cette étape.
Pour les tâches de raisonnement, DeepSeek R1 (modèle open-weight, licence MIT) s'est imposé comme un teacher de qualité exceptionnelle sur les tâches logiques et mathématiques — avec des performances proches de o1 sur certains benchmarks, sans contrainte de licence.
Pour l'entraînement du student
Unsloth reste le choix le plus rapide pour fine-tuner des modèles jusqu'à 14B paramètres sur GPU consumer ou cloud A100. Il supporte LoRA et QLoRA, réduit la consommation mémoire de 60 à 70 % par rapport aux implémentations naïves, et s'intègre directement avec HuggingFace. Pour les modèles plus grands (30B+), Axolotl est plus flexible.
La librairie TRL (HuggingFace) implémente nativement la perte de distillation de logits (GKD — Generalized Knowledge Distillation) depuis sa version 0.9 — c'est la référence pour la distillation de logits quand vous avez accès aux poids du teacher.
Pour l'évaluation
L'évaluation est l'étape que l'on sous-estime systématiquement. Deux niveaux indispensables : les benchmarks automatiques via LM-Evaluation-Harness (EleutherAI) pour les métriques standardisées, et surtout un jeu de test métier maison validé par vos experts — les benchmarks publics ne mesurent pas ce qui compte pour votre tâche. On ne bascule jamais en production sans validation humaine d'un échantillon représentatif.
Les pièges à éviter : qualité, biais et évaluation
La distillation hérite des défauts du teacher. C'est la règle fondamentale, et elle a des implications concrètes souvent ignorées.
La qualité du teacher est le plafond absolu du student. Si votre teacher hallucine sur les questions de droit fiscal, votre student hallucine aussi. Si le teacher a des biais de représentation sur certaines catégories, le student les amplifie parfois. Un teacher à 85 % de précision sur votre tâche ne peut pas produire un student à 92 %.
Autre piège courant : la distribution des données synthétiques ne reflète pas toujours la distribution réelle de production. Si vous demandez au teacher de générer 10 000 exemples uniformément répartis sur 15 catégories, mais qu'en production 80 % des cas tombent dans 3 catégories, le student sera sur-entraîné sur les cas rares et sous-performant sur les cas fréquents. Il faut analyser la distribution réelle avant de concevoir le dataset.
Enfin, l'évaluation insuffisante. On mesure la précision globale, mais on ne regarde pas les erreurs par catégorie, par longueur d'entrée, par niveau de complexité. Un SLM distillé peut avoir 91 % de précision globale et 45 % de précision sur les cas ambigus — les plus importants dans votre métier. Les métriques agrégées masquent ces trous.
Pour aller plus loin sur la spécialisation de modèles et leur évaluation, notre guide sur le fine-tuning de LLM pour PME et la préparation du dataset couvrent les mêmes enjeux côté données réelles.
Pour aller plus loin
- Notre service d'expert LLM et NLP : accompagnement de la distillation à la mise en production, modèles open-weight sur infrastructure souveraine.
- SLM pour l'entreprise : pourquoi les petits modèles de langage deviennent incontournables en 2026.
- Top SLM 2026 : comparatif des meilleurs petits modèles de langage pour les cas d'usage entreprise.
- Fine-tuning LLM en PME : quand la distillation et quand le fine-tuning sur données réelles — les critères de décision.
- Préparer un dataset de fine-tuning : les mêmes enjeux qualité s'appliquent au dataset synthétique généré par distillation.
- Top modèles LLM open source pour l'entreprise : choisir le bon teacher parmi Mistral, Llama, Qwen, DeepSeek.
- Guide LoRA et QLoRA : les mêmes techniques d'entraînement efficace s'utilisent pour l'étape de fine-tuning du student.
- Orca : Progressive Learning from Complex Explanation Traces of GPT-4 (Microsoft Research, 2023) — la référence académique sur la distillation par données synthétiques pour les LLM.
- Documentation GKD Trainer (TRL, HuggingFace) : implémentation de référence pour la distillation de logits.
Vous hésitez encore ?
Distillation, fine-tuning ou RAG ? 30 minutes pour cadrer la bonne approche sur votre cas d'usage.
En résumé : distiller un LLM, c'est utile — pas universel
La distillation de modèle LLM est une technique solide pour obtenir un SLM performant sur une tâche précise, sans avoir à collecter des milliers d'exemples annotés manuellement. Le teacher génère le savoir, le student l'absorbe et le compresse.
Mais les règles de base ne changent pas. La qualité du teacher plafonne le student. Les licences et CGU des modèles fermés interdisent la distillation sans accord explicite — un point souvent ignoré qui peut créer des problèmes juridiques. Et l'évaluation reste l'étape qu'on ne peut pas contourner : un SLM distillé en production sans jeu de test métier solide, c'est une bombe à retardement.
Pour les entreprises qui traitent des volumes importants sur des tâches stables et répétitives, la distillation combinée à un déploiement souverain représente un des meilleurs ROI qu'on peut obtenir sur un projet IA en 2026. Notre service d'expert LLM et NLP accompagne ce type de projet de bout en bout, du choix du teacher à la mise en production.