Qu'est-ce que la distillation d'un modèle LLM ?

La distillation de LLM est une technique qui consiste à faire apprendre un petit modèle (le student) depuis un grand modèle (le teacher), soit en lui faisant imiter ses sorties (distillation par génération de données synthétiques), soit en lui transmettant ses distributions de probabilités internes appelées soft labels ou logits. L'objectif est d'obtenir un modèle compact, rapide et moins coûteux à l'inférence, qui conserve une grande partie des capacités du gros modèle sur une tâche précise.

Quelle est la différence entre distillation et fine-tuning ?

Le fine-tuning part de vos propres données réelles pour spécialiser un modèle. La distillation, elle, utilise un gros modèle comme source de données : le teacher génère des exemples ou des distributions de probabilités que le student apprend à reproduire. Les deux peuvent se combiner : on distille d'abord pour créer un dataset synthétique, puis on fine-tune le student sur ce dataset. La distillation est particulièrement utile quand on n'a pas assez de données réelles annotées, mais qu'on a accès à un modèle teacher de qualité.

Peut-on distiller GPT-4 ou Claude pour créer son propre modèle ?

Non, pas légalement dans la plupart des cas. Les CGU d'OpenAI et d'Anthropic interdisent explicitement d'utiliser les sorties de leurs modèles pour entraîner des modèles concurrents. Utiliser GPT-4 ou Claude pour générer un dataset synthétique destiné à entraîner votre propre LLM est une violation de ces conditions d'utilisation. Les modèles open-weight comme Mistral Large, Llama 3 70B ou Qwen 72B ne posent pas ce problème pour la distillation, sous réserve de vérifier leurs licences respectives.

Quels outils utiliser pour distiller un LLM ?

Pour la distillation par données synthétiques (la plus accessible) : les frameworks de génération de datasets comme Distilabel (Argilla) ou LLM-Blender pour construire le dataset, puis les librairies de fine-tuning classiques (Unsloth, TRL, PEFT d'HuggingFace, Axolotl) pour entraîner le student. Pour la distillation de logits (plus complexe) : la librairie llm-distillation ou des implémentations custom avec PyTorch. L'évaluation avec LM-Evaluation-Harness (EleutherAI) ou un jeu de test métier maison reste indispensable dans les deux cas.

Distillation, fine-tuning ou RAG : que choisir pour une PME ?

RAG si votre besoin est de répondre à des questions sur vos documents internes — c'est le point de départ quasi-systématique. Fine-tuning sur vos données réelles si vous avez des centaines à milliers d'exemples annotés et un comportement très spécifique à ancrer. Distillation si vous voulez un SLM performant sur une tâche précise mais n'avez pas assez de données réelles, ou si vous voulez compresser un modèle teacher open-weight que vous utilisez déjà. Les trois approches peuvent se combiner : RAG pour la connaissance documentaire, distillation pour le comportement.

La qualité d'un modèle distillé peut-elle dépasser celle du teacher ?

Non. C'est la règle fondamentale de la distillation : la qualité du teacher est le plafond absolu du student. Si le teacher se trompe ou hallucine, le student apprend ces erreurs. En pratique, un student bien distillé atteint 80 à 95 % des performances du teacher sur la tâche ciblée, avec un modèle 5 à 20 fois plus petit. C'est pourquoi le choix et l'évaluation du teacher est la décision la plus importante du projet.

Combien coûte un projet de distillation de LLM ?

Un projet complet de distillation par génération de données synthétiques (teacher open-weight + student 7-14B) coûte généralement entre 5 000 et 30 000 € selon la complexité de la tâche et le volume de données à générer. Le poste le plus variable est la génération du dataset synthétique (coût d'inférence du teacher) et l'évaluation. La distillation de logits est plus technique et donc souvent plus chère en ingénierie, mais moins coûteuse en génération de données.

Distillation de LLM : créer un petit modèle expert

Distillation de modèles LLM en entreprise — le modèle teacher transfère son savoir au modèle student

La distillation de LLM, c'est simple sur le papier : un gros modèle teacher (GPT-4, Mistral Large, Llama 3 70B) génère des données ou transmet ses distributions internes à un petit modèle student (Mistral 7B, Phi-3, Qwen 2.5 3B) qui apprend à imiter ses capacités sur une tâche précise. Le résultat : un SLM rapide, souverain et peu coûteux à l'inférence, qui atteint 80 à 95 % des performances du teacher sur ce périmètre délimité.

Pourquoi ça intéresse de plus en plus d'entreprises en 2026 ? Parce que les API des gros modèles coûtent cher à l'échelle, que la souveraineté des données devient un critère bloquant dans beaucoup de secteurs, et qu'un modèle distillé déployé sur votre infrastructure est 10 à 50 fois moins cher à faire tourner qu'un appel GPT-4 en prod. Mais la distillation n'est pas une baguette magique, et il y a des pièges sérieux — notamment sur les licences et les CGU des modèles teacher.

Distillation de LLM : les deux grandes familles de méthodes

La distillation de modèle LLM recouvre deux approches bien distinctes. Les confondre est la première erreur de chantier.

Distillation par génération de données synthétiques

C'est la méthode la plus accessible, et de loin la plus utilisée en pratique en 2026. Le principe : on fait appel au teacher pour générer un grand volume d'exemples input/output sur la tâche cible, et on fine-tune ensuite le student sur ce dataset synthétique.

Exemple concret : vous voulez un SLM capable de classer des emails SAV en 15 catégories métier. Vous envoyez 10 000 emails réels à Mistral Large (teacher), vous collectez ses classifications avec ses justifications, et vous entraînez Mistral 7B (student) sur ce dataset. Le student apprend à raisonner comme le teacher sur cette tâche précise.

Avantages : aucune modification de l'architecture du student, les outils de fine-tuning classiques suffisent (Unsloth, TRL, Axolotl), et la technique est applicable même sans accès aux poids internes du teacher.

Distillation de logits (soft labels)

La technique originelle, décrite par Hinton et al. en 2015. Le teacher ne fournit pas juste sa réponse finale, mais sa distribution de probabilités complète sur le vocabulaire à chaque étape de génération — ce qu'on appelle les logits ou soft labels. Le student apprend à reproduire cette distribution, pas juste le token le plus probable.

Pourquoi c'est plus riche ? Parce que les probabilités du teacher encodent ses "doutes" : si le teacher hésite entre "résiliation" et "modification" dans 30 % des cas, le student capture cette nuance. Avec la réponse finale seule (hard label), cette information est perdue.

Contrainte forte : il faut accès aux logits du teacher, donc à ses poids. Impossible avec GPT-4 ou Claude via API. Uniquement faisable avec des modèles open-weight comme Mistral, Llama ou Qwen. C'est aussi plus exigeant en compute et en ingénierie.

Le piège des licences et CGU : la question à régler en premier

Soyons honnêtes sur ce point, parce que personne ne le dit assez clairement : utiliser GPT-4, Claude ou Gemini pour générer un dataset destiné à entraîner votre propre modèle est une violation des CGU de ces providers.

OpenAI l'interdit explicitement dans ses conditions d'utilisation : "You may not use output from the Services to develop models that compete with OpenAI." Anthropic a des restrictions similaires. En pratique, beaucoup d'équipes ont fait ça en ignorant les implications — ça n'en fait pas une bonne idée pour une entreprise exposée.

Les modèles open-weight ne posent pas ce problème pour la distillation, à condition de vérifier leurs licences :

Mistral (7B, NeMo, Large) : Apache 2.0 pour les petits, licence commerciale spécifique pour Mistral Large — vérifier si la distillation est couverte.
Llama 3 (Meta) : licence Meta autorisant l'usage commercial et la distillation, avec des restrictions sur la redistribution si votre dérivé dépasse 700M d'utilisateurs mensuels.
Qwen 2.5 (Alibaba) : Apache 2.0 pour les versions jusqu'à 72B — le plus permissif du marché à ce jour pour la distillation.
DeepSeek R1/V3 : licence MIT — la plus permissive, et ses modèles sont de très bons teachers pour le raisonnement.

Règle simple : si votre teacher est accessible uniquement via API fermée, n'utilisez pas ses sorties pour entraîner un modèle. Choisissez un teacher open-weight de qualité équivalente.

Distillation, fine-tuning classique ou RAG : tableau de décision

C'est la question qu'on nous pose le plus souvent. Voici une grille honnête, sans marketing autour.

Critère	RAG	Fine-tuning sur données réelles	Distillation
Accès à des documents internes évolutifs	Idéal	Inadapté	Inadapté
Données réelles annotées disponibles (≥500)	—	Idéal	Optionnel
Peu ou pas de données réelles annotées	—	Risqué	Idéal
Tâche répétitive et stable	Partiel	Fort	Fort
Souveraineté / déploiement on-premise	Fort	Fort	Fort
Coût d'inférence minimal à l'échelle	Moyen	Fort (SLM)	Fort (SLM)
Temps de mise en œuvre	Semaines	Semaines	Semaines à mois
Accès aux poids du teacher requis	Non	Non	Non (données synth.) / Oui (logits)

En pratique, on voit souvent des architectures hybrides : RAG pour la connaissance documentaire, SLM distillé pour le comportement et le style. Ce sont deux problèmes différents et les deux approches se complètent bien.

Quand la distillation vaut le coup pour une entreprise

Trois situations où la distillation est clairement le bon choix, tiré de projets en production.

Vous déployez massivement un cas d'usage précis

Vous traitez un million de documents par mois avec un gros modèle via API. Le coût est devenu visible dans votre budget cloud. Un SLM distillé déployé sur une instance GPU dédiée peut diviser ce coût par 10 à 20. Le calcul est simple : si le coût mensuel API dépasse quelques milliers d'euros et que la tâche est stable, la distillation s'amortit souvent en quelques mois.

Vous n'avez pas de données réelles suffisantes pour un fine-tuning classique

Un dataset de fine-tuning de qualité exige généralement quelques centaines à milliers d'exemples annotés par des experts métier. C'est long et cher à constituer. La distillation contourne partiellement ce problème : le teacher génère les exemples d'entraînement à votre place, à partir de vos données non annotées ou de prompts représentatifs. Vous économisez le coût d'annotation, pas le coût d'évaluation — et la différence est importante.

Vous voulez un modèle embarqué ou edge

Déployer un LLM sur des appareils avec peu de VRAM (stations industrielles, appareils médicaux, postes sans GPU), ou nécessiter une latence inférieure à la seconde en local : la distillation vers un SLM de 1 à 3 milliards de paramètres est souvent le seul chemin viable. Des modèles comme Phi-4 Mini (Microsoft) ou Qwen 2.5 1.5B ont été en partie construits via ces techniques et tournent sur CPU dans des configurations acceptables.

Les outils et méthodes concrets pour distiller un LLM

Le marché des outils a beaucoup évolué en 2025-2026. Voici ce qu'on utilise et recommande.

Pour la génération du dataset synthétique

Distilabel (Argilla) est devenu la référence open source pour la génération de datasets synthétiques via LLM. Il permet de définir des pipelines de génération multi-étapes (génération par le teacher, critique, filtrage qualité) avec une bonne reproductibilité. C'est notre outil par défaut pour cette étape.

Pour les tâches de raisonnement, DeepSeek R1 (modèle open-weight, licence MIT) s'est imposé comme un teacher de qualité exceptionnelle sur les tâches logiques et mathématiques — avec des performances proches de o1 sur certains benchmarks, sans contrainte de licence.

Pour l'entraînement du student

Unsloth reste le choix le plus rapide pour fine-tuner des modèles jusqu'à 14B paramètres sur GPU consumer ou cloud A100. Il supporte LoRA et QLoRA, réduit la consommation mémoire de 60 à 70 % par rapport aux implémentations naïves, et s'intègre directement avec HuggingFace. Pour les modèles plus grands (30B+), Axolotl est plus flexible.

La librairie TRL (HuggingFace) implémente nativement la perte de distillation de logits (GKD — Generalized Knowledge Distillation) depuis sa version 0.9 — c'est la référence pour la distillation de logits quand vous avez accès aux poids du teacher.

Pour l'évaluation

L'évaluation est l'étape que l'on sous-estime systématiquement. Deux niveaux indispensables : les benchmarks automatiques via LM-Evaluation-Harness (EleutherAI) pour les métriques standardisées, et surtout un jeu de test métier maison validé par vos experts — les benchmarks publics ne mesurent pas ce qui compte pour votre tâche. On ne bascule jamais en production sans validation humaine d'un échantillon représentatif.

Les pièges à éviter : qualité, biais et évaluation

La distillation hérite des défauts du teacher. C'est la règle fondamentale, et elle a des implications concrètes souvent ignorées.

La qualité du teacher est le plafond absolu du student. Si votre teacher hallucine sur les questions de droit fiscal, votre student hallucine aussi. Si le teacher a des biais de représentation sur certaines catégories, le student les amplifie parfois. Un teacher à 85 % de précision sur votre tâche ne peut pas produire un student à 92 %.

Autre piège courant : la distribution des données synthétiques ne reflète pas toujours la distribution réelle de production. Si vous demandez au teacher de générer 10 000 exemples uniformément répartis sur 15 catégories, mais qu'en production 80 % des cas tombent dans 3 catégories, le student sera sur-entraîné sur les cas rares et sous-performant sur les cas fréquents. Il faut analyser la distribution réelle avant de concevoir le dataset.

Enfin, l'évaluation insuffisante. On mesure la précision globale, mais on ne regarde pas les erreurs par catégorie, par longueur d'entrée, par niveau de complexité. Un SLM distillé peut avoir 91 % de précision globale et 45 % de précision sur les cas ambigus — les plus importants dans votre métier. Les métriques agrégées masquent ces trous.

Pour aller plus loin sur la spécialisation de modèles et leur évaluation, notre guide sur le fine-tuning de LLM pour PME et la préparation du dataset couvrent les mêmes enjeux côté données réelles.

Pour aller plus loin

Notre service d'expert LLM et NLP : accompagnement de la distillation à la mise en production, modèles open-weight sur infrastructure souveraine.
SLM pour l'entreprise : pourquoi les petits modèles de langage deviennent incontournables en 2026.
Top SLM 2026 : comparatif des meilleurs petits modèles de langage pour les cas d'usage entreprise.
Fine-tuning LLM en PME : quand la distillation et quand le fine-tuning sur données réelles — les critères de décision.
Préparer un dataset de fine-tuning : les mêmes enjeux qualité s'appliquent au dataset synthétique généré par distillation.
Top modèles LLM open source pour l'entreprise : choisir le bon teacher parmi Mistral, Llama, Qwen, DeepSeek.
Guide LoRA et QLoRA : les mêmes techniques d'entraînement efficace s'utilisent pour l'étape de fine-tuning du student.
Orca : Progressive Learning from Complex Explanation Traces of GPT-4 (Microsoft Research, 2023) — la référence académique sur la distillation par données synthétiques pour les LLM.
Documentation GKD Trainer (TRL, HuggingFace) : implémentation de référence pour la distillation de logits.

Vous hésitez encore ?

Distillation, fine-tuning ou RAG ? 30 minutes pour cadrer la bonne approche sur votre cas d'usage.

Réserver un échange

En résumé : distiller un LLM, c'est utile — pas universel

La distillation de modèle LLM est une technique solide pour obtenir un SLM performant sur une tâche précise, sans avoir à collecter des milliers d'exemples annotés manuellement. Le teacher génère le savoir, le student l'absorbe et le compresse.

Mais les règles de base ne changent pas. La qualité du teacher plafonne le student. Les licences et CGU des modèles fermés interdisent la distillation sans accord explicite — un point souvent ignoré qui peut créer des problèmes juridiques. Et l'évaluation reste l'étape qu'on ne peut pas contourner : un SLM distillé en production sans jeu de test métier solide, c'est une bombe à retardement.

Pour les entreprises qui traitent des volumes importants sur des tâches stables et répétitives, la distillation combinée à un déploiement souverain représente un des meilleurs ROI qu'on peut obtenir sur un projet IA en 2026. Notre service d'expert LLM et NLP accompagne ce type de projet de bout en bout, du choix du teacher à la mise en production.

Distillation de LLM : créer un petit modèle expert

Distillation de LLM : les deux grandes familles de méthodes

Distillation par génération de données synthétiques

Distillation de logits (soft labels)

Le piège des licences et CGU : la question à régler en premier

Distillation, fine-tuning classique ou RAG : tableau de décision

Quand la distillation vaut le coup pour une entreprise

Vous déployez massivement un cas d'usage précis

Vous n'avez pas de données réelles suffisantes pour un fine-tuning classique

Vous voulez un modèle embarqué ou edge

Les outils et méthodes concrets pour distiller un LLM

Pour la génération du dataset synthétique

Pour l'entraînement du student

Pour l'évaluation

Les pièges à éviter : qualité, biais et évaluation

Pour aller plus loin

En résumé : distiller un LLM, c'est utile — pas universel

Vous voulez appliquer ça dans votre entreprise ?

Articles liés

Top SLM 2026 : les meilleurs petits modèles de langage

SLM vs LLM : quel modèle d'IA choisir en PME

SLM : le guide des Small Language Models en entreprise

SLM on-device : l'IA générative en local et en edge

Router SLM/LLM : l'architecture hybride qui réduit les coûts

Quantization de LLM : faire tourner un modèle sur petit GPU