Tensoria
Parlez-nous de votre projet : 07 82 80 51 40
Outils & Modèles Par

Distillation de LLM : créer un petit modèle expert

Distillation de modèles LLM en entreprise — le modèle teacher transfère son savoir au modèle student

La distillation de LLM, c'est simple sur le papier : un gros modèle teacher (GPT-4, Mistral Large, Llama 3 70B) génère des données ou transmet ses distributions internes à un petit modèle student (Mistral 7B, Phi-3, Qwen 2.5 3B) qui apprend à imiter ses capacités sur une tâche précise. Le résultat : un SLM rapide, souverain et peu coûteux à l'inférence, qui atteint 80 à 95 % des performances du teacher sur ce périmètre délimité.

Pourquoi ça intéresse de plus en plus d'entreprises en 2026 ? Parce que les API des gros modèles coûtent cher à l'échelle, que la souveraineté des données devient un critère bloquant dans beaucoup de secteurs, et qu'un modèle distillé déployé sur votre infrastructure est 10 à 50 fois moins cher à faire tourner qu'un appel GPT-4 en prod. Mais la distillation n'est pas une baguette magique, et il y a des pièges sérieux — notamment sur les licences et les CGU des modèles teacher.

Distillation de LLM : les deux grandes familles de méthodes

La distillation de modèle LLM recouvre deux approches bien distinctes. Les confondre est la première erreur de chantier.

Distillation par génération de données synthétiques

C'est la méthode la plus accessible, et de loin la plus utilisée en pratique en 2026. Le principe : on fait appel au teacher pour générer un grand volume d'exemples input/output sur la tâche cible, et on fine-tune ensuite le student sur ce dataset synthétique.

Exemple concret : vous voulez un SLM capable de classer des emails SAV en 15 catégories métier. Vous envoyez 10 000 emails réels à Mistral Large (teacher), vous collectez ses classifications avec ses justifications, et vous entraînez Mistral 7B (student) sur ce dataset. Le student apprend à raisonner comme le teacher sur cette tâche précise.

Avantages : aucune modification de l'architecture du student, les outils de fine-tuning classiques suffisent (Unsloth, TRL, Axolotl), et la technique est applicable même sans accès aux poids internes du teacher.

Distillation de logits (soft labels)

La technique originelle, décrite par Hinton et al. en 2015. Le teacher ne fournit pas juste sa réponse finale, mais sa distribution de probabilités complète sur le vocabulaire à chaque étape de génération — ce qu'on appelle les logits ou soft labels. Le student apprend à reproduire cette distribution, pas juste le token le plus probable.

Pourquoi c'est plus riche ? Parce que les probabilités du teacher encodent ses "doutes" : si le teacher hésite entre "résiliation" et "modification" dans 30 % des cas, le student capture cette nuance. Avec la réponse finale seule (hard label), cette information est perdue.

Contrainte forte : il faut accès aux logits du teacher, donc à ses poids. Impossible avec GPT-4 ou Claude via API. Uniquement faisable avec des modèles open-weight comme Mistral, Llama ou Qwen. C'est aussi plus exigeant en compute et en ingénierie.

Le piège des licences et CGU : la question à régler en premier

Soyons honnêtes sur ce point, parce que personne ne le dit assez clairement : utiliser GPT-4, Claude ou Gemini pour générer un dataset destiné à entraîner votre propre modèle est une violation des CGU de ces providers.

OpenAI l'interdit explicitement dans ses conditions d'utilisation : "You may not use output from the Services to develop models that compete with OpenAI." Anthropic a des restrictions similaires. En pratique, beaucoup d'équipes ont fait ça en ignorant les implications — ça n'en fait pas une bonne idée pour une entreprise exposée.

Les modèles open-weight ne posent pas ce problème pour la distillation, à condition de vérifier leurs licences :

  • Mistral (7B, NeMo, Large) : Apache 2.0 pour les petits, licence commerciale spécifique pour Mistral Large — vérifier si la distillation est couverte.
  • Llama 3 (Meta) : licence Meta autorisant l'usage commercial et la distillation, avec des restrictions sur la redistribution si votre dérivé dépasse 700M d'utilisateurs mensuels.
  • Qwen 2.5 (Alibaba) : Apache 2.0 pour les versions jusqu'à 72B — le plus permissif du marché à ce jour pour la distillation.
  • DeepSeek R1/V3 : licence MIT — la plus permissive, et ses modèles sont de très bons teachers pour le raisonnement.

Règle simple : si votre teacher est accessible uniquement via API fermée, n'utilisez pas ses sorties pour entraîner un modèle. Choisissez un teacher open-weight de qualité équivalente.

Distillation, fine-tuning classique ou RAG : tableau de décision

C'est la question qu'on nous pose le plus souvent. Voici une grille honnête, sans marketing autour.

Critère RAG Fine-tuning sur données réelles Distillation
Accès à des documents internes évolutifs Idéal Inadapté Inadapté
Données réelles annotées disponibles (≥500) Idéal Optionnel
Peu ou pas de données réelles annotées Risqué Idéal
Tâche répétitive et stable Partiel Fort Fort
Souveraineté / déploiement on-premise Fort Fort Fort
Coût d'inférence minimal à l'échelle Moyen Fort (SLM) Fort (SLM)
Temps de mise en œuvre Semaines Semaines Semaines à mois
Accès aux poids du teacher requis Non Non Non (données synth.) / Oui (logits)

En pratique, on voit souvent des architectures hybrides : RAG pour la connaissance documentaire, SLM distillé pour le comportement et le style. Ce sont deux problèmes différents et les deux approches se complètent bien.

Quand la distillation vaut le coup pour une entreprise

Trois situations où la distillation est clairement le bon choix, tiré de projets en production.

Vous déployez massivement un cas d'usage précis

Vous traitez un million de documents par mois avec un gros modèle via API. Le coût est devenu visible dans votre budget cloud. Un SLM distillé déployé sur une instance GPU dédiée peut diviser ce coût par 10 à 20. Le calcul est simple : si le coût mensuel API dépasse quelques milliers d'euros et que la tâche est stable, la distillation s'amortit souvent en quelques mois.

Vous n'avez pas de données réelles suffisantes pour un fine-tuning classique

Un dataset de fine-tuning de qualité exige généralement quelques centaines à milliers d'exemples annotés par des experts métier. C'est long et cher à constituer. La distillation contourne partiellement ce problème : le teacher génère les exemples d'entraînement à votre place, à partir de vos données non annotées ou de prompts représentatifs. Vous économisez le coût d'annotation, pas le coût d'évaluation — et la différence est importante.

Vous voulez un modèle embarqué ou edge

Déployer un LLM sur des appareils avec peu de VRAM (stations industrielles, appareils médicaux, postes sans GPU), ou nécessiter une latence inférieure à la seconde en local : la distillation vers un SLM de 1 à 3 milliards de paramètres est souvent le seul chemin viable. Des modèles comme Phi-4 Mini (Microsoft) ou Qwen 2.5 1.5B ont été en partie construits via ces techniques et tournent sur CPU dans des configurations acceptables.

Les outils et méthodes concrets pour distiller un LLM

Le marché des outils a beaucoup évolué en 2025-2026. Voici ce qu'on utilise et recommande.

Pour la génération du dataset synthétique

Distilabel (Argilla) est devenu la référence open source pour la génération de datasets synthétiques via LLM. Il permet de définir des pipelines de génération multi-étapes (génération par le teacher, critique, filtrage qualité) avec une bonne reproductibilité. C'est notre outil par défaut pour cette étape.

Pour les tâches de raisonnement, DeepSeek R1 (modèle open-weight, licence MIT) s'est imposé comme un teacher de qualité exceptionnelle sur les tâches logiques et mathématiques — avec des performances proches de o1 sur certains benchmarks, sans contrainte de licence.

Pour l'entraînement du student

Unsloth reste le choix le plus rapide pour fine-tuner des modèles jusqu'à 14B paramètres sur GPU consumer ou cloud A100. Il supporte LoRA et QLoRA, réduit la consommation mémoire de 60 à 70 % par rapport aux implémentations naïves, et s'intègre directement avec HuggingFace. Pour les modèles plus grands (30B+), Axolotl est plus flexible.

La librairie TRL (HuggingFace) implémente nativement la perte de distillation de logits (GKD — Generalized Knowledge Distillation) depuis sa version 0.9 — c'est la référence pour la distillation de logits quand vous avez accès aux poids du teacher.

Pour l'évaluation

L'évaluation est l'étape que l'on sous-estime systématiquement. Deux niveaux indispensables : les benchmarks automatiques via LM-Evaluation-Harness (EleutherAI) pour les métriques standardisées, et surtout un jeu de test métier maison validé par vos experts — les benchmarks publics ne mesurent pas ce qui compte pour votre tâche. On ne bascule jamais en production sans validation humaine d'un échantillon représentatif.

Les pièges à éviter : qualité, biais et évaluation

La distillation hérite des défauts du teacher. C'est la règle fondamentale, et elle a des implications concrètes souvent ignorées.

La qualité du teacher est le plafond absolu du student. Si votre teacher hallucine sur les questions de droit fiscal, votre student hallucine aussi. Si le teacher a des biais de représentation sur certaines catégories, le student les amplifie parfois. Un teacher à 85 % de précision sur votre tâche ne peut pas produire un student à 92 %.

Autre piège courant : la distribution des données synthétiques ne reflète pas toujours la distribution réelle de production. Si vous demandez au teacher de générer 10 000 exemples uniformément répartis sur 15 catégories, mais qu'en production 80 % des cas tombent dans 3 catégories, le student sera sur-entraîné sur les cas rares et sous-performant sur les cas fréquents. Il faut analyser la distribution réelle avant de concevoir le dataset.

Enfin, l'évaluation insuffisante. On mesure la précision globale, mais on ne regarde pas les erreurs par catégorie, par longueur d'entrée, par niveau de complexité. Un SLM distillé peut avoir 91 % de précision globale et 45 % de précision sur les cas ambigus — les plus importants dans votre métier. Les métriques agrégées masquent ces trous.

Pour aller plus loin sur la spécialisation de modèles et leur évaluation, notre guide sur le fine-tuning de LLM pour PME et la préparation du dataset couvrent les mêmes enjeux côté données réelles.

Pour aller plus loin

Vous hésitez encore ?

Distillation, fine-tuning ou RAG ? 30 minutes pour cadrer la bonne approche sur votre cas d'usage.

Réserver un échange

En résumé : distiller un LLM, c'est utile — pas universel

La distillation de modèle LLM est une technique solide pour obtenir un SLM performant sur une tâche précise, sans avoir à collecter des milliers d'exemples annotés manuellement. Le teacher génère le savoir, le student l'absorbe et le compresse.

Mais les règles de base ne changent pas. La qualité du teacher plafonne le student. Les licences et CGU des modèles fermés interdisent la distillation sans accord explicite — un point souvent ignoré qui peut créer des problèmes juridiques. Et l'évaluation reste l'étape qu'on ne peut pas contourner : un SLM distillé en production sans jeu de test métier solide, c'est une bombe à retardement.

Pour les entreprises qui traitent des volumes importants sur des tâches stables et répétitives, la distillation combinée à un déploiement souverain représente un des meilleurs ROI qu'on peut obtenir sur un projet IA en 2026. Notre service d'expert LLM et NLP accompagne ce type de projet de bout en bout, du choix du teacher à la mise en production.

Passer à l'action

Vous voulez appliquer ça dans votre entreprise ?

En quelques minutes, identifiez les cas d'usage IA les plus rentables pour votre métier. Sans engagement, et sans jargon.

Demander un devis

Articles liés

Outils & Modèles

Top SLM 2026 : les meilleurs petits modèles de langage

Comparatif des meilleurs SLM 2026 : Ministral, Phi-4-mini, Qwen2.5, Gemma 3, SmolLM2, Llama 3.2. Tailles, licences, VRAM, cas d'usage et RGPD pour les PME.

Lire l'article
Outils & Modèles

SLM vs LLM : quel modèle d'IA choisir en PME

SLM vs LLM : comparatif décisionnel complet. Coûts, latence, VRAM, souveraineté, cas d'usage. Quand le petit modèle gagne — et quand le LLM reste indispensable.

Lire l'article
Outils & Modèles

SLM : le guide des Small Language Models en entreprise

Small language model entreprise : définition, panorama des SLM (Phi-4, Mistral, Qwen, Gemma), comparatif coût/VRAM vs LLM, quand un SLM suffit et comment le spécialiser avec LoRA.

Lire l'article
Outils & Modèles

SLM on-device : l'IA générative en local et en edge

SLM on-device : faire tourner un modèle IA en local sur poste ou edge sans cloud. Outils (Ollama, llama.cpp), modèles 1B–8B, matériel requis, limites.

Lire l'article
Outils & Modèles

Router SLM/LLM : l'architecture hybride qui réduit les coûts

Architecture hybride SLM/LLM : comment router chaque requête vers le bon modèle pour diviser vos coûts d'inférence par 5 à 10. Outils, tableau €, pièges à éviter.

Lire l'article
Outils & Modèles

Quantization de LLM : faire tourner un modèle sur petit GPU

Quantization LLM : comment passer d'un modèle 7B de 14 Go en fp16 à 4 Go en int4 avec GGUF, GPTQ ou AWQ, sans sacrifier la qualité. Guide pratique 2026.

Lire l'article
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.