Comment détecter l'overfitting après un fine-tuning LLM ?

Le signal le plus fiable est la divergence entre la loss d'entraînement et la loss de validation : si la training loss continue de descendre tandis que la validation loss remonte ou stagne, le modèle mémorise le dataset au lieu d'apprendre des patterns généralisables. En pratique, il faut aussi tester les performances sur un jeu de test complètement isolé (jamais vu pendant l'entraînement) et vérifier que les scores sur des benchmarks généraux n'ont pas régressé par rapport au modèle de base.

Qu'est-ce qu'un golden eval set pour un fine-tuning ?

Un golden eval set est un jeu de données de référence constitué avant d'entraîner le modèle, figé et jamais modifié par la suite. Il contient des exemples représentatifs de la tâche cible avec la sortie attendue validée par un expert métier. Son rôle est de mesurer objectivement si le modèle s'améliore vraiment sur la tâche visée — indépendamment de ce qu'il a appris pendant l'entraînement. Sans golden eval set préconstitué, toute évaluation est biaisée.

Quelle métrique utiliser pour évaluer un modèle fine-tuné ?

La métrique dépend de la tâche. Pour la classification : accuracy, F1 macro ou weighted selon le déséquilibre des classes. Pour l'extraction d'entités ou de données structurées : F1 token-level ou exact match. Pour la génération de texte (résumé, rédaction) : LLM-as-judge (via GPT-4o ou Claude) sur critères définis, complété par ROUGE si pertinent. La loss de validation seule est insuffisante : elle ne mesure pas les performances métier réelles. Il faut toujours associer une métrique tâche-spécifique à la loss.

Qu'est-ce que la régression après fine-tuning et comment la détecter ?

La régression post-fine-tuning (aussi appelée catastrophic forgetting partiel) désigne la dégradation des capacités générales du modèle après spécialisation. Un modèle fine-tuné sur la classification de tickets peut perdre en cohérence sur des tâches de raisonnement générales ou se mettre à produire des sorties dégradées hors de sa tâche cible. On la détecte en évaluant le modèle fine-tuné sur les benchmarks du modèle de base (MMLU, ARC, Hellaswag via lm-eval-harness) et en comparant les scores avant/après fine-tuning.

Comment éviter la fuite de données entre train, validation et test ?

La fuite de données (data leakage) se produit quand des exemples du jeu de validation ou de test se retrouvent, identiques ou très proches, dans les données d'entraînement. Pour l'éviter : constituer le split avant toute augmentation de données, dédupliquer sémantiquement (pas seulement textuellement) les trois ensembles, et ne jamais modifier le jeu de test après avoir vu les résultats. Dans les cas où les données sont chronologiques (tickets de support, emails), un split temporel est plus fiable qu'un split aléatoire.

Quels outils utiliser pour évaluer un LLM fine-tuné en entreprise ?

Plusieurs outils couvrent les différents besoins. Weights & Biases (W&B) pour le suivi des courbes de loss en temps réel pendant l'entraînement. LangFuse pour l'évaluation et l'observabilité en production (LLM-as-judge intégré, traces, coûts). DeepEval pour des suites de tests automatisés sur des métriques définies. RAGAS si le modèle fine-tuné alimente un pipeline RAG. lm-eval-harness (EleutherAI) pour tester la régression sur les benchmarks généraux. Ces outils se combinent : W&B pendant l'entraînement, DeepEval ou LangFuse pour l'évaluation post-entraînement.

Combien d'exemples faut-il dans un jeu de test pour évaluer un fine-tuning ?

Pour que les métriques soient statistiquement significatives, un jeu de test doit contenir au minimum 100 à 200 exemples pour une tâche de classification, avec une représentation équilibrée des classes. Pour une tâche de génération évaluée avec LLM-as-judge, 50 à 100 exemples bien choisis suffisent souvent (le jugement LLM est plus lent et coûteux). En deçà de 50 exemples, les métriques ont des intervalles de confiance trop larges pour être exploitables. Un jeu de test trop petit est l'une des erreurs les plus fréquentes en fine-tuning PME.

Évaluer un modèle fine-tuné : éviter l'overfitting

Évaluer un modèle fine-tuné LLM — détecter l'overfitting et valider les performances après fine-tuning

Un modèle fine-tuné qui atteint 98 % de précision sur son jeu d'entraînement n'est pas nécessairement bon. Il a peut-être juste appris par cœur. Évaluer un modèle fine-tuné correctement, c'est mesurer s'il a vraiment appris à généraliser — pas s'il mémorise. Et ça commence avant même le premier entraînement, par la constitution d'un golden eval set isolé.

Cet article couvre la méthode complète : comment structurer vos splits train/validation/test pour éviter la fuite de données, quelles métriques utiliser selon votre tâche, comment détecter l'overfitting et la régression des capacités générales, et quels outils concrets (RAGAS, DeepEval, LangFuse, lm-eval-harness, Weights & Biases) permettent de suivre tout ça sans y passer deux semaines.

Pourquoi la loss d'entraînement seule ne suffit pas

C'est l'erreur la plus répandue. On lance un fine-tuning, la loss descend régulièrement, et on déclare victoire. Sauf que la training loss mesure une seule chose : à quel point le modèle prédit correctement les tokens qu'il a déjà vus pendant l'entraînement. Ce n'est pas ce qui compte en production.

Ce qui compte, c'est la validation loss — la loss sur des exemples que le modèle n'a pas vus pendant l'entraînement. Et surtout, les métriques métier sur un jeu de test isolé : est-ce que le modèle classe correctement les tickets que vos équipes lui envoient aujourd'hui ? Est-ce qu'il extrait les bonnes entités sur de nouveaux documents ?

La training loss peut descendre indéfiniment si on entraîne assez longtemps. C'est précisément le signal d'overfitting : le modèle mémorise les exemples d'entraînement au lieu d'apprendre leurs patterns sous-jacents. En pratique, on surveille les deux courbes en parallèle avec Weights & Biases — dès que la validation loss remonte pendant que la training loss continue de descendre, on arrête.

Soyons honnêtes : il n'y a pas de projet de fine-tuning sérieux sans monitoring de ces deux courbes en temps réel. C'est 30 minutes de setup sur W&B, et ça évite des semaines de retours en arrière.

Constituer le golden eval set avant d'entraîner

Le golden eval set, c'est le jeu de données de référence qu'on constitue avant de toucher à l'entraînement, et qu'on ne modifie plus jamais. Son rôle : mesurer objectivement si le modèle s'améliore vraiment sur la tâche visée.

Pourquoi avant ? Parce que si on choisit les exemples de test après avoir vu les résultats, on biaise inconsciemment la sélection vers les cas que le modèle réussit. C'est humain, et c'est destructeur pour la validité de l'évaluation.

Quelques règles pratiques pour le construire :

Représentativité. Les exemples doivent couvrir la distribution réelle de vos données en production — les cas fréquents, mais aussi les cas limites qui posent problème.
Validation experte. Chaque exemple doit avoir une sortie attendue validée par un expert métier, pas générée automatiquement. Un golden eval set auto-généré n'est pas un golden eval set.
Taille suffisante. Minimum 100 à 200 exemples pour une tâche de classification avec plusieurs classes. En dessous de 50, les métriques ont des intervalles de confiance trop larges pour être exploitables.
Gel immédiat. Dès que le set est validé, plus personne n'y touche — même pour corriger ce qui semble être une erreur. Les corrections vont dans le jeu d'entraînement suivant.

Le golden eval set est aussi ce qui permet de comparer des versions successives du modèle sur une base stable. Sans lui, chaque itération repart d'une évaluation subjective "à l'œil". Pour en savoir plus sur la préparation des données en amont, notre guide sur la préparation du dataset de fine-tuning couvre ce sujet en détail.

Split train / validation / test : les pièges courants

Un fine-tuning bien conduit utilise trois ensembles distincts. La confusion entre leurs rôles est à l'origine de la plupart des erreurs d'évaluation qu'on rencontre.

Train set : les données sur lesquelles le modèle apprend. Il peut les voir autant de fois que nécessaire.
Validation set : les données utilisées pendant l'entraînement pour surveiller la loss de validation et décider quand arrêter (early stopping). Le modèle ne s'entraîne pas dessus, mais le processus d'entraînement s'y ajuste indirectement.
Test set : le jeu de test final, qu'on n'ouvre qu'une seule fois — après avoir choisi la configuration finale du modèle. C'est là qu'on mesure les vraies performances.

Le piège le plus fréquent : utiliser le jeu de validation pour sélectionner le meilleur checkpoint, puis le réutiliser comme jeu de test final. À ce stade, la validation set est "contaminée" par toutes les décisions d'entraînement prises en la regardant. Les performances mesurées seront optimistes.

Autre piège : le data leakage entre les ensembles. Il ne suffit pas de s'assurer qu'aucun exemple n'est identique — il faut aussi dédupliquer sémantiquement. Sur des données textuelles, deux exemples peuvent être quasi-identiques avec des formulations légèrement différentes. Sur des données chronologiques (tickets de support, emails clients), un split temporel est presque toujours plus fiable qu'un split aléatoire : on entraîne sur le passé, on évalue sur le futur.

Métriques par type de tâche : ce qu'il faut mesurer

La métrique à utiliser dépend de la tâche. Voici le tableau de référence qu'on utilise sur nos projets.

Type de tâche	Métrique principale	Outil recommandé
Classification (classes équilibrées)	Accuracy, F1 macro	DeepEval, scikit-learn
Classification (classes déséquilibrées)	F1 weighted, ROC-AUC par classe	DeepEval, scikit-learn
Extraction d'entités (NER)	F1 token-level, exact match	DeepEval, seqeval
Extraction de données structurées	Exact match par champ, F1	DeepEval
Génération de texte (résumé, rédaction)	LLM-as-judge (GPT-4o / Claude)	LangFuse, DeepEval
Questions-réponses sur documents	Faithfulness, answer relevancy	RAGAS, DeepEval
Capacités générales (régression)	MMLU, ARC, Hellaswag	lm-eval-harness

Quelques précisions sur le LLM-as-judge : pour les tâches génératives où la sortie attendue n'est pas unique, demander à un LLM plus puissant de noter les sorties sur des critères définis (pertinence, fidélité aux faits, respect du style) est souvent plus fiable que ROUGE ou BLEU. LangFuse intègre ce mécanisme nativement et permet de stocker les évaluations, de les tracer et de les comparer entre versions.

Pour les pipelines qui combinent fine-tuning et RAG, RAGAS propose des métriques spécialisées — faithfulness (le modèle répond-il uniquement à partir des documents fournis ?), answer relevancy, context precision — qui mesurent la qualité du système complet, pas seulement du modèle fine-tuné.

Exact match vs F1 : quand utiliser lequel

L'exact match est strict : la sortie du modèle doit être identique à la référence. C'est adapté quand la sortie est courte et bien définie (un code produit, une catégorie précise, une date). Pour des extractions plus longues ou des réponses où plusieurs formulations correctes existent, le F1 token-level est plus juste — il récompense les correspondances partielles.

Sur les tâches d'extraction de données structurées (factures, contrats), on mesure l'exact match champ par champ. Un modèle qui extrait correctement le numéro de facture mais rate la date obtient un score par champ, pas un score global qui masquerait les erreurs.

LLM-as-judge : les limites à connaître

Le LLM-as-judge a un biais de position (il tend à préférer la première réponse présentée) et un biais de longueur (il préfère les réponses plus longues à qualité égale). Pour minimiser ces biais : présenter les réponses dans un ordre aléatoire, définir une grille de notation explicite avec des critères et des niveaux, et valider régulièrement un échantillon des jugements LLM avec un expert humain. L'accord humain-LLM doit dépasser 80 % pour que l'évaluation soit fiable.

Détecter l'overfitting et la régression des capacités générales

Les signaux d'overfitting à surveiller

Au-delà de la divergence training/validation loss, d'autres signaux méritent attention :

Performances parfaites sur le train set, mauvaises sur le test set. Écart supérieur à 10-15 points de F1 entre les deux : signal fort d'overfitting.
Sorties trop courtes ou trop formatées. Le modèle a sur-appris la structure exacte des exemples d'entraînement et les reproduit presque mécaniquement, même quand la question est différente.
Performances qui s'effondrent sur des paraphrases. Si le modèle répond bien à "Quelle est la date de livraison ?" mais échoue sur "Quand est-ce que la commande arrive ?", il a mémorisé des formulations plutôt que compris la tâche.

Les remèdes classiques : réduire le nombre d'epochs, augmenter le dropout, réduire le learning rate, ou augmenter le jeu d'entraînement (data augmentation par paraphrase, par exemple). Parfois, le modèle de base est tout simplement trop petit pour la tâche — dans ce cas, le fine-tuning converge vite vers l'overfitting quel que soit le réglage.

Tester la régression des capacités générales

C'est la dimension qu'on oublie le plus souvent : un fine-tuning peut améliorer les performances sur la tâche cible tout en dégradant les capacités générales du modèle. C'est ce qu'on appelle le catastrophic forgetting — ou dans sa version atténuée, une régression partielle.

Concrètement : un modèle fine-tuné sur la classification d'emails peut se mettre à produire des réponses incohérentes quand on lui pose une question hors de sa tâche. En production, si le modèle est utilisé dans un contexte plus large (assistant interne, pipeline multi-étapes), ce genre de régression peut causer des erreurs silencieuses difficiles à diagnostiquer.

La solution : évaluer le modèle fine-tuné sur les benchmarks du modèle de base avant de déployer. lm-eval-harness (EleutherAI) permet de lancer en quelques lignes les benchmarks MMLU, ARC, Hellaswag et de comparer les scores avant/après fine-tuning. Une régression de plus de 5 points sur MMLU mérite investigation — elle indique que le fine-tuning a trop modifié les poids généraux du modèle.

LoRA et QLoRA limitent ce risque (les poids du modèle de base restent gelés), mais ne l'éliminent pas complètement. Notre guide sur LoRA et QLoRA pour le fine-tuning LLM détaille les paramètres (rang, alpha, dropout) qui jouent sur ce compromis.

Les pièges les plus fréquents en évaluation de fine-tuning

Quelques erreurs qu'on voit régulièrement et qu'il vaut mieux nommer clairement :

Se fier à la loss seule. La validation loss descend → tout va bien. Non. On a vu des modèles avec une validation loss excellente et des performances métier catastrophiques sur des formulations légèrement différentes de celles du dataset.
Un eval set trop petit. 20 exemples, c'est un test informel. Avec 20 exemples, une variation d'une bonne réponse change les métriques de 5 points. C'est du bruit, pas un signal.
Juger à l'œil sans set figé. "On a testé quelques cas et ça a l'air bien" n'est pas une évaluation. Le problème : on teste inconsciemment les cas où on sait que le modèle fonctionne. L'eval set figé et préconstitué est là précisément pour éviter ce biais de sélection.
Évaluer sans comparer au modèle de base. Si le modèle de base atteint déjà 85 % de F1 sur votre tâche avec du prompting, et que le modèle fine-tuné atteint 87 %, l'amélioration est marginale par rapport au coût. Il faut toujours avoir une baseline. Notre article sur l'évaluation générale d'un LLM couvre comment établir cette baseline.
Ne pas tester la régression. Le modèle améliore la classification de tickets de 10 points. Et personne ne vérifie ce qu'il produit sur d'autres tâches. Deux mois plus tard, une anomalie en production difficile à relier au fine-tuning.

Pour aller plus loin

Évaluer un LLM sur votre cas d'usage métier : l'évaluation générale et les benchmarks, avant même de commencer à fine-tuner.
Top outils d'évaluation et d'observabilité LLM : comparatif complet de LangFuse, DeepEval, RAGAS, W&B et consorts.
Préparer un dataset de fine-tuning LLM : comment constituer, nettoyer et valider vos données d'entraînement avant de lancer.
Catastrophic forgetting en fine-tuning LLM : comprendre et limiter la régression des capacités générales.
Guide LoRA et QLoRA pour le fine-tuning LLM : les paramètres qui font la différence sur la régression et la généralisation.
Fine-tuning LLM en PME : quand ça vaut le coup : la décision en amont — fine-tuning vs RAG, budget, cas d'usage adaptés.
Notre service d'expert en fine-tuning LLM et NLP : cadrage, entraînement, évaluation rigoureuse et déploiement.
lm-eval-harness (EleutherAI) : la référence open source pour évaluer la régression sur les benchmarks généraux.
Documentation RAGAS : métriques spécialisées pour les pipelines RAG alimentés par un modèle fine-tuné.

Vous hésitez encore ?

Votre fine-tuning est terminé mais vous n'êtes pas sûr de la qualité ? 30 minutes pour faire le point sur votre évaluation.

Réserver un échange

En résumé : évaluer sérieusement, pas se rassurer

Un fine-tuning bien conduit sans évaluation rigoureuse, c'est un modèle qu'on déploie en espérant. Et en production, espérer ne suffit pas.

Les points non négociables : golden eval set constitué avant l'entraînement, splits train/validation/test proprement isolés, métriques tâche-spécifiques en plus de la loss, test de régression sur les capacités générales. Et des outils — W&B pour les courbes d'entraînement, DeepEval ou LangFuse pour les métriques post-entraînement, lm-eval-harness pour la régression — pas un jugement à l'œil sur cinq exemples choisis.

La bonne nouvelle : ce travail d'évaluation n'est pas long si on s'y prend au bon moment. Constituer le golden eval set avant de lancer l'entraînement prend quelques heures. Le négliger en coûte des semaines.

Évaluer un modèle fine-tuné : éviter l'overfitting

Pourquoi la loss d'entraînement seule ne suffit pas

Constituer le golden eval set avant d'entraîner

Split train / validation / test : les pièges courants

Métriques par type de tâche : ce qu'il faut mesurer

Exact match vs F1 : quand utiliser lequel

LLM-as-judge : les limites à connaître

Détecter l'overfitting et la régression des capacités générales

Les signaux d'overfitting à surveiller

Tester la régression des capacités générales

Les pièges les plus fréquents en évaluation de fine-tuning

Pour aller plus loin

En résumé : évaluer sérieusement, pas se rassurer

Vous voulez appliquer ça dans votre entreprise ?

Articles liés

Top SLM 2026 : les meilleurs petits modèles de langage

SLM vs LLM : quel modèle d'IA choisir en PME

SLM : le guide des Small Language Models en entreprise

SLM on-device : l'IA générative en local et en edge

Router SLM/LLM : l'architecture hybride qui réduit les coûts

Quantization de LLM : faire tourner un modèle sur petit GPU