Comment détecter une dérive de qualité d'un LLM en production ?

Mettez en place un monitoring continu avec trois signaux : (1) des métriques automatiques calculées sur un échantillon de requêtes en production, (2) un feedback utilisateur structuré (pouce haut/bas, signalement d'erreur), (3) une réévaluation périodique sur votre golden dataset. Une dérive se manifeste par une baisse progressive des scores, souvent liée à un changement dans la distribution des requêtes ou à une mise à jour du modèle par le fournisseur.

Évaluer un LLM en entreprise : métriques, benchmarks et retour terrain

Q: Pourquoi les benchmarks publics comme MMLU ne suffisent pas pour choisir un LLM en entreprise ?

Les benchmarks publics (MMLU, HellaSwag, HumanEval) mesurent des compétences générales sur des données académiques. Ils ne reflètent pas la performance d'un modèle sur votre vocabulaire métier, vos formats de sortie attendus ou vos contraintes de précision spécifiques. Un modèle qui score 85 % sur MMLU peut halluciner sur 30 % de vos requêtes métier. Seul un jeu d'évaluation construit sur vos propres cas d'usage vous donnera une mesure fiable.

"Ce modèle score 90 % sur MMLU." C'est la phrase qu'on entend le plus souvent quand un fournisseur présente son LLM. Et c'est probablement la moins utile pour prendre une décision d'achat ou de déploiement.

Quand nous évaluons un LLM pour un client, les benchmarks publics sont notre point de départ, pas notre conclusion. Sur un projet de fine-tuning pour un éditeur médical, le modèle qui scorait le mieux sur MMLU n'était pas le plus performant sur notre tâche. L'écart ? 15 points de précision sur les questions métier. Un score académique brillant, mais des réponses cliniques dangereusement approximatives.

Cet article vous donne la méthode que nous appliquons chez Tensoria pour évaluer un LLM sur un cas d'usage réel : les métriques qui comptent, la construction d'un jeu de test pertinent, l'évaluation automatique vs humaine, et le monitoring post-déploiement que personne n'anticipe.

Pourquoi les benchmarks publics ne suffisent pas

Les benchmarks publics comme MMLU (Massive Multitask Language Understanding), HellaSwag (raisonnement de bon sens) ou HumanEval (génération de code) sont devenus la langue commune pour comparer les LLMs. Chaque fournisseur les affiche en première page de ses annonces. Le problème : ils ne mesurent pas ce qui compte pour votre entreprise.

Voici pourquoi ces scores sont trompeurs pour une décision d'entreprise :

Les données de test sont publiques. Les modèles récents sont souvent entraînés (directement ou indirectement) sur des données qui incluent les questions des benchmarks. Le score reflète alors une forme de mémorisation, pas une réelle capacité de raisonnement.
Les tâches sont génériques. MMLU teste 57 domaines académiques (histoire, physique, droit américain). Aucun de ces domaines ne correspond à "extraire les clauses de pénalité d'un CCTP" ou "classifier les tickets SAV d'un éditeur logiciel".
Le format est standardisé. La plupart des benchmarks utilisent des QCM. En entreprise, vous attendez du texte libre, des tableaux structurés, des résumés calibrés. La capacité à choisir entre A, B, C et D ne prédit pas la qualité d'une synthèse de 500 mots.
Les conditions de test sont idéales. Pas de bruit dans les données, pas de contexte ambigu, pas de pression de latence. En production, les requêtes sont imparfaites, les documents bruités, et le temps de réponse compte.

Ce que l'expérience nous a appris

Sur 12 projets d'évaluation LLM que nous avons menés en 2025, le classement des modèles sur nos benchmarks métier ne correspondait au classement MMLU que dans 3 cas. Dans 9 cas sur 12, le meilleur modèle "académique" n'était pas le meilleur sur la tâche métier du client.

Les benchmarks publics restent utiles pour un premier tri. Si un modèle est médiocre sur MMLU, il a peu de chances d'exceller sur votre cas d'usage. Mais le classement entre modèles qui scorent entre 80 et 90 % ne vous dit rien de fiable sur les performances réelles sur votre métier. Pour prendre une vraie décision, il faut construire votre propre évaluation.

Les métriques qui comptent en entreprise

En évaluation LLM pour l'entreprise, il existe deux familles de métriques : les métriques de qualité du texte et les métriques opérationnelles. Les deux sont nécessaires. Un modèle qui donne des réponses parfaites en 30 secondes par requête est inutilisable en production. Un modèle ultra-rapide qui hallucine une fois sur cinq est dangereux.

Métriques de qualité du texte

Métrique	Ce qu'elle mesure	Cas d'usage typique	Limite
Taux d'hallucination	% de réponses contenant des informations inventées ou fausses	RAG, assistant juridique, support technique	Nécessite une vérification humaine ou un système de détection automatisé
Fidélité factuelle	Cohérence entre la réponse et les documents sources	Résumé de documents, extraction d'informations	Difficile à automatiser complètement
ROUGE / BLEU	Similarité lexicale avec une réponse de référence	Traduction, résumé contraint	Ne capture pas la qualité sémantique, pénalise les reformulations valides
Précision / Rappel / F1	Exactitude sur des entités ou catégories cibles	Classification, extraction d'entités, NER	Requiert un jeu labellisé de référence
Cohérence stylistique	Respect du ton, du format et des conventions attendus	Rédaction de rapports, courriers clients	Subjective, nécessite souvent une évaluation humaine
BERTScore	Similarité sémantique avec la référence (via embeddings)	Génération de texte, paraphrase	Meilleur que BLEU/ROUGE, mais imparfait sur les nuances métier

Métriques opérationnelles

Ces métriques sont souvent oubliées dans les comparatifs, mais elles font la différence entre un prototype convaincant et un système viable en production :

Latence (temps de réponse) : en millisecondes. Pour un chatbot interne, 2 à 5 secondes est acceptable. Pour une API temps réel intégrée à un workflow, vous visez moins de 500 ms.
Coût par requête : en centimes d'euro. Avec des volumes de 10 000 requêtes/jour, la différence entre GPT-4o (environ 1,5 ct/requête) et un modèle open source déployé en interne (0,1 ct/requête) change complètement l'équation économique.
Débit (throughput) : nombre de requêtes traitées simultanément. Un modèle hébergé en interne sur un seul GPU peut saturer rapidement si 50 utilisateurs l'interrogent en même temps.
Taux de refus : % de requêtes où le modèle refuse de répondre (garde-fous trop agressifs) ou produit une réponse vide. Un taux de refus de 5 % peut sembler faible. Sur 1 000 requêtes par jour, c'est 50 utilisateurs frustrés.

Choisir les bonnes métriques selon votre cas d'usage

Cas d'usage	Métriques prioritaires	Seuil cible indicatif
Assistant RAG sur documentation interne	Taux d'hallucination, fidélité factuelle, latence	Hallucination < 5 %, latence < 3 s
Classification de tickets / emails	Précision, rappel, F1 par catégorie	F1 > 90 % sur les catégories principales
Extraction d'entités de documents	Précision, rappel, F1 sur entités cibles	Précision > 95 % sur entités critiques
Rédaction automatisée (rapports, synthèses)	Cohérence stylistique, BERTScore, évaluation humaine	Score humain > 4/5, BERTScore > 0.85
Chatbot client externe	Taux d'hallucination, satisfaction utilisateur, taux de refus	Hallucination < 2 %, satisfaction > 80 %
Fine-tuning sur tâche spécialisée	F1 métier, taux d'erreur critique, coût par requête	F1 > modèle de base + 10 pts

Comment construire un golden dataset pour votre cas d'usage

Le golden dataset est la pierre angulaire de toute évaluation LLM sérieuse. C'est un jeu de données de référence composé d'exemples représentatifs de votre cas d'usage réel, avec les réponses attendues validées par vos experts métier.

Nous construisons systématiquement un golden dataset de 200 à 500 exemples avec le client avant tout déploiement. Voici comment procéder.

Étape 1 : identifier vos cas d'usage réels

Ne partez pas de ce que le modèle pourrait faire, mais de ce que vos utilisateurs lui demandent réellement. Collectez les 50 à 100 requêtes les plus fréquentes sur les 3 derniers mois (si le système est déjà en place) ou demandez à 5 à 10 futurs utilisateurs de formuler leurs questions types. Classez-les par fréquence et criticité.

Étape 2 : rédiger les réponses de référence

Pour chaque exemple, un expert métier rédige la réponse idéale. C'est la partie la plus longue et la plus coûteuse du processus, mais c'est elle qui conditionne la fiabilité de toute l'évaluation. Une réponse de référence mal calibrée invalide l'intégralité de l'évaluation sur cet exemple.

Quelques règles pratiques :

Deux experts minimum valident chaque réponse sur les cas critiques.
Incluez des cas limites : questions ambiguës, données incomplètes, requêtes hors périmètre. Le modèle doit savoir dire "je ne sais pas" quand c'est la bonne réponse.
Documentez le raisonnement attendu, pas seulement la réponse finale. Cela permet d'évaluer la qualité du raisonnement, pas uniquement le résultat.

Étape 3 : structurer le dataset

Chaque exemple doit contenir au minimum :

L'entrée (requête utilisateur + contexte fourni au modèle)
La sortie de référence (réponse idéale)
La catégorie du cas d'usage (classification, extraction, rédaction, etc.)
Le niveau de difficulté (facile, moyen, difficile, cas limite)
Les critères d'évaluation spécifiques : quels éléments de la réponse sont non négociables

Taille du golden dataset : la règle des 200 minimum

Moins de 200 exemples, les résultats sont statistiquement peu fiables. Entre 200 et 500, vous avez une base solide pour comparer des modèles et détecter des régressions. Au-delà de 500, le rapport effort/gain diminue. Privilégiez la qualité sur la quantité : 300 exemples soigneusement annotés valent mieux que 1 000 exemples bâclés.

Étape 4 : séparer train / test / validation

Si vous utilisez ce dataset pour du fine-tuning, séparez impérativement les données en trois ensembles : entraînement (70 %), validation (15 %), test (15 %). Le jeu de test ne doit jamais être vu par le modèle pendant l'entraînement. Si vous ne faites que de l'évaluation comparative (sans fine-tuning), l'intégralité du dataset sert de jeu de test.

Évaluation automatique vs évaluation humaine : quand utiliser quoi

C'est l'un des dilemmes les plus concrets de l'évaluation LLM. L'évaluation automatique est rapide et reproductible, mais elle rate des nuances. L'évaluation humaine capture la qualité réelle, mais elle est lente et coûteuse. La bonne réponse : les deux, mais pas dans les mêmes proportions ni aux mêmes moments.

Quand privilégier l'évaluation automatique

Comparaison rapide entre modèles. Vous testez 5 modèles candidats sur 300 exemples. L'évaluation humaine prendrait des semaines. Les métriques automatiques (ROUGE, BERTScore, F1, taux d'hallucination automatisé) donnent un premier classement en quelques heures.
Tests de régression. Après chaque mise à jour du modèle, du prompt ou de la pipeline RAG, vous relancez l'évaluation automatique sur le golden dataset pour détecter des régressions. C'est un filet de sécurité permanent.
Tâches à réponse déterministe. Classification, extraction d'entités, réponses factuelles courtes : la sortie est soit correcte, soit incorrecte. L'automatisation est fiable.

Quand l'évaluation humaine est indispensable

Génération de texte long. La qualité d'un rapport de 500 mots ne se réduit pas à un score BLEU. Le ton, la logique argumentative, la pertinence des nuances : seul un humain évalue cela de façon fiable.
Cas d'usage à fort enjeu. Dans le médical, le juridique ou la finance, une erreur factuelle peut avoir des conséquences graves. L'évaluation humaine est non négociable sur un échantillon représentatif.
Calibration du LLM-as-a-judge. Avant de faire confiance à un évaluateur automatique basé sur un LLM, vous devez vérifier qu'il est aligné avec le jugement humain sur au moins 50 à 100 exemples.

Notre recommandation pratique

Sur un projet d'évaluation typique, nous appliquons cette répartition :

100 % du golden dataset évalué automatiquement (métriques + LLM-as-a-judge)
20 à 30 % du golden dataset évalué par des experts humains (en priorité : les cas difficiles et les cas critiques)
Corrélation systématique entre scores automatiques et scores humains. Si la corrélation est inférieure à 0,7, les métriques automatiques ne sont pas fiables pour votre cas d'usage et doivent être recalibrées.

LLM-as-a-judge et frameworks d'évaluation

L'approche LLM-as-a-judge est devenue incontournable. Le principe : utiliser un modèle puissant (GPT-4o, Claude 3.5 Sonnet) pour évaluer les sorties d'un autre modèle selon des critères définis. C'est un compromis intelligent entre la vitesse de l'automatique et la nuance de l'humain.

Comment mettre en place un LLM-as-a-judge efficace

Définir des critères d'évaluation précis. Ne demandez pas au juge "est-ce que cette réponse est bonne ?". Demandez-lui d'évaluer séparément : la fidélité factuelle (1 à 5), la complétude (1 à 5), le respect du format (oui/non), le ton (approprié/inadéquat). Plus les critères sont décomposés, plus l'évaluation est fiable et exploitable.
Fournir des exemples de scoring. Incluez dans le prompt du juge 3 à 5 exemples de réponses avec leur note et la justification. Cela ancre l'échelle de notation et réduit la variabilité.
Calibrer sur des évaluations humaines. Faites évaluer 50 à 100 exemples par des humains ET par le LLM-juge. Mesurez l'accord inter-annotateur (Cohen's Kappa ou corrélation de Spearman). Un accord inférieur à 0,65 signifie que le juge n'est pas encore fiable.
Alterner les modèles juges. Un biais connu : un modèle tend à mieux évaluer ses propres sorties. Utilisez un modèle juge différent du modèle évalué. Si vous évaluez GPT-4o, utilisez Claude comme juge, et inversement.

Frameworks d'évaluation à connaître

Plusieurs outils open source facilitent la mise en place d'une évaluation structurée :

RAGAS : spécialisé pour l'évaluation de systèmes RAG. Mesure la fidélité, la pertinence du contexte, et la qualité de la réponse. Indispensable si vous déployez un assistant RAG.
DeepEval : framework Python complet pour l'évaluation LLM avec des métriques pré-construites (hallucination, toxicité, cohérence) et un support LLM-as-a-judge intégré.
OpenAI Evals : le framework d'évaluation d'OpenAI, extensible pour définir vos propres benchmarks et métriques.

Le choix du framework dépend de votre stack technique et de votre cas d'usage. Pour un système RAG, RAGAS est le point de départ naturel. Pour une évaluation plus généraliste, DeepEval offre la plus grande flexibilité.

Monitoring en production : détecter la dérive de qualité

L'évaluation ne s'arrête pas au moment du déploiement. C'est même là que le plus gros du travail commence. Un LLM en production subit des dérives que vous ne verrez jamais dans un benchmark statique :

Dérive des données d'entrée. Les requêtes des utilisateurs évoluent avec le temps. De nouveaux sujets apparaissent, le vocabulaire change, les cas d'usage se diversifient. Le modèle qui scorait 92 % à la mise en production peut tomber à 78 % trois mois plus tard sans que vous le sachiez.
Mise à jour silencieuse du fournisseur. Si vous utilisez un modèle via API (OpenAI, Anthropic, Mistral), le fournisseur peut mettre à jour le modèle sans préavis. En janvier 2025, une mise à jour de GPT-4o a modifié le comportement de certaines sorties structurées, cassant silencieusement des workflows en production chez plusieurs de nos clients.
Évolution du contexte documentaire (RAG). Si vous ajoutez de nouveaux documents dans votre base RAG, la qualité des réponses peut changer : nouveaux conflits entre documents, passages mal indexés, métadonnées incohérentes.

Mettre en place un monitoring LLM efficace

Voici les trois piliers d'un monitoring que nous recommandons systématiquement :

1. Métriques automatiques en continu. Échantillonnez 5 à 10 % des requêtes en production et évaluez-les automatiquement (LLM-as-a-judge sur des critères pré-définis). Tracez ces scores sur un tableau de bord avec des seuils d'alerte. Si le score moyen descend sous le seuil, une alerte se déclenche avant que les utilisateurs ne remontent le problème.

2. Feedback utilisateur structuré. Intégrez un système de feedback simple dans l'interface (pouce haut/bas, bouton "signaler une erreur"). Ce n'est pas du NPS : c'est un signal brut qui vous indique les réponses problématiques en temps réel. Analysez les signalements chaque semaine.

3. Réévaluation périodique sur le golden dataset. Toutes les 4 à 6 semaines, relancez l'évaluation complète sur votre golden dataset. Comparez les résultats avec l'évaluation initiale. Toute baisse significative (plus de 3 points) déclenche une investigation : est-ce le modèle, les données, le prompt ou le contexte qui a changé ?

Un monitoring minimal mais efficace

Vous n'avez pas besoin d'une plateforme MLOps complète pour commencer. Un script Python qui évalue 50 requêtes par jour avec un LLM-as-a-judge, stocke les scores dans une base de données et envoie une alerte Slack si le score moyen baisse de plus de 5 % : c'est suffisant pour 80 % des déploiements PME. La sophistication viendra après.

Retour d'expérience : comment nous évaluons les LLMs chez Tensoria

Notre méthodologie s'est construite sur des dizaines de projets d'évaluation et de déploiement. Voici les principes que nous appliquons systématiquement, et les leçons que nous avons tirées de nos erreurs.

Le processus en 4 phases

Phase 1 : cadrage et golden dataset (1 à 2 semaines). Nous travaillons avec les experts métier du client pour définir les cas d'usage prioritaires et construire un golden dataset de 200 à 500 exemples. C'est la phase la plus importante. Un golden dataset mal construit invalide tout le reste. Nous imposons un taux de validation croisée de 90 % minimum (deux annotateurs s'accordent sur 90 % des réponses de référence).

Phase 2 : évaluation comparative (3 à 5 jours). Nous testons systématiquement 3 à 5 modèles candidats sur le golden dataset. GPT-4o, Claude 3.5 Sonnet, Mistral Large, et un ou deux modèles open source candidats au fine-tuning. Pour chaque modèle, nous mesurons toutes les métriques pertinentes (qualité + opérationnelles) et produisons un rapport comparatif factuel.

Phase 3 : évaluation humaine ciblée (1 semaine). Les experts métier du client évaluent un échantillon de 20 à 30 % du golden dataset sur les 2 ou 3 modèles les plus prometteurs. Nous mesurons la corrélation avec les scores automatiques. Si la corrélation est bonne (supérieure à 0,7), les scores automatiques sont fiables pour le monitoring futur. Sinon, nous ajustons les critères du LLM-as-a-judge.

Phase 4 : déploiement et monitoring (continu). Le modèle retenu est déployé avec un monitoring intégré dès le premier jour. Pas de "on verra plus tard". Le monitoring est une composante du livrable, au même titre que l'API ou l'interface utilisateur.

Les erreurs qu'on ne fait plus

Évaluer uniquement sur les cas faciles. Les premiers golden datasets que nous avons construits étaient trop "propres". En production, les requêtes sont ambiguës, mal formulées, hors périmètre. Depuis, nous imposons 20 % de cas difficiles et 10 % de cas limites dans chaque golden dataset.
Faire confiance au LLM-as-a-judge sans calibration. Sur un projet juridique, le LLM-as-a-judge (GPT-4) notait systématiquement trop bien les réponses de GPT-4 par rapport au jugement des avocats. Le biais d'auto-évaluation est réel. Nous utilisons maintenant systématiquement un modèle juge différent du modèle évalué.
Négliger la latence et le coût. Un modèle qui score 95 % de fidélité mais coûte 3 centimes par requête n'est pas forcément le bon choix si votre volume est de 50 000 requêtes par mois. Nous intégrons systématiquement le coût total de possession (TCO) dans l'analyse comparative, pas seulement les métriques de qualité.

Un cas concret : évaluation pour un éditeur de logiciel médical

Le client avait besoin d'un assistant RAG pour son support utilisateur. Objectif : répondre aux questions techniques sur leur logiciel à partir de la documentation interne. Les résultats de notre évaluation comparative :

Modèle	Score MMLU	Fidélité factuelle (métier)	Taux d'hallucination	Latence moyenne	Coût / requête
GPT-4o	88 %	82 %	8 %	2,1 s	1,8 ct
Claude 3.5 Sonnet	86 %	89 %	4 %	1,8 s	1,5 ct
Mistral Large	83 %	85 %	6 %	1,4 s	0,8 ct
Mistral 7B fine-tuné	71 %	93 %	2 %	0,4 s	0,1 ct

Le modèle avec le meilleur score MMLU (GPT-4o) avait le pire taux d'hallucination sur cette tâche. Le modèle fine-tuné sur les données métier, avec un score MMLU très inférieur, surpassait tous les autres sur les métriques qui comptaient réellement : fidélité factuelle et taux d'hallucination. Et il coûtait 18 fois moins cher par requête.

C'est exactement pour cela que nous recommandons toujours de commencer par un audit IA qui inclut une évaluation comparative sur vos données, avant de choisir un modèle.

Table comparative des métriques par type de projet

Ce tableau synthétise les métriques prioritaires selon le type de projet IA. Utilisez-le comme grille de décision pour cadrer votre propre évaluation :

Type de projet	Métriques prioritaires	Évaluation automatique	Évaluation humaine	Fréquence monitoring
Assistant RAG interne	Hallucination, fidélité, latence	RAGAS + LLM-as-a-judge	20 % golden dataset	Hebdomadaire
Chatbot client externe	Hallucination, satisfaction, refus	LLM-as-a-judge + feedback	30 % (enjeu réputation)	Quotidien
Classification / extraction	Précision, rappel, F1	Métriques déterministes	10 % (spot check)	Bimensuelle
Rédaction automatisée	Style, cohérence, BERTScore	BERTScore + LLM-as-a-judge	40 % (qualité subjective)	Mensuelle
Analyse de documents juridiques	Fidélité, complétude, F1 clauses	LLM-as-a-judge spécialisé	50 % (criticité forte)	Hebdomadaire

Par où commencer : votre plan d'action en 5 étapes

Si vous envisagez de déployer un LLM en entreprise, ou si vous avez déjà un modèle en production sans évaluation structurée, voici par où commencer :

Identifiez votre cas d'usage principal. Pas "l'IA en général". Un cas d'usage précis : "répondre aux questions techniques sur notre logiciel", "classifier les demandes entrantes", "rédiger des synthèses de réunion". Plus c'est précis, plus l'évaluation est exploitable.
Construisez un golden dataset de 200 exemples. Avec vos experts métier. C'est un investissement de 3 à 5 jours, et c'est ce qui vous permettra de prendre des décisions factuelles au lieu de vous fier à l'intuition ou au marketing.
Évaluez 3 modèles candidats. Pas 15. Trois modèles bien choisis (un premium, un mid-range, un open source), évalués rigoureusement, valent mieux que quinze modèles testés superficiellement.
Mettez en place le monitoring dès le jour 1. Pas "quand on aura le temps". Un monitoring minimal (50 requêtes/jour évaluées automatiquement + feedback utilisateur) prend 2 jours à mettre en place et vous évitera des semaines de diagnostic en aveugle.
Réévaluez tous les mois. Le paysage LLM bouge vite. Un modèle optimal aujourd'hui peut être surpassé par une nouvelle version dans 6 semaines. Votre golden dataset vous permet de réévaluer en quelques heures au lieu de recommencer de zéro.

Si ce processus vous semble lourd à mettre en place seul, c'est exactement ce que nous faisons avec nos clients lors d'un accompagnement LLM. De la construction du golden dataset au monitoring en production, en passant par l'évaluation comparative et le choix du modèle.

Pour aller plus loin

Notre expertise LLM et NLP : accompagnement de bout en bout, de l'évaluation au déploiement.
Fine-tuning LLM en PME : quand ça vaut le coup : quand et comment adapter un modèle à vos données métier.
Optimiser un système RAG : les leviers d'amélioration quand votre assistant ne donne pas les bonnes réponses.
Les erreurs qui font échouer les projets RAG : dont plusieurs sont liées à un manque d'évaluation.
Lancer un projet IA en entreprise : le guide réaliste pour passer de l'idée au déploiement.
Budget IA pour PME : intégrer le coût de l'évaluation dans votre enveloppe projet.
RAG vs fine-tuning : comment choisir : un arbre de décision pour choisir la bonne architecture avant d'évaluer.
Déployer un LLM en production : infrastructure, coûts GPU et monitoring post-déploiement.
Embeddings et recherche sémantique : comprendre la brique fondamentale derrière le RAG et la recherche.
Prompt engineering avancé : les techniques qui peuvent rendre un fine-tuning inutile.

Besoin d'évaluer un LLM ?

On construit votre benchmark métier sur mesure. 30 minutes pour cadrer l'approche.

Réserver un échange

En résumé

Évaluer un LLM en entreprise ne se réduit pas à comparer des scores MMLU. C'est un processus structuré qui commence par la construction d'un golden dataset représentatif de votre réalité métier, se poursuit par une évaluation comparative rigoureuse (automatique et humaine), et ne s'arrête jamais grâce au monitoring en production.

Les entreprises qui réussissent leurs projets LLM sont celles qui investissent autant dans l'évaluation que dans le développement. Un golden dataset de 300 exemples et un monitoring minimal coûtent l'équivalent de 2 à 3 jours de consulting. L'absence d'évaluation, elle, peut coûter des mois de corrections, de la confiance utilisateur perdue et un ROI qui ne se matérialise jamais.

Le classement des modèles change tous les trimestres. Votre golden dataset, lui, reste valide tant que votre cas d'usage ne change pas fondamentalement. C'est votre actif le plus précieux pour prendre des décisions factuelles dans un marché où le marketing des fournisseurs IA n'a jamais été aussi bruyant.

Questions fréquentes

Les benchmarks publics mesurent des compétences générales sur des données académiques. Ils ne reflètent pas la performance d'un modèle sur votre vocabulaire métier, vos formats de sortie attendus ou vos contraintes de précision spécifiques. Un modèle qui score 85 % sur MMLU peut halluciner sur 30 % de vos requêtes métier. Seul un jeu d'évaluation construit sur vos propres cas d'usage vous donnera une mesure fiable.

Un golden dataset est un jeu de 200 à 500 exemples représentatifs de votre cas d'usage réel, chacun composé d'une entrée et d'une sortie de référence validée par un expert métier. Pour le construire : identifiez vos cas d'usage les plus fréquents, rédigez les réponses idéales avec vos équipes, incluez des cas limites et des pièges courants. Ce dataset sert à évaluer objectivement tout modèle avant déploiement.

Les métriques dépendent de votre cas d'usage. Pour de la génération de texte : taux d'hallucination, fidélité factuelle, cohérence stylistique. Pour de l'extraction : précision, rappel et F1 sur vos entités cibles. Pour de la classification : accuracy par catégorie, matrice de confusion. Dans tous les cas, ajoutez la latence, le coût par requête et un score de satisfaction utilisateur mesuré en production.

L'approche LLM-as-a-judge consiste à utiliser un modèle de langage puissant (GPT-4o, Claude) pour évaluer automatiquement les sorties d'un autre modèle. On lui fournit un prompt d'évaluation avec des critères précis (fidélité, complétude, ton) et il attribue un score. Cette méthode permet d'évaluer des centaines d'exemples rapidement, mais elle doit être calibrée sur un sous-ensemble évalué par des humains pour vérifier sa fiabilité.

Mettez en place un monitoring continu avec trois signaux : des métriques automatiques calculées sur un échantillon de requêtes en production, un feedback utilisateur structuré (pouce haut/bas, signalement d'erreur), et une réévaluation périodique sur votre golden dataset. Une dérive se manifeste par une baisse progressive des scores, souvent liée à un changement dans la distribution des requêtes ou à une mise à jour du modèle par le fournisseur.

Comptez 2 à 4 semaines pour une évaluation complète : 1 semaine pour construire le golden dataset avec vos experts métier, 1 semaine pour configurer les métriques et les tests automatisés, puis 1 à 2 semaines pour exécuter les évaluations sur plusieurs modèles et analyser les résultats. Le monitoring en production s'installe en parallèle du déploiement. C'est un investissement qui évite des mois de correction après un mauvais choix de modèle.