Tensoria
Parlez-nous de votre projet : 07 82 80 51 40
Outils & Modèles Par

Fine-tuning, RAG ou prompting : quand choisir quoi

Fine-tuning vs RAG vs prompting : arbre de décision pour choisir comment adapter un LLM à votre métier

Pour fine-tuning vs RAG vs prompting, la réponse courte : commencez par le prompting, passez au RAG si votre problème est documentaire, et n'envisagez le fine-tuning que si ni l'un ni l'autre ne suffit. Dans la pratique, cette séquence évite de brûler un budget de fine-tuning sur un problème qu'un bon prompt système aurait réglé en une heure.

Cet article compare les trois approches ensemble — ce que chacune fait réellement, dans quelles conditions elle s'impose, ce qu'elle coûte, et comment les combiner quand la situation l'exige. L'objectif est de vous donner un arbre de décision utilisable, pas une liste de pour/contre abstraite.

Les trois approches en une phrase chacune

Avant de comparer, posons les définitions avec précision.

Le prompting consiste à formuler des instructions détaillées dans le message envoyé au modèle : rôle, contexte, exemples, format de sortie attendu. Le modèle ne change pas — c'est votre formulation qui change. Avec un LLM comme GPT-4o, Claude Sonnet ou Mistral Large, un prompt système bien construit peut produire des résultats très convaincants, même sans toucher au modèle ni à son infrastructure.

Le RAG (Retrieval-Augmented Generation) garde le modèle intact mais lui fournit des documents pertinents au moment de la requête. Un pipeline de recherche (souvent vectoriel + BM25) récupère les passages les plus utiles dans votre base documentaire, et les insère dans le contexte envoyé au LLM. Le modèle répond alors avec des informations récentes, internes, traçables — sans les mémoriser de façon permanente.

Le fine-tuning modifie le modèle lui-même en le réentraînant sur vos données. Avec des techniques comme LoRA ou QLoRA, on n'ajuste qu'une fraction des paramètres, ce qui rend l'opération accessible à une PME. Le résultat : un modèle qui intègre durablement votre style, votre jargon ou votre raisonnement métier, sans avoir besoin de les rappeler dans chaque prompt.

Pourquoi cette question est mal posée en général

La plupart des comparatifs RAG vs fine-tuning (dont notre propre article RAG vs fine-tuning : comment choisir) oublient l'option la plus rapide et la moins chère : simplement mieux prompter.

C'est un piège classique. On arrive avec un besoin métier ("le modèle ne répond pas comme nos conseillers le feraient"), on ouvre une discussion sur l'architecture, et très vite on parle de fine-tuning. Puis on découvre six semaines plus tard qu'un prompt système de 400 mots avec trois exemples few-shot aurait donné 90 % du résultat.

Soyons précis : les trois approches ne sont pas en compétition égale. Elles répondent à des problèmes différents, à des niveaux différents de complexité et de coût. La bonne question n'est pas "laquelle choisir ?" mais "jusqu'où dois-je aller pour résoudre mon problème ?"

L'arbre de décision : par où commencer

Voici comment raisonner, dans l'ordre.

Votre problème Première réponse Si ça ne suffit pas
Le modèle ne répond pas dans le bon format ou le bon ton Prompting (instructions + exemples few-shot) Fine-tuning sur le style
Le modèle ne connaît pas vos documents internes RAG sur votre base documentaire RAG + reranking optimisé
Le modèle ne maîtrise pas votre jargon métier Prompting (glossaire dans le contexte) Fine-tuning sur le vocabulaire
Le modèle donne des réponses génériques sur vos produits/procédures RAG sur vos fiches et procédures RAG + fine-tuning du comportement
Une tâche répétitive (classification, extraction) manque de précision Prompt structuré + exemples few-shot Fine-tuning sur la tâche ciblée
Les réponses sont correctes mais coûtent trop cher en tokens à l'échelle Prompt plus court + modèle plus petit Fine-tuning sur SLM léger

La règle de décision est simple : commencer par la solution la moins engageante. Tester. Mesurer. Passer au niveau supérieur seulement si les résultats ne sont pas au rendez-vous.

Le prompting : ce qu'on peut vraiment en tirer

Un bon prompt engineering avancé est sous-exploité dans la plupart des entreprises. Non pas parce qu'elles ne savent pas prompter, mais parce qu'elles n'utilisent pas les techniques qui font vraiment la différence.

Ce qui marche en pratique

Le few-shot prompting — injecter 3 à 5 exemples entrée/sortie dans le prompt — améliore les performances de façon souvent spectaculaire sur les tâches de classification ou de génération structurée. Sur GPT-4o comme sur Claude Sonnet, passer d'un prompt zéro-shot à un prompt five-shot peut réduire le taux d'erreur de moitié sur des tâches d'extraction d'entités.

Le chain-of-thought (inciter le modèle à raisonner étape par étape avant de répondre) améliore significativement les tâches de raisonnement et de vérification. Des études de Google DeepMind ont montré des gains de 10 à 30 points de précision sur des benchmarks de raisonnement logique avec cette seule technique (Wei et al., 2022).

Le prompt système structuré (rôle + contraintes + format de sortie + exemples) est le minimum viable pour tout usage métier. Un prompt système de 300 à 600 mots, bien rédigé une fois, évite souvent des semaines de développement.

Les vraies limites du prompting

Le prompting a deux limites structurelles qu'on ne peut pas contourner.

La première : la fenêtre de contexte. Même avec des modèles à 128 K ou 200 K tokens de contexte, injecter 300 documents à chaque requête n'est pas viable en production — ni en coût, ni en latence. Dès que votre base documentaire dépasse quelques dizaines de pages utiles, le RAG s'impose.

La seconde : le comportement ne se mémorise pas. Si vous devez rappeler vos conventions de style, votre vocabulaire interne ou vos règles de raisonnement dans chaque prompt, c'est fragile. Un utilisateur qui oublie le prompt système obtient un résultat dégradé. Le fine-tuning règle ce problème à la source.

Le RAG : la bonne réponse pour 80 % des besoins documentaires

Environ 80 % des besoins initialement présentés comme nécessitant du fine-tuning se résolvent en réalité avec un bon système RAG. C'est un chiffre terrain, pas une statistique publiée — mais toute équipe qui a fait les deux projets vous dira la même chose.

Quand le RAG est clairement le bon choix

Si vous voulez que l'IA réponde aux questions de vos commerciaux sur votre catalogue produits, que vos équipes RH consultent vos procédures internes, ou que votre service client accède aux conditions contractuelles en temps réel — c'est du RAG.

Le RAG est traçable (on sait quels documents ont alimenté la réponse), maintenable (mettre à jour un document dans la base suffit, pas besoin de réentraîner), et rapide à déployer. Un premier prototype fonctionnel sur vos documents avec des outils comme LangChain, LlamaIndex ou un pipeline maison se construit en quelques jours. Notre article sur le fonctionnement du RAG détaille la mécanique complète.

Ce que le RAG ne fait pas bien

Le RAG ne change pas le comportement du modèle. Si votre LLM répond dans un style trop générique, trop formel ou avec un jargon différent du vôtre, le RAG n'y changera rien. Il donne de la connaissance, pas du style.

Il est aussi sensible à la qualité du retrieval : si les bons documents ne sont pas retrouvés, la réponse sera mauvaise même avec un excellent LLM. Optimiser un système RAG — chunking, reranking, retrieval hybride BM25 + vectoriel — est un vrai sujet technique que beaucoup sous-estiment au départ.

Le fine-tuning : puissant, mais pour des cas précis

Le fine-tuning est l'outil le plus engageant des trois. Il exige un jeu de données constitué, annoté, validé par des experts métier. Il prend plusieurs semaines de bout en bout. Et il se périme si vos données changent souvent.

Pour aller plus loin sur les cas d'usage, le budget réel et les conditions de réussite, notre article dédié au fine-tuning LLM en PME couvre tout ça en détail. Voici l'essentiel à retenir pour la décision.

Les trois cas où le fine-tuning s'impose

Style très codifié. Vos rapports, vos courriers, vos livrables ont des conventions précises que ni le prompt ni le RAG ne permettent d'ancrer durablement. Un fine-tuning sur 500 à 1 500 exemples de vos meilleures productions transforme radicalement la cohérence des sorties. Le modèle les reproduit sans qu'on ait besoin de les rappeler à chaque requête.

Jargon métier absent du pré-entraînement. Nomenclatures industrielles, codifications internes, terminologie clinique ultra-spécialisée — si le modèle trébuche régulièrement sur votre vocabulaire malgré un glossaire dans le prompt, le fine-tuning intègre ce vocabulaire au niveau des paramètres.

Tâche répétitive à très fort volume. Classification de milliers d'emails par jour, extraction d'entités sur des factures, détection de clauses dans des contrats — sur ces tâches délimitées et stables, un modèle fine-tuné plus petit (Mistral 7B, Phi-4 Mini) peut atteindre les performances de GPT-4 à un coût d'inférence bien inférieur. Quand ça se confirme sur votre jeu de test, le ROI est réel et mesurable.

Quand éviter le fine-tuning

Deux signaux clairs indiquent qu'il faut résister à l'envie de fine-tuner.

Vos données changent souvent. Si votre catalogue évolue chaque mois, si vos procédures sont révisées régulièrement, le fine-tuning se périme et exige un réentraînement coûteux. Le RAG, lui, se met à jour en quelques heures.

Vous n'avez pas encore de cas d'usage stable. "Améliorer la qualité des réponses" n'est pas une tâche fine-tunable. "Classer les tickets entrants en 8 catégories avec une précision > 90 %" en est une. Sans définition précise de la tâche et sans exemples de qualité, le projet tournera mal.

Les combinaisons qui marchent vraiment

La vraie question n'est pas "laquelle des trois" mais "laquelle d'abord, et lesquelles ensuite". Voici les combinaisons qui donnent les meilleurs résultats en production.

RAG + prompting structuré (la combinaison de base)

C'est le point de départ de presque tous nos projets assistants internes. Le RAG fournit la connaissance documentaire. Le prompt système définit le rôle, le ton, les contraintes de format et quelques exemples few-shot. Ensemble, ils couvrent la grande majorité des besoins sans fine-tuning.

On utilise LangChain ou LlamaIndex pour l'orchestration, Qdrant ou Chroma pour la base vectorielle, et un reranker Cohere ou BGE pour améliorer la précision du retrieval. C'est une stack éprouvée, documentée, et maintenant accessible à des équipes techniques de taille modeste.

Fine-tuning + RAG (l'architecture avancée)

Pour les cas où le comportement et la connaissance doivent tous les deux être maîtrisés. Le modèle est fine-tuné sur le style et le raisonnement attendus. Le RAG lui fournit les informations à jour au moment de la requête. Résultat : des réponses bien formées ET bien informées, sans avoir à tout injecter dans un prompt géant.

C'est l'architecture qu'on met en place pour des applications LLM métier où les deux dimensions comptent — un assistant commercial qui doit répondre dans le ton de l'entreprise sur ses propres données produits, par exemple.

Prompting + fine-tuning (sans RAG)

Moins courant, mais pertinent pour les tâches de transformation pure (reformulation, classification, extraction) sur des données structurées qui n'ont pas besoin d'un retrieval documentaire. On fine-tune pour la tâche, et on utilise le prompt pour ajuster le comportement au contexte de chaque requête.

Comparatif synthétique : coûts, délais, complexité

Prompting RAG Fine-tuning
Délai de mise en œuvre Heures à jours Jours à semaines Semaines à mois
Coût de démarrage Quasi nul 3 000 – 15 000 € 3 000 – 25 000 €
Maintenabilité Facile Facile (mise à jour des docs) Lourde (réentraînement si data change)
Connaissances documentaires Limitée (fenêtre de contexte) Excellente Nulle (pas d'accès aux docs)
Adaptation du style/comportement Partielle Nulle Excellente
Traçabilité des sources Nulle Excellente Nulle
Donnees requises Aucune Documents internes 500 – 10 000 exemples annotés

Les pièges à éviter (et ce qu'on voit trop souvent)

Trois erreurs reviennent systématiquement dans les projets LLM qu'on audite.

Sauter directement au fine-tuning. C'est le piège classique. Le fine-tuning est présenté comme "l'IA vraiment adaptée à votre métier" — ce qui est vrai, mais ça ne veut pas dire que c'est la seule façon d'y arriver, ni la première à tester. Dans la grande majorité des cas, un RAG bien construit ou un prompt engineering structuré règle le problème plus vite et moins cher.

Déployer un RAG sans s'occuper de la qualité du retrieval. Un RAG qui retrouve les mauvais documents est pire qu'un modèle sans RAG : il répond avec confiance sur des bases erronées. Le chunking, le reranking et l'évaluation du retrieval (hit rate, MRR) ne sont pas optionnels. Notre article sur l'optimisation du système RAG détaille ce qui mérite vraiment votre attention.

Prompting approximatif, puis frustration. "On a essayé, ça ne marche pas" avec un prompt de deux phrases ne prouve rien. Un bon prompt système structuré (rôle, contraintes, exemples, format) prend du temps à écrire et à tester. Ce n'est pas parce que la première version ne donne pas satisfaction que l'approche est invalide.

Pour aller plus loin

Vous hésitez encore ?

Discutons de votre cas d'usage. 30 minutes pour savoir quelle approche s'impose vraiment.

Réserver un échange

En résumé : la séquence à suivre

Prompting d'abord. Toujours. Pas un prompt de deux lignes lancé en cinq minutes — un prompt système structuré, avec des exemples, des contraintes de format, un rôle défini. Ça prend deux heures à bien faire et ça peut éviter deux mois de développement.

Si le problème est documentaire — vos équipes ont besoin d'informations issues de vos propres fichiers, procédures ou contrats — passez au RAG. C'est rapide à déployer, facile à maintenir, et ça règle 80 % des besoins en assistants internes.

Si, après ça, le style est encore trop générique, le jargon trop mal maîtrisé, ou la tâche répétitive trop imprécise à très fort volume : c'est là que le fine-tuning devient pertinent. Pas avant.

Et souvent, la meilleure architecture finit par combiner les trois. RAG + prompt système structuré pour les assistants documentaires. Fine-tuning + RAG pour les cas où comportement et connaissance doivent être maîtrisés ensemble. Pas de recette universelle — juste une logique de progression par la complexité croissante, validée à chaque étape avant de passer à la suivante.

Passer à l'action

Vous voulez appliquer ça dans votre entreprise ?

En quelques minutes, identifiez les cas d'usage IA les plus rentables pour votre métier. Sans engagement, et sans jargon.

Demander un devis

Articles liés

Outils & Modèles

Top SLM 2026 : les meilleurs petits modèles de langage

Comparatif des meilleurs SLM 2026 : Ministral, Phi-4-mini, Qwen2.5, Gemma 3, SmolLM2, Llama 3.2. Tailles, licences, VRAM, cas d'usage et RGPD pour les PME.

Lire l'article
Outils & Modèles

SLM vs LLM : quel modèle d'IA choisir en PME

SLM vs LLM : comparatif décisionnel complet. Coûts, latence, VRAM, souveraineté, cas d'usage. Quand le petit modèle gagne — et quand le LLM reste indispensable.

Lire l'article
Outils & Modèles

SLM : le guide des Small Language Models en entreprise

Small language model entreprise : définition, panorama des SLM (Phi-4, Mistral, Qwen, Gemma), comparatif coût/VRAM vs LLM, quand un SLM suffit et comment le spécialiser avec LoRA.

Lire l'article
Outils & Modèles

SLM on-device : l'IA générative en local et en edge

SLM on-device : faire tourner un modèle IA en local sur poste ou edge sans cloud. Outils (Ollama, llama.cpp), modèles 1B–8B, matériel requis, limites.

Lire l'article
Outils & Modèles

Router SLM/LLM : l'architecture hybride qui réduit les coûts

Architecture hybride SLM/LLM : comment router chaque requête vers le bon modèle pour diviser vos coûts d'inférence par 5 à 10. Outils, tableau €, pièges à éviter.

Lire l'article
Outils & Modèles

Quantization de LLM : faire tourner un modèle sur petit GPU

Quantization LLM : comment passer d'un modèle 7B de 14 Go en fp16 à 4 Go en int4 avec GGUF, GPTQ ou AWQ, sans sacrifier la qualité. Guide pratique 2026.

Lire l'article
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.