Par quoi commencer : prompting, RAG ou fine-tuning ?

Toujours commencer par le prompting. Si un bon prompt système bien construit (avec contexte, exemples et instructions de format) ne suffit pas, passer au RAG si le problème est d'ordre documentaire. Le fine-tuning n'intervient qu'en dernier recours, lorsque ni le prompt ni le RAG ne permettent d'obtenir le comportement voulu — pour un style très codifié, un jargon absent du pré-entraînement, ou une tâche répétitive à très fort volume.

Le RAG et le fine-tuning peuvent-ils être combinés ?

Oui, et c'est souvent l'architecture la plus performante pour les cas d'usage métier complexes. Le fine-tuning ancre le comportement, le style et le raisonnement du modèle ; le RAG lui fournit la connaissance documentaire à jour. Concrètement : un modèle fine-tuné sur le ton et les conventions de rédaction d'une entreprise, couplé à un RAG sur ses procédures internes, donne des réponses bien formées ET bien informées.

Quand le prompting ne suffit-il plus ?

Le prompting montre ses limites dans plusieurs cas : (1) le contexte utile dépasse la fenêtre de contexte du modèle (des centaines de documents à injecter), (2) le style ou le comportement attendu est si spécifique qu'il faut le rappeler dans chaque prompt sans jamais l'ancrer, (3) la latence ou le coût des tokens de contexte est prohibitif à l'échelle, (4) le jargon métier est absent des données d'entraînement du modèle et le prompt ne suffit pas à le faire raisonner correctement.

Quel est le coût comparé des trois approches ?

Le prompting est le moins cher : seul le coût des tokens API est en jeu, avec aucun développement structurel requis pour démarrer. Le RAG nécessite une infrastructure (base vectorielle, pipeline d'ingestion, reranker) : comptez entre 3 000 et 15 000 € pour un premier déploiement selon la complexité. Le fine-tuning est le plus cher : de 3 000 à 25 000 € pour un projet PME, avec des coûts récurrents si les données évoluent et nécessitent un réentraînement.

Comment choisir entre RAG et prompting pour un assistant interne ?

Si vos documents internes (procédures, contrats, fiches produits) tiennent en quelques pages, un prompt contextualisé peut suffire. Dès que le volume documentaire dépasse la fenêtre de contexte, que les informations changent souvent, ou que vous avez besoin de traçabilité sur les sources citées, le RAG est la bonne réponse. C'est quasi-systématiquement le cas pour un vrai assistant interne en PME.

Fine-tuning, RAG ou prompting : quand choisir quoi

Q: Quelle est la différence entre prompting, RAG et fine-tuning ?

Le prompting consiste à formuler des instructions précises dans le message envoyé au modèle, sans modifier ni le modèle ni son accès à l'information. Le RAG (Retrieval-Augmented Generation) laisse le modèle intact mais lui fournit des documents pertinents au moment de la requête, pour qu'il réponde avec des informations récentes ou internes. Le fine-tuning réentraîne le modèle sur vos propres données pour modifier durablement son comportement, son style ou sa maîtrise d'un jargon métier.

Q: Pourquoi sauter directement au fine-tuning est une erreur fréquente ?

Parce que le fine-tuning est l'approche la plus coûteuse, la plus longue à mettre en œuvre et la plus rigide à maintenir. Dans les projets que nous accompagnons, environ 80 % des besoins présentés comme nécessitant du fine-tuning se résolvent avec un bon RAG ou un prompt engineering avancé. Le fine-tuning est pertinent, mais il exige un cas d'usage stable, des données de qualité et un horizon de déploiement de plusieurs semaines.

Fine-tuning vs RAG vs prompting : arbre de décision pour choisir comment adapter un LLM à votre métier

Pour fine-tuning vs RAG vs prompting, la réponse courte : commencez par le prompting, passez au RAG si votre problème est documentaire, et n'envisagez le fine-tuning que si ni l'un ni l'autre ne suffit. Dans la pratique, cette séquence évite de brûler un budget de fine-tuning sur un problème qu'un bon prompt système aurait réglé en une heure.

Cet article compare les trois approches ensemble — ce que chacune fait réellement, dans quelles conditions elle s'impose, ce qu'elle coûte, et comment les combiner quand la situation l'exige. L'objectif est de vous donner un arbre de décision utilisable, pas une liste de pour/contre abstraite.

Les trois approches en une phrase chacune

Avant de comparer, posons les définitions avec précision.

Le prompting consiste à formuler des instructions détaillées dans le message envoyé au modèle : rôle, contexte, exemples, format de sortie attendu. Le modèle ne change pas — c'est votre formulation qui change. Avec un LLM comme GPT-4o, Claude Sonnet ou Mistral Large, un prompt système bien construit peut produire des résultats très convaincants, même sans toucher au modèle ni à son infrastructure.

Le RAG (Retrieval-Augmented Generation) garde le modèle intact mais lui fournit des documents pertinents au moment de la requête. Un pipeline de recherche (souvent vectoriel + BM25) récupère les passages les plus utiles dans votre base documentaire, et les insère dans le contexte envoyé au LLM. Le modèle répond alors avec des informations récentes, internes, traçables — sans les mémoriser de façon permanente.

Le fine-tuning modifie le modèle lui-même en le réentraînant sur vos données. Avec des techniques comme LoRA ou QLoRA, on n'ajuste qu'une fraction des paramètres, ce qui rend l'opération accessible à une PME. Le résultat : un modèle qui intègre durablement votre style, votre jargon ou votre raisonnement métier, sans avoir besoin de les rappeler dans chaque prompt.

Pourquoi cette question est mal posée en général

La plupart des comparatifs RAG vs fine-tuning (dont notre propre article RAG vs fine-tuning : comment choisir) oublient l'option la plus rapide et la moins chère : simplement mieux prompter.

C'est un piège classique. On arrive avec un besoin métier ("le modèle ne répond pas comme nos conseillers le feraient"), on ouvre une discussion sur l'architecture, et très vite on parle de fine-tuning. Puis on découvre six semaines plus tard qu'un prompt système de 400 mots avec trois exemples few-shot aurait donné 90 % du résultat.

Soyons précis : les trois approches ne sont pas en compétition égale. Elles répondent à des problèmes différents, à des niveaux différents de complexité et de coût. La bonne question n'est pas "laquelle choisir ?" mais "jusqu'où dois-je aller pour résoudre mon problème ?"

L'arbre de décision : par où commencer

Voici comment raisonner, dans l'ordre.

Votre problème	Première réponse	Si ça ne suffit pas
Le modèle ne répond pas dans le bon format ou le bon ton	Prompting (instructions + exemples few-shot)	Fine-tuning sur le style
Le modèle ne connaît pas vos documents internes	RAG sur votre base documentaire	RAG + reranking optimisé
Le modèle ne maîtrise pas votre jargon métier	Prompting (glossaire dans le contexte)	Fine-tuning sur le vocabulaire
Le modèle donne des réponses génériques sur vos produits/procédures	RAG sur vos fiches et procédures	RAG + fine-tuning du comportement
Une tâche répétitive (classification, extraction) manque de précision	Prompt structuré + exemples few-shot	Fine-tuning sur la tâche ciblée
Les réponses sont correctes mais coûtent trop cher en tokens à l'échelle	Prompt plus court + modèle plus petit	Fine-tuning sur SLM léger

La règle de décision est simple : commencer par la solution la moins engageante. Tester. Mesurer. Passer au niveau supérieur seulement si les résultats ne sont pas au rendez-vous.

Le prompting : ce qu'on peut vraiment en tirer

Un bon prompt engineering avancé est sous-exploité dans la plupart des entreprises. Non pas parce qu'elles ne savent pas prompter, mais parce qu'elles n'utilisent pas les techniques qui font vraiment la différence.

Ce qui marche en pratique

Le few-shot prompting — injecter 3 à 5 exemples entrée/sortie dans le prompt — améliore les performances de façon souvent spectaculaire sur les tâches de classification ou de génération structurée. Sur GPT-4o comme sur Claude Sonnet, passer d'un prompt zéro-shot à un prompt five-shot peut réduire le taux d'erreur de moitié sur des tâches d'extraction d'entités.

Le chain-of-thought (inciter le modèle à raisonner étape par étape avant de répondre) améliore significativement les tâches de raisonnement et de vérification. Des études de Google DeepMind ont montré des gains de 10 à 30 points de précision sur des benchmarks de raisonnement logique avec cette seule technique (Wei et al., 2022).

Le prompt système structuré (rôle + contraintes + format de sortie + exemples) est le minimum viable pour tout usage métier. Un prompt système de 300 à 600 mots, bien rédigé une fois, évite souvent des semaines de développement.

Les vraies limites du prompting

Le prompting a deux limites structurelles qu'on ne peut pas contourner.

La première : la fenêtre de contexte. Même avec des modèles à 128 K ou 200 K tokens de contexte, injecter 300 documents à chaque requête n'est pas viable en production — ni en coût, ni en latence. Dès que votre base documentaire dépasse quelques dizaines de pages utiles, le RAG s'impose.

La seconde : le comportement ne se mémorise pas. Si vous devez rappeler vos conventions de style, votre vocabulaire interne ou vos règles de raisonnement dans chaque prompt, c'est fragile. Un utilisateur qui oublie le prompt système obtient un résultat dégradé. Le fine-tuning règle ce problème à la source.

Le RAG : la bonne réponse pour 80 % des besoins documentaires

Environ 80 % des besoins initialement présentés comme nécessitant du fine-tuning se résolvent en réalité avec un bon système RAG. C'est un chiffre terrain, pas une statistique publiée — mais toute équipe qui a fait les deux projets vous dira la même chose.

Quand le RAG est clairement le bon choix

Si vous voulez que l'IA réponde aux questions de vos commerciaux sur votre catalogue produits, que vos équipes RH consultent vos procédures internes, ou que votre service client accède aux conditions contractuelles en temps réel — c'est du RAG.

Le RAG est traçable (on sait quels documents ont alimenté la réponse), maintenable (mettre à jour un document dans la base suffit, pas besoin de réentraîner), et rapide à déployer. Un premier prototype fonctionnel sur vos documents avec des outils comme LangChain, LlamaIndex ou un pipeline maison se construit en quelques jours. Notre article sur le fonctionnement du RAG détaille la mécanique complète.

Ce que le RAG ne fait pas bien

Le RAG ne change pas le comportement du modèle. Si votre LLM répond dans un style trop générique, trop formel ou avec un jargon différent du vôtre, le RAG n'y changera rien. Il donne de la connaissance, pas du style.

Il est aussi sensible à la qualité du retrieval : si les bons documents ne sont pas retrouvés, la réponse sera mauvaise même avec un excellent LLM. Optimiser un système RAG — chunking, reranking, retrieval hybride BM25 + vectoriel — est un vrai sujet technique que beaucoup sous-estiment au départ.

Le fine-tuning : puissant, mais pour des cas précis

Le fine-tuning est l'outil le plus engageant des trois. Il exige un jeu de données constitué, annoté, validé par des experts métier. Il prend plusieurs semaines de bout en bout. Et il se périme si vos données changent souvent.

Pour aller plus loin sur les cas d'usage, le budget réel et les conditions de réussite, notre article dédié au fine-tuning LLM en PME couvre tout ça en détail. Voici l'essentiel à retenir pour la décision.

Les trois cas où le fine-tuning s'impose

Style très codifié. Vos rapports, vos courriers, vos livrables ont des conventions précises que ni le prompt ni le RAG ne permettent d'ancrer durablement. Un fine-tuning sur 500 à 1 500 exemples de vos meilleures productions transforme radicalement la cohérence des sorties. Le modèle les reproduit sans qu'on ait besoin de les rappeler à chaque requête.

Jargon métier absent du pré-entraînement. Nomenclatures industrielles, codifications internes, terminologie clinique ultra-spécialisée — si le modèle trébuche régulièrement sur votre vocabulaire malgré un glossaire dans le prompt, le fine-tuning intègre ce vocabulaire au niveau des paramètres.

Tâche répétitive à très fort volume. Classification de milliers d'emails par jour, extraction d'entités sur des factures, détection de clauses dans des contrats — sur ces tâches délimitées et stables, un modèle fine-tuné plus petit (Mistral 7B, Phi-4 Mini) peut atteindre les performances de GPT-4 à un coût d'inférence bien inférieur. Quand ça se confirme sur votre jeu de test, le ROI est réel et mesurable.

Quand éviter le fine-tuning

Deux signaux clairs indiquent qu'il faut résister à l'envie de fine-tuner.

Vos données changent souvent. Si votre catalogue évolue chaque mois, si vos procédures sont révisées régulièrement, le fine-tuning se périme et exige un réentraînement coûteux. Le RAG, lui, se met à jour en quelques heures.

Vous n'avez pas encore de cas d'usage stable. "Améliorer la qualité des réponses" n'est pas une tâche fine-tunable. "Classer les tickets entrants en 8 catégories avec une précision > 90 %" en est une. Sans définition précise de la tâche et sans exemples de qualité, le projet tournera mal.

Les combinaisons qui marchent vraiment

La vraie question n'est pas "laquelle des trois" mais "laquelle d'abord, et lesquelles ensuite". Voici les combinaisons qui donnent les meilleurs résultats en production.

RAG + prompting structuré (la combinaison de base)

C'est le point de départ de presque tous nos projets assistants internes. Le RAG fournit la connaissance documentaire. Le prompt système définit le rôle, le ton, les contraintes de format et quelques exemples few-shot. Ensemble, ils couvrent la grande majorité des besoins sans fine-tuning.

On utilise LangChain ou LlamaIndex pour l'orchestration, Qdrant ou Chroma pour la base vectorielle, et un reranker Cohere ou BGE pour améliorer la précision du retrieval. C'est une stack éprouvée, documentée, et maintenant accessible à des équipes techniques de taille modeste.

Fine-tuning + RAG (l'architecture avancée)

Pour les cas où le comportement et la connaissance doivent tous les deux être maîtrisés. Le modèle est fine-tuné sur le style et le raisonnement attendus. Le RAG lui fournit les informations à jour au moment de la requête. Résultat : des réponses bien formées ET bien informées, sans avoir à tout injecter dans un prompt géant.

C'est l'architecture qu'on met en place pour des applications LLM métier où les deux dimensions comptent — un assistant commercial qui doit répondre dans le ton de l'entreprise sur ses propres données produits, par exemple.

Prompting + fine-tuning (sans RAG)

Moins courant, mais pertinent pour les tâches de transformation pure (reformulation, classification, extraction) sur des données structurées qui n'ont pas besoin d'un retrieval documentaire. On fine-tune pour la tâche, et on utilise le prompt pour ajuster le comportement au contexte de chaque requête.

Comparatif synthétique : coûts, délais, complexité

	Prompting	RAG	Fine-tuning
Délai de mise en œuvre	Heures à jours	Jours à semaines	Semaines à mois
Coût de démarrage	Quasi nul	3 000 – 15 000 €	3 000 – 25 000 €
Maintenabilité	Facile	Facile (mise à jour des docs)	Lourde (réentraînement si data change)
Connaissances documentaires	Limitée (fenêtre de contexte)	Excellente	Nulle (pas d'accès aux docs)
Adaptation du style/comportement	Partielle	Nulle	Excellente
Traçabilité des sources	Nulle	Excellente	Nulle
Donnees requises	Aucune	Documents internes	500 – 10 000 exemples annotés

Les pièges à éviter (et ce qu'on voit trop souvent)

Trois erreurs reviennent systématiquement dans les projets LLM qu'on audite.

Sauter directement au fine-tuning. C'est le piège classique. Le fine-tuning est présenté comme "l'IA vraiment adaptée à votre métier" — ce qui est vrai, mais ça ne veut pas dire que c'est la seule façon d'y arriver, ni la première à tester. Dans la grande majorité des cas, un RAG bien construit ou un prompt engineering structuré règle le problème plus vite et moins cher.

Déployer un RAG sans s'occuper de la qualité du retrieval. Un RAG qui retrouve les mauvais documents est pire qu'un modèle sans RAG : il répond avec confiance sur des bases erronées. Le chunking, le reranking et l'évaluation du retrieval (hit rate, MRR) ne sont pas optionnels. Notre article sur l'optimisation du système RAG détaille ce qui mérite vraiment votre attention.

Prompting approximatif, puis frustration. "On a essayé, ça ne marche pas" avec un prompt de deux phrases ne prouve rien. Un bon prompt système structuré (rôle, contraintes, exemples, format) prend du temps à écrire et à tester. Ce n'est pas parce que la première version ne donne pas satisfaction que l'approche est invalide.

Pour aller plus loin

RAG vs fine-tuning : comparatif détaillé — le tableau de décision approfondi sur ces deux approches, avec coûts réels et arbre de décision.
Prompt engineering avancé pour les entreprises — les techniques qui font vraiment la différence : few-shot, chain-of-thought, prompt système structuré.
Fine-tuning LLM en PME : quand ça vaut le coup — les 4 cas où investir, le budget réel en 2026, la méthode pas à pas.
Guide complet sur le RAG — comment fonctionne le Retrieval-Augmented Generation, pourquoi et quand le choisir.
Optimiser son système RAG — chunking, reranking, retrieval hybride : ce qui change vraiment les performances.
Chain-of-Thought Prompting Elicits Reasoning in LLMs (Wei et al., Google, 2022) — l'étude de référence sur l'impact du raisonnement guidé.
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., Meta AI) — le papier fondateur du RAG, pour comprendre les fondements.

Vous hésitez encore ?

Discutons de votre cas d'usage. 30 minutes pour savoir quelle approche s'impose vraiment.

Réserver un échange

En résumé : la séquence à suivre

Prompting d'abord. Toujours. Pas un prompt de deux lignes lancé en cinq minutes — un prompt système structuré, avec des exemples, des contraintes de format, un rôle défini. Ça prend deux heures à bien faire et ça peut éviter deux mois de développement.

Si le problème est documentaire — vos équipes ont besoin d'informations issues de vos propres fichiers, procédures ou contrats — passez au RAG. C'est rapide à déployer, facile à maintenir, et ça règle 80 % des besoins en assistants internes.

Si, après ça, le style est encore trop générique, le jargon trop mal maîtrisé, ou la tâche répétitive trop imprécise à très fort volume : c'est là que le fine-tuning devient pertinent. Pas avant.

Et souvent, la meilleure architecture finit par combiner les trois. RAG + prompt système structuré pour les assistants documentaires. Fine-tuning + RAG pour les cas où comportement et connaissance doivent être maîtrisés ensemble. Pas de recette universelle — juste une logique de progression par la complexité croissante, validée à chaque étape avant de passer à la suivante.