Tensoria
Parlons de votre projet : 07 82 80 51 40
RAG & Connaissances Par

RAG multimodal : indexer images, PDF et tableaux

Read this article in English →
Pipeline RAG multimodal traitant des documents visuels, PDF scannés et tableaux en entreprise

Votre système RAG répond bien aux questions quand les documents sont du texte propre. Mais quand un utilisateur demande "quel est le diamètre du tuyau sur le plan de la page 12 ?" ou "quel montant figure dans le tableau récapitulatif de la facture ?", c'est le silence. Le RAG textuel classique ne voit tout simplement pas ces contenus.

Or en entreprise, une part considérable de la connaissance est visuelle : plans techniques, factures scannées, tableaux dans des rapports PDF, schémas d'architecture, photos de chantier annotées. Ignorer ces documents, c'est laisser des angles morts majeurs dans votre assistant IA.

Le RAG multimodal résout ce problème en permettant d'indexer et d'interroger non seulement du texte, mais aussi des images, des PDF scannés et des tableaux complexes. Cet article détaille les trois approches techniques disponibles en 2026, leurs forces, leurs limites et les cas d'usage concrets où le multimodal fait la différence.

En bref

  • • Le RAG textuel classique ignore images, PDF scannés et tableaux complexes
  • • Trois approches : OCR + chunking, modèles de vision (GPT-4o, Claude), embeddings visuels (ColPali/ColQwen)
  • • Le choix dépend du type de documents, du budget et de l'exigence de précision
  • • En production, une approche hybride combinant OCR et vision donne les meilleurs résultats
  • • Le multimodal coûte 3 à 8 fois plus cher que le RAG textuel pur, mais il débloque des cas d'usage impossibles autrement

Pourquoi le RAG textuel ne suffit plus

Un système RAG classique fonctionne en trois étapes : découper les documents en chunks de texte, les transformer en embeddings vectoriels, puis retrouver les passages pertinents pour alimenter un LLM. C'est puissant, mais cette chaîne repose sur une hypothèse forte : les documents sont du texte extractible.

En réalité, quand on audite la base documentaire d'une entreprise, on découvre rapidement que cette hypothèse ne tient pas. Voici ce qu'on observe systématiquement :

  • PDF scannés : les factures, contrats anciens et courriers numérisés ne contiennent aucune couche texte. Un extracteur PDF classique ne renvoie rien.
  • Plans techniques : les schémas, plans d'architecture et dessins industriels portent de l'information critique dans les annotations visuelles, pas dans du texte structuré.
  • Tableaux complexes : les tableaux avec cellules fusionnées, en-têtes imbriqués ou mises en forme spécifiques perdent toute structure quand on les extrait en texte brut.
  • Images annotées : les photos de chantier, captures d'écran et infographies contiennent des informations qu'aucun parser textuel ne sait lire.

Chiffre terrain

Sur nos projets RAG en bureau d'études et en industrie, entre 30 et 60 % des documents contiennent des éléments visuels porteurs d'information critique. Un RAG qui ignore ces contenus ne peut tout simplement pas répondre à une question sur deux. C'est une des erreurs classiques des projets RAG : sous-estimer la diversité des formats documentaires.

Le constat est simple : si votre base documentaire contient des éléments visuels critiques, un RAG purement textuel est structurellement incomplet. Il faut passer au multimodal.

Les trois approches du RAG multimodal

Il n'existe pas une seule façon de rendre un RAG multimodal. Trois approches se distinguent, chacune avec ses forces et ses compromis. Le bon choix dépend de vos documents, de votre budget et de votre exigence de précision.

Approche 1 : OCR + chunking textuel

L'approche la plus éprouvée. On convertit les images et PDF scannés en texte via un moteur OCR, puis on traite ce texte comme n'importe quel document dans un pipeline RAG classique.

Comment ça fonctionne :

  1. Les PDF scannés passent par un OCR (Tesseract, Azure Document Intelligence, Google Document AI)
  2. Le texte extrait est nettoyé, structuré et découpé en chunks
  3. Les chunks sont transformés en embeddings et indexés dans une base vectorielle
  4. La recherche et la génération suivent le pipeline RAG standard

Forces : mature, bien outillé, coût maîtrisé, compatible avec toute infrastructure RAG existante. Limites : perd l'information spatiale (mise en page, position des éléments), les tableaux complexes sont mal restitués, et l'OCR reste faillible sur les documents de mauvaise qualité (scans anciens, écriture manuscrite). Pour choisir la bonne stack selon votre corpus (PDF natif ou scanné), notre article sur l'extraction PDF par IA en 2026 compare les architectures et les outils disponibles avec les métriques associées.

Quand choisir cette approche

Vos documents sont principalement du texte scanné (contrats, courriers, factures simples) et vous avez déjà un pipeline RAG en production. L'OCR est un ajout incrémental, pas une refonte.

Approche 2 : modèles de vision (GPT-4o, Claude Vision, Gemini)

Plutôt que d'extraire le texte des images, on envoie directement les images à un modèle multimodal capable de les "voir" et de les comprendre. C'est un changement de paradigme : le modèle ne lit pas du texte extrait, il regarde le document.

Comment ça fonctionne :

  1. Chaque page de document est convertie en image (rendu PDF vers PNG/JPEG)
  2. À l'étape de retrieval, les pages candidates sont identifiées (par métadonnées, OCR léger, ou embedding visuel)
  3. Les images des pages pertinentes sont envoyées au modèle de vision avec la question de l'utilisateur
  4. Le modèle analyse visuellement le document et génère la réponse

Forces : comprend la mise en page, lit les tableaux tels qu'ils sont, interprète les schémas et annotations visuelles. Limites : coût élevé par requête (chaque image consomme des tokens), latence plus importante, et le modèle ne peut traiter qu'un nombre limité d'images par requête.

Approche 3 : embeddings visuels directs (ColPali, ColQwen)

C'est l'approche la plus récente et la plus prometteuse à moyen terme. Au lieu de convertir les images en texte, on les transforme directement en vecteurs, exactement comme on le fait avec du texte dans un RAG classique.

Comment ça fonctionne :

  1. Chaque page est transformée en un ensemble d'embeddings visuels par un modèle comme ColPali ou ColQwen2
  2. Ces embeddings capturent à la fois le contenu textuel et la structure visuelle de la page
  3. La requête utilisateur est elle aussi transformée en embedding (textuel)
  4. La recherche de similarité identifie les pages les plus pertinentes, qui sont ensuite envoyées à un modèle de vision pour la génération

Forces : pas besoin d'OCR, recherche nativement multimodale, fonctionne sur tous types de documents sans preprocessing complexe. Limites : les embeddings visuels sont plus volumineux (stockage), la technologie est encore jeune, et le fine-tuning sur des domaines spécifiques reste un chantier ouvert.

Comparatif des trois approches

Critère OCR + chunking Modèles de vision ColPali / ColQwen
Maturité Élevée Bonne Émergente
Compréhension visuelle Faible Excellente Bonne
Coût par document Bas Élevé Moyen
Latence Faible Élevée Moyenne
Tableaux complexes Fragile Bon Variable
Intégration existante Immédiate Modérée Refonte partielle

Le cas spécifique des tableaux

Les tableaux méritent un traitement à part, car ils concentrent souvent l'information la plus critique (chiffres, comparatifs, spécifications) et sont aussi les plus difficiles à indexer correctement.

Extraction structurée pour les PDF natifs

Quand le PDF est natif (créé numériquement, pas scanné), les tableaux ont une structure sous-jacente exploitable. Des outils comme Camelot, Tabula ou pdfplumber en Python extraient les tableaux en CSV ou DataFrame pandas. On peut ensuite les convertir en Markdown ou en texte structuré pour l'indexation RAG.

Cette approche fonctionne bien sur les tableaux simples et moyennement complexes. Elle échoue sur les cellules fusionnées, les tableaux sans bordures explicites et les mises en page non standard.

Approche vision pour les tableaux complexes

Pour les tableaux scannés ou visuellement complexes, la meilleure stratégie actuelle est de capturer le tableau en image et de l'envoyer à un modèle de vision avec un prompt structuré : "Extrais les données de ce tableau au format Markdown, en préservant la structure des lignes et colonnes."

Les modèles comme GPT-4o et Claude 3.5 Sonnet obtiennent des résultats remarquables sur cette tâche. Sur nos tests, le taux d'extraction correcte dépasse 90 % sur les tableaux standard et reste au-dessus de 75 % sur les tableaux complexes avec cellules fusionnées.

Bonne pratique terrain

La combinaison qui fonctionne le mieux en production : tenter d'abord l'extraction structurée avec pdfplumber. Si le résultat est incohérent (nombre de colonnes variable, cellules vides inattendues), basculer automatiquement sur l'approche vision. Ce fallback hybride coûte un peu plus cher mais garantit un taux d'extraction fiable sur l'ensemble du corpus.

Pipeline concret : de l'ingestion à la réponse

Voici le pipeline que nous mettons en place chez Tensoria pour les assistants RAG multimodaux. Il combine les trois approches selon le type de document.

Étape 1 : classification et routage des documents

Chaque document entrant est d'abord classifié automatiquement :

  • PDF natif textuel → extraction texte classique + extraction structurée des tableaux
  • PDF scanné → OCR (Azure Document Intelligence ou Google Document AI) + vision pour les pages complexes
  • Image pure (plan, schéma, photo) → description par modèle de vision + embedding visuel optionnel

Cette classification se fait par détection de la couche texte dans le PDF (un test simple : si l'extraction textuelle renvoie moins de 50 caractères par page, c'est un scan) et par analyse du ratio texte/image.

Étape 2 : extraction et enrichissement

Chaque document produit plusieurs types de chunks indexables :

  • Chunks textuels : le texte extrait, découpé selon la structure du document (titres, paragraphes)
  • Chunks tableaux : chaque tableau converti en Markdown avec un en-tête décrivant son contexte ("Tableau des spécifications techniques, section 3.2")
  • Chunks visuels : les images critiques décrites en langage naturel par un modèle de vision, avec les métadonnées de position dans le document

Étape 3 : indexation multi-index

Les chunks textuels et les descriptions d'images sont indexés dans une base vectorielle classique avec une recherche hybride BM25 + sémantique. Si le projet le justifie, un index visuel ColPali est ajouté en parallèle pour la recherche directe sur les pages images.

Étape 4 : retrieval augmenté

À la requête, le système cherche dans les deux index (textuel et visuel si disponible), fusionne les résultats avec un re-ranker, et envoie au LLM à la fois les chunks textuels pertinents et les images des pages correspondantes. Le modèle de génération (GPT-4o, Claude, Gemini) peut ainsi s'appuyer sur le texte et les visuels pour formuler sa réponse.

Schéma du pipeline RAG multimodal avec extraction OCR, modèles de vision et indexation vectorielle
Pipeline RAG multimodal : classification, extraction, indexation multi-index et génération augmentée

Cas d'usage terrain

Le RAG multimodal n'est pas un gadget technique. Voici les situations concrètes où il transforme un assistant IA limité en outil réellement utile.

Bureaux d'études : interroger les plans techniques

Un bureau d'études structure manipule des milliers de plans, coupes et détails techniques en PDF. Un RAG textuel peut indexer les notes de calcul, mais pas les plans eux-mêmes. Avec le multimodal, un ingénieur peut demander "montre-moi les plans de ferraillage du bâtiment B, niveau R+2" et obtenir les pages pertinentes avec une réponse contextualisée.

Gain mesuré : réduction de 60 à 70 % du temps de recherche documentaire sur des projets avec plus de 500 plans.

Industrie : fiches techniques et schémas de maintenance

Les fiches techniques de machines contiennent des schémas éclatés, des tableaux de couples de serrage et des diagrammes de câblage. Un technicien de maintenance a besoin de trouver rapidement "la procédure de remplacement du joint de la pompe X modèle Y". Sans multimodal, le RAG ne voit que le texte autour du schéma. Avec, il identifie le bon schéma et le bon tableau de spécifications.

Juridique : contrats scannés et pièces de procédure

Les cabinets d'avocats gèrent des archives de contrats scannés, parfois sur plusieurs décennies. Les pièces de procédure sont souvent des numérisations de documents papier. Le RAG multimodal permet de rendre ces archives interrogeables : "retrouve les clauses de non-concurrence dans les contrats signés entre 2018 et 2022" fonctionne même si les contrats sont des scans.

Finance et comptabilité : factures et relevés

Les factures fournisseurs, relevés bancaires et états financiers scannés contiennent des tableaux de montants critiques. Le multimodal permet d'extraire et d'interroger ces données sans saisie manuelle, avec une précision qui dépasse souvent l'extraction OCR seule grâce à la compréhension visuelle du contexte.

Limites et points de vigilance

Le RAG multimodal n'est pas une solution miracle. Voici les limites actuelles à connaître avant de se lancer.

Le coût est significatif

Traiter chaque page en image via un modèle de vision coûte entre 0,01 et 0,05 $ par page selon le modèle. Sur un corpus de 10 000 pages, l'indexation initiale peut coûter entre 100 et 500 $, contre 5 à 20 $ en OCR classique. Et chaque requête qui envoie des images au LLM consomme plus de tokens qu'une requête textuelle pure.

La latence augmente

Envoyer des images au modèle de génération ajoute 2 à 5 secondes de latence par rapport à un RAG textuel. C'est acceptable pour des cas d'usage de recherche documentaire, moins pour un chatbot temps réel à haut volume.

La précision reste imparfaite sur les documents dégradés

Les scans de mauvaise qualité (faible résolution, pages pliées, tampons sur le texte) restent un défi. L'OCR et les modèles de vision font des erreurs sur ces documents, et ces erreurs se propagent dans les réponses du RAG. Un preprocessing de qualité (redressement, débruitage, binarisation) est indispensable.

Le stockage et l'infrastructure

Les embeddings visuels ColPali occupent environ 10 à 50 fois plus d'espace que des embeddings textuels pour le même document. Cela impacte le dimensionnement de la base vectorielle et les coûts d'infrastructure.

Recommandation Tensoria

Ne démarrez pas un projet RAG multimodal "pour voir". Commencez par un audit documentaire : quel pourcentage de vos documents contient des éléments visuels critiques ? Quels cas d'usage sont bloqués par le RAG textuel ? Si la réponse est "moins de 20 % de documents visuels" et "aucun cas d'usage critique", le RAG textuel bien optimisé suffit. Si c'est plus, le multimodal vaut l'investissement.

Comment démarrer votre projet RAG multimodal

Voici la séquence que nous recommandons pour un premier projet RAG multimodal réussi :

  1. Audit documentaire (1 semaine) : cartographier les types de documents, identifier les formats problématiques, quantifier le ratio texte/visuel.
  2. Choix de l'approche (1 semaine) : selon l'audit, définir la combinaison OCR / vision / ColPali adaptée. Ne pas tout prendre d'un coup.
  3. POC sur périmètre restreint (3 à 4 semaines) : indexer un échantillon représentatif (100 à 300 documents), construire un jeu de 30 à 50 questions de test, mesurer la précision.
  4. Optimisation et élargissement (2 à 4 semaines) : ajuster le pipeline sur les cas d'échec, élargir progressivement le périmètre documentaire.
  5. Mise en production et monitoring : déployer avec des métriques de qualité, surveiller les dérives, itérer en continu.

Ce séquençage permet de valider le ROI avant d'engager des coûts importants. Un POC ciblé de 4 à 6 semaines suffit pour savoir si le multimodal apporte un gain réel sur vos documents.

RAG multimodal sur vos documents ?

On audite votre base documentaire et on conçoit le pipeline adapté. 30 minutes pour cadrer le projet.

Réserver un échange

Conclusion

Le RAG multimodal n'est pas un luxe technique. Pour toute entreprise dont la base de connaissances contient des documents visuels (plans, scans, tableaux complexes, schémas), c'est la condition pour que l'assistant IA réponde réellement à toutes les questions, pas seulement celles qui portent sur du texte propre.

Les trois approches (OCR, modèles de vision, embeddings visuels) ne s'excluent pas. En production, c'est leur combinaison intelligente, adaptée à chaque type de document, qui donne les meilleurs résultats. La technologie est prête en 2026, mais elle demande un cadrage sérieux : audit documentaire, choix d'architecture et validation sur un périmètre restreint avant de généraliser.

Si votre RAG actuel bute sur des PDF scannés ou des tableaux complexes, ce n'est pas un problème de modèle de langage. C'est un problème de pipeline d'ingestion. Et c'est exactement ce que le multimodal résout.

Questions fréquentes sur le RAG multimodal

Le RAG multimodal est une extension du RAG classique qui permet d'indexer et d'interroger non seulement du texte, mais aussi des images, des PDF scannés, des tableaux et des schémas. L'IA peut ainsi répondre à des questions en s'appuyant sur des documents visuels et non uniquement textuels.

En entreprise, une grande partie de la connaissance est enfermée dans des formats visuels : plans techniques en PDF image, factures scannées, tableaux complexes dans des rapports, schémas d'architecture. Un RAG textuel classique ne sait pas lire ces contenus, ce qui crée des angles morts importants dans les réponses de l'IA.

Les trois approches sont : 1) OCR + chunking textuel, qui convertit les images en texte avant de les indexer classiquement. 2) Les modèles de vision (GPT-4o, Claude Vision, Gemini) qui analysent directement les images à l'étape de génération. 3) Les embeddings visuels directs (ColPali, ColQwen) qui transforment les pages en vecteurs sans passer par l'OCR, permettant une recherche nativement multimodale.

ColPali et ColQwen sont prometteurs mais encore jeunes pour une utilisation en production critique. Ils excellent sur la recherche dans des documents visuellement riches, mais les embeddings sont plus volumineux, la latence plus élevée, et le fine-tuning sur des domaines spécifiques reste limité. Pour un projet industriel en 2026, une approche hybride OCR + vision reste souvent plus fiable.

Deux approches principales : l'extraction structurée avec des outils comme Camelot, Tabula ou pdfplumber pour les PDF natifs, qui convertit les tableaux en CSV ou Markdown indexable. Et l'approche vision, qui envoie une capture du tableau à un modèle multimodal (GPT-4o, Claude Vision) pour une description en langage naturel. Combiner les deux avec un fallback automatique donne les meilleurs résultats.

Un pipeline RAG multimodal coûte typiquement 3 à 8 fois plus cher qu'un RAG textuel pur, principalement à cause du traitement OCR/vision en amont et du stockage des embeddings visuels plus volumineux. Sur 10 000 pages, comptez 100 à 500 $ d'indexation contre 5 à 20 $ en texte pur. Le ROI se justifie quand les documents visuels contiennent de l'information critique inaccessible autrement.

Commencez par un audit de vos documents : quel pourcentage est du texte pur, du PDF scanné, des tableaux, des images ? Si plus de 30 % de votre base contient des éléments visuels critiques, le multimodal est justifié. Démarrez avec un périmètre restreint (un type de document, un cas d'usage précis) et validez la qualité sur 30 à 50 questions de test avant d'élargir. Un POC ciblé de 4 à 6 semaines suffit pour mesurer le gain réel.

Pour aller plus loin

Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.