Un chargé d'affaires dans une PME de génie climatique à Toulouse passe en moyenne 12 à 20 heures à dépouiller un DCE avant de pouvoir commencer à chiffrer. Lire le CCTP lot par lot, extraire les prescriptions techniques, retrouver les quantités dans la DPGF, croiser avec les plans pour vérifier les métrés. Tout ça avant même d'ouvrir son logiciel de devis.
Pour un bureau d'études qui répond à 4 ou 5 marchés par mois, cela représente 60 à 100 heures de travail qualifié consacrées à de la lecture et à de la saisie. Des heures que ni Batigest, ni Excel, ni les SaaS de rédaction de CCTP ne peuvent vous rendre, parce qu'ils sont conçus pour écrire des documents, pas pour lire et structurer ceux que vous recevez.
C'est exactement là qu'une extraction automatique par IA bien paramétrée change la donne. Pas comme dans les démonstrations commerciales, mais dans la réalité d'un DCE de 350 pages avec une DPGF non structurée et des plans scannés en 2019. Cet article montre ce que l'IA fait vraiment bien, ce qu'elle fait mal, et comment construire une solution qui tient dans un contexte opérationnel réel.
Points clés à retenir
- Un DCE de 300 à 400 pages est dépouillé en 20 à 45 minutes contre 8 à 20 heures manuellement, soit 70 à 80 % de temps récupéré.
- Les SaaS génériques lisent et rédigent des CCTP, mais ne savent pas extraire vers votre bibliothèque de prix interne.
- Les plans scannés de mauvaise qualité et les DPGF non structurées restent les deux obstacles techniques principaux.
- La validation humaine reste indispensable : l'IA réduit la charge de dépouillement, elle ne la supprime pas.
- Le seuil de rentabilité d'une solution sur mesure est généralement atteint entre 3 et 6 mois pour une PME traitant 5 dossiers ou plus par mois.
Ce que le dépouillement d'un DCE coûte vraiment
Avant de parler de solution, il faut mesurer le problème avec précision. Le dépouillement d'un DCE n'est pas une formalité : c'est une activité à haute valeur cognitive, consommée par un profil rare et coûteux.
Pour une PME de second œuvre ou un bureau d'études fluides qui répond à des marchés entre 200 000 et 2 millions d'euros, un DCE complet comprend généralement :
- Un CCTP de 80 à 200 pages selon le nombre de lots, avec des prescriptions techniques, des marques recommandées, des normes à respecter, des conditions de pose et des clauses de pénalité
- Une DPGF (Décomposition du Prix Global et Forfaitaire) structurée en lots et sous-lots, souvent sur 40 à 100 lignes par lot, avec des désignations parfois ambiguës
- Des plans en PDF natif ou scannés, à des échelles variables, dont il faut extraire les métrés et les niveaux pour valider ou corriger les quantités de la DPGF
- Le règlement de consultation (RC), le CCAP et parfois un BPU ou un DQE
Le temps de dépouillement moyen constaté pour un lot technique standard (chauffage, ventilation, plomberie) dans un marché public varie entre 8 et 20 heures, selon la qualité des documents et la complexité de l'ouvrage. Sur un DCE multi-lots, une PME qui sous-traite plusieurs corps d'état peut facilement cumuler 40 à 60 heures avant de commencer à construire son prix.
Le coût réel du dépouillement manuel
Un économiste de la construction ou un chargé d'affaires coûte entre 45 et 70 € de l'heure chargé. Sur 10 dossiers par mois avec 12 heures de dépouillement chacun, c'est 5 400 à 8 400 € par mois investis dans de la lecture et de la saisie, avant le premier calcul de prix. La réduction de 70 % de ce temps représente un gain opérationnel de 3 800 à 5 900 € mensuel.
Ce contexte est au cœur de notre approche pour les PME et artisans du BTP : l'IA n'est utile que si elle s'attaque aux tâches qui coûtent cher et qui ralentissent la production de valeur. Le dépouillement de DCE est exactement ce type de tâche.
Ce qu'il faut extraire du CCTP, de la DPGF et des plans
La précision de l'extraction dépend d'abord de la clarté de ce qu'on cherche à extraire. Les trois documents d'un DCE ont des structures et des apports différents.
Ce que contient le CCTP et ce qu'on en extrait
Le Cahier des Clauses Techniques Particulières est le document de référence technique du marché. Ce qu'une extraction IA bien configurée doit en sortir :
- Les prescriptions matériaux : marques homologuées ou recommandées, classes de performance minimales, normes NF ou EN applicables (ex. : gaine flexible classe C2, isolant λ ≤ 0,032 W/m·K)
- Les conditions d'exécution : ordre des travaux, interfaces entre lots, accès et zones de stockage imposés
- Les clauses de pénalité et de garantie : délais de levée de réserves, pénalités journalières, durée de garantie décennale ou parfaite achèvement
- Les qualifications et certifications requises : Qualibat, RGE, habilitations électriques, agréments spécifiques
- Les livrables imposés : DOE, plans de récolement, fiches techniques à fournir
Ce que contient la DPGF et ce qu'on en extrait
La DPGF est le document de chiffrage. C'est là que se concentre le travail d'extraction quantitative :
- La décomposition en lots et sous-lots : numérotation, intitulés, hiérarchie
- Les désignations de poste : libellé, unité (mètre linéaire, mètre carré, forfait, unité), quantité indiquée
- Les variantes et options : postes soumis à chiffrage facultatif, variantes imposées ou libres
- Les postes à zéro ou provisionnels : sommes à valoir, prestations dont le prix est fixé par le maître d'ouvrage
Ce qu'on extrait des plans
Les plans sont le document le plus difficile à traiter par l'IA, mais aussi celui qui permet de valider ou corriger les quantités de la DPGF :
- Les métrés de surface et de longueur : surfaces de plancher par niveau, longueurs de canalisation ou de gaine, périmètres de façade
- Les niveaux et zones : identification des niveaux (RDC, R+1, sous-sol), découpage par bâtiment ou par cage
- Les légendes techniques : nomenclature des équipements figurant sur le plan, repère et désignation
- Les implantations : position des équipements (CTA, tableau électrique, local technique) utiles pour évaluer les longueurs de liaison
Pour aller plus loin sur les usages IA spécifiques aux bureaux d'études, notre page dédiée aux solutions IA pour bureaux d'études présente les cas d'usage les plus courants.
Ce que l'IA fait bien aujourd'hui
Soyons précis sur les capacités réelles des modèles actuels, appliquées aux documents BTP.
Structuration et extraction depuis un PDF texte natif
Quand le CCTP ou la DPGF est un PDF nativement numérique (produit par Word, LibreOffice ou un logiciel métier comme Attic+), un LLM de la génération actuelle extrait les informations avec une précision de 90 à 97 % sur le texte et les tableaux bien formés. Il identifie la hiérarchie des sections, découpe les prescriptions par lot, associe les exigences normatives aux postes correspondants.
C'est particulièrement fiable pour :
- La cartographie complète des prescriptions par lot, avec résumé par corps d'état
- L'extraction tabulaire de la DPGF vers un format structuré (JSON, CSV, Excel)
- La reconnaissance des entités techniques : normes citées, marques, classes de performance
- La détection des clauses de pénalité et leur mise en forme dans un tableau de risques
Résumé par lot et fiche de synthèse
Un LLM peut générer en quelques secondes une fiche de synthèse par lot : prescriptions clés, matériaux imposés, contraintes d'exécution, risques contractuels. Ce résumé, qui prend habituellement 2 à 3 heures à un chargé d'affaires, est produit en moins d'une minute. La qualité est suffisante pour une première lecture décisionnelle (Go / No-Go sur la complexité technique).
Détection des incohérences entre CCTP et DPGF
C'est l'un des apports les plus concrets et les moins documentés. Une fois les deux documents extraits et structurés, une passe LLM croise les prescriptions du CCTP avec les libellés de la DPGF. Elle remonte les postes où une prestation est décrite dans le CCTP mais absente de la DPGF (risque de travaux supplémentaires non chiffrés), ou les désignations de la DPGF qui ne correspondent à aucune prescription technique explicite. Ces incohérences sont souvent sources de litiges en cours de chantier.
Ce que l'IA fait mal et pourquoi
Tout aussi important que les capacités : les limites. Un outil d'extraction IA qui ne gère pas ses angles morts vous créera plus de problèmes qu'il n'en résoudra.
Les plans scannés de mauvaise qualité
C'est l'obstacle le plus fréquent en pratique. Beaucoup de DCE contiennent des plans scannés depuis des tirages papier, parfois en noir et blanc, à des résolutions inférieures à 150 dpi, avec des annotations manuscrites rajoutées. Sur ce type de document, même un OCR de qualité dégrade la précision de lecture à 60 à 75 %, ce qui est insuffisant pour des métrés fiables.
La règle pratique : en dessous de 200 dpi et avec des annotations manuscrites, les métrés issus du plan ne doivent pas être utilisés sans vérification humaine complète. L'IA peut signaler les zones d'incertitude, mais pas les corriger.
Les DPGF non structurées ou hybrides
Une DPGF bien formée, issue d'un logiciel comme DeviSOC ou Batigest, s'extrait proprement. Mais une DPGF construite manuellement dans Excel avec des cellules fusionnées, des sous-totaux intercalés, des libellés sur plusieurs lignes et des colonnes de quantité non étiquetées reste difficile à parser de façon automatique. Le LLM peut se perdre dans la hiérarchie et mal attribuer les quantités aux bons postes.
L'écriture manuscrite sur plan
Les annotations manuscrites (cotes rajoutées à la main, modifications de révision en rouge, légendes écrites au stylo) sont quasi-illisibles pour les modèles OCR actuels, qui n'ont pas été entraînés spécifiquement sur l'écriture technique manuscrite de plans de bâtiment.
Les renvois et références croisées complexes
Un CCTP peut contenir des renvois entre lots (« les réservations à prévoir par le lot Gros Œuvre sont définies au plan réservations CI-14 »). Résoudre automatiquement ces références croisées multi-documents suppose un graphe de connaissances qui va au-delà de ce que fait un LLM en une seule passe.
La terminologie métier très spécialisée
Les modèles généralistes connaissent bien les normes NF, la terminologie courante du BTP et les sigles courants (DTU, CCTP, DPGF, BPU). Ils sont moins fiables sur les spécifications très pointues : acoustique des vitrages, certification de systèmes d'étanchéité à l'air, débit spécifique de ventilation double-flux pour des usages tertiaires particuliers. La vérification humaine reste indispensable sur ces postes à risque.
Règle de validation à appliquer
Tout poste extrait automatiquement avec un score de confiance inférieur à 85 % doit être revu manuellement. Une bonne solution d'extraction remonte ces indicateurs de confiance pour chaque champ, et ne présente pas des données douteuses comme des données sûres. Si l'outil ne signale pas ses propres incertitudes, c'est un signal d'alarme.
Architecture d'un extracteur CCTP/DPGF sur mesure
Voici l'architecture que Tensoria déploie pour les PME BTP et les bureaux d'études qui traitent un volume suffisant de DCE pour justifier une solution sur mesure. Elle s'articule en cinq étapes.
Étape 1 : ingestion et OCR adaptatif
Le DCE est déposé dans un dossier partagé (Drive, SharePoint, Nextcloud). Un pipeline de traitement détecte automatiquement le type de chaque document :
- PDF texte natif : extraction directe sans OCR, conservation de la mise en page
- PDF image ou scan de bonne qualité (300 dpi+) : passage par Azure Document Intelligence ou AWS Textract, avec préservation des tableaux et de la hiérarchie des titres
- Plan technique : traitement spécifique avec un modèle layout-aware capable de détecter les zones de cotation, les cartouches et les légendes
Étape 2 : chunking sémantique
Le contenu extrait est découpé en segments cohérents pour le système RAG. Un chunking naïf par taille fixe détruirait la structure logique d'un CCTP (une clause qui couvre trois paragraphes serait coupée au milieu). Le chunking sémantique s'aligne sur la structure du document : une section CCTP = un chunk, un lot DPGF = un chunk avec ses sous-lignes, un niveau de plan = un chunk avec sa légende associée.
Étape 3 : indexation vectorielle et enrichissement RAG
Les chunks sont vectorisés et stockés dans une base vectorielle (Qdrant, Weaviate ou pgvector). C'est là qu'intervient la dimension sur mesure : vos données internes sont également indexées : bibliothèque de prix Batigest, catalogue fournisseurs avec prix négociés, historique de chantiers comparables. Le LLM peut donc répondre à des questions du type « quels fournisseurs ai-je l'habitude d'utiliser pour ce type de prestation et à quel prix ? » en croisant le DCE avec votre propre base de connaissance.
Cette architecture RAG est détaillée dans notre page sur l'assistant IA interne avec RAG, qui est le socle technique de ces solutions.
Étape 4 : extraction structurée par LLM avec validation
Le LLM reçoit les chunks pertinents et un prompt structuré qui lui demande de produire des sorties dans un format défini (JSON ou Markdown structuré) : tableau de prescriptions par lot, liste des matériaux imposés, résumé des risques contractuels, tableau des quantités DPGF. Chaque extraction est accompagnée d'un score de confiance et d'une référence au passage source dans le document original. Cela permet à l'utilisateur de vérifier rapidement les extractions douteuses.
Étape 5 : export vers vos outils métier
Les données structurées sont exportées vers les formats utilisés dans votre entreprise :
- Excel ou CSV : pour intégration dans votre fichier de chiffrage existant
- Batigest, DeviSOC ou equivalent : via import natif ou connecteur sur mesure
- Notion ou SharePoint : fiche de synthèse par lot accessible à toute l'équipe
- PDF de synthèse : document de revue interne avant réunion de chiffrage
Cette architecture est cohérente avec ce que nous décrivons dans notre article sur l'automatisation complète des réponses aux appels d'offres, dont l'extraction de DCE est la première brique.
Quels modèles LLM choisir pour analyser des documents BTP
Le choix du modèle dépend de trois paramètres : la confidentialité des données, le volume de dossiers traités et le niveau de précision requis sur les tableaux et le langage technique.
| Modèle | Points forts pour le BTP | Limites | Coût indicatif | Confidentialité |
|---|---|---|---|---|
| GPT-4o (OpenAI) | Très forte précision sur tableaux complexes, gestion native des PDFs multimodaux | Hébergement USA, coût élevé en volume | 2,50 $ / M tokens in, 10 $ / M tokens out | Données traitées hors UE (plan Enterprise disponible) |
| Claude Sonnet 3.5 (Anthropic) | Excellente compréhension de longs documents, raisonnement structuré sur CCTP complexes | Hébergement USA par défaut | 3 $ / M tokens in, 15 $ / M tokens out | Données traitées hors UE (plan entreprise sans réentraînement) |
| Mistral Large (Mistral AI) | Hébergement européen, très bon rapport qualité/prix, compréhension du français technique | Légèrement moins précis sur tableaux très denses | 2 $ / M tokens in, 6 $ / M tokens out | Hébergement UE possible, option on-premise |
| Azure Document Intelligence | Spécialisé extraction de tableaux et mise en page, layout-aware natif | Extraction structurelle seulement, pas de compréhension sémantique | 1,50 $ / 1 000 pages | Hébergement Azure UE configurable |
| Mistral 8x7B (open source) | Déployable dans votre infrastructure, zéro donnée sortante, coût marginal très faible | Précision inférieure aux modèles propriétaires sur les tableaux denses | Coût infrastructure serveur uniquement | Totale, données sur vos serveurs |
Recommandation pratique pour une PME BTP toulousaine : pour un volume de 5 à 20 DCE par mois avec des documents standards, Mistral Large offre le meilleur équilibre précision / coût / conformité RGPD. Pour des lots très techniques (équipements CVC haute performance, génie civil complexe), GPT-4o sur les passages critiques donne de meilleurs résultats.
Pour une comparaison approfondie des modèles en contexte BTP, notre article sur la veille automatisée des appels d'offres avec Mistral aborde les tradeoffs de façon complémentaire.
Les conditions de réussite opérationnelles
Une solution d'extraction IA peut fonctionner en démonstration et échouer en production. Voici les conditions sine qua non d'un déploiement qui tient dans la durée.
La qualité du document source est non négociable
L'IA amplifie la qualité du document d'entrée, elle ne la compense pas. Un CCTP bien structuré avec des titres hiérarchisés et des tableaux propres donnera des extractions précises. Un CCTP scanné depuis un tirage papier, tourné à 2 degrés, avec des annotations au crayon, limitera mécaniquement les résultats. La première étape d'un projet d'extraction est toujours un audit de la qualité des DCE entrants, sur un échantillon réel de vos dossiers récents.
Une bibliothèque de prix propre et à jour
Pour que le matching entre les prescriptions extraites et votre propre bibliothèque de prix soit pertinent, cette bibliothèque doit être structurée et à jour. Une bibliothèque Batigest avec des articles dupliqués, des libellés incohérents ou des prix obsolètes dégrade immédiatement la qualité des suggestions de chiffrage. La mise à jour de la bibliothèque est souvent la première action à mener avant tout déploiement IA.
Un workflow de validation humaine intégré
La validation n'est pas une étape optionnelle pour se rassurer : c'est une étape structurelle. Le chargé d'affaires ou l'économiste doit pouvoir valider ou corriger chaque extraction en un clic, avec accès direct au passage source dans le document original. Cette boucle de feedback permet également d'améliorer le système dans le temps en identifiant les types d'erreurs récurrentes.
Des itérations sur les premiers dossiers réels
Aucune solution d'extraction ne fonctionne à 100 % dès la première semaine sur vos documents. Les deux ou trois premiers DCE traités servent à calibrer les prompts, ajuster le chunking et affiner les règles d'extraction pour vos types de lots habituels. Prévoir 2 à 4 semaines de rodage avec des ajustements hebdomadaires est réaliste et nécessaire.
Les quatre conditions de réussite en résumé
- 1. Documents sources de qualité suffisante (PDF natif ou scan 300 dpi minimum)
- 2. Bibliothèque de prix structurée et à jour avant déploiement
- 3. Workflow de validation humaine avec accès aux sources
- 4. Phase de rodage sur 3 à 5 dossiers réels avec itérations hebdomadaires
Ces conditions rejoignent ce que nous développons dans notre retour d'expérience avec un bureau d'études sur la réponse aux appels d'offres par IA.
ROI réaliste et seuil de rentabilité
Le gain de temps de dépouillement est mesurable. Voici comment calculer si la solution se justifie dans votre contexte.
Le gain de temps par dossier
Sur un lot technique standard de 80 à 120 pages (CCTP + DPGF), le gain observé se situe entre 70 et 80 % du temps de dépouillement avec une solution bien rodée :
- Dépouillement manuel : 8 à 15 heures par lot
- Avec extraction IA + validation : 2 à 4 heures par lot
- Gain net : 6 à 11 heures par lot
Pour un bureau d'études fluides qui traite 8 DCE par mois avec 2 lots chacun, cela représente 96 à 176 heures économisées par mois, soit l'équivalent de 0,6 à 1,1 ETP de chargé d'études.
Le calcul du seuil de rentabilité
| Paramètre | PME 5 DCE/mois | BET 10 DCE/mois |
|---|---|---|
| Heures de dépouillement économisées/mois | 40 à 70 h | 80 à 140 h |
| Valeur du temps récupéré (55 €/h chargé) | 2 200 à 3 850 €/mois | 4 400 à 7 700 €/mois |
| Investissement solution sur mesure (Tensoria) | 3 500 à 6 000 € HT (une fois) | 5 000 à 9 000 € HT (une fois) |
| Coût récurrent (APIs + hébergement) | 80 à 150 €/mois | 150 à 300 €/mois |
| Seuil de rentabilité estimé | 2 à 4 mois | 1 à 2 mois |
Ces chiffres ne prennent pas en compte un gain indirect important : la capacité à répondre à davantage de marchés sans recruter. Si votre chargé d'affaires récupère 60 heures par mois, il peut les réinvestir dans la qualité des mémoires techniques et dans le chiffrage, ce qui améliore le taux de succès. Pour en savoir plus sur ce lien entre gain de temps et performance commerciale, notre article sur l'IA pour le devis de chantier côté artisan développe ce point.
Sur les aspects d'estimation de chantier à partir de photos et plans, notre article sur l'estimation de chantier par photo IA apporte également des éléments chiffrés comparables.
Comment démarrer avec Tensoria
Si vous reconnaissez votre situation dans cet article, la première étape n'est pas de choisir un modèle LLM. C'est de cadrer précisément votre besoin sur vos vrais documents, avec vos vrais contraintes de confidentialité et vos vrais outils existants.
C'est exactement ce que couvre l'audit IA Tensoria :
- 2 demi-journées d'immersion sur site : analyse de vos DCE réels, de votre bibliothèque de prix, de vos outils de chiffrage et de votre workflow actuel
- Livrable sous 2 semaines : carte de faisabilité, architecture recommandée, estimation de ROI sur vos volumes réels, plan de déploiement priorisé
- Tarif à partir de 2 500 € HT, conseil indépendant, zéro commission des éditeurs de logiciels
Si l'audit confirme la pertinence d'une solution sur mesure, le développement de l'extracteur démarre à partir de 3 500 € HT et couvre la mise en place du pipeline OCR, du RAG connecté à votre bibliothèque de prix, du workflow de validation et de l'export vers vos outils métier. Un accompagnement à la prise en main est également disponible à partir de 700 € HT.
Tensoria intervient quand les SaaS génériques atteignent leurs limites : documents non standards, bibliothèque de prix interne à intégrer, contraintes de confidentialité, volume de dossiers qui justifie un outil propriétaire. Si un outil existant du marché répond à votre besoin, nous vous le dirons clairement lors de l'audit.
Pour les artisans et PME du bâtiment qui souhaitent explorer l'IA au-delà du seul dépouillement de DCE, notre page hub BTP référence l'ensemble des cas d'usage disponibles, du devis à la gestion de chantier.
Pour les bureaux d'études techniques qui ont des enjeux spécifiques sur les fluides, notre article sur l'IA pour les BET fluides traite des cas d'usage propres au génie climatique, à la plomberie et à la ventilation.
Questions fréquentes
Pour aller plus loin
- Automatiser ses réponses aux appels d'offres avec l'IA : l'extraction de DCE est la première brique, cet article couvre la suite, de la rédaction du mémoire technique à la constitution du dossier administratif.
- Veille automatisée des appels d'offres BTP avec n8n et Mistral : comment détecter les bons marchés avant même de recevoir le DCE.
- IA pour le devis de chantier côté artisan : application concrète du gain de temps sur la phase de chiffrage, en aval du dépouillement.
- Estimation de chantier par photo avec l'IA : quand les plans ne sont pas disponibles, comment l'IA peut estimer les quantités à partir de photos terrain.
- Cas client : bureau d'études et réponse aux appels d'offres par IA : retour d'expérience concret sur un déploiement réel en Occitanie.
- Assistant IA interne avec RAG : l'architecture technique qui permet d'intégrer vos données internes à l'extraction de documents.
- IA pour le BTP : vue d'ensemble des cas d'usage disponibles pour les PME et artisans du secteur.
Dépouiller moins, chiffrer mieux
Vous traitez plus de 5 DCE par mois ? Discutons de ce que l'IA peut faire sur vos vrais documents, sans engagement.