Pourquoi déployer un SLM offline plutôt qu'un LLM cloud pour interroger la documentation aéronautique ?

Les ateliers MRO manipulent des données techniques classifiées ou soumises à la réglementation ITAR/EAR (contrôle américain des exportations de technologies de défense). Envoyer une requête contenant des références AMM ou des chapitres ATA vers un LLM cloud peut constituer une divulgation réglementée. Un SLM déployé en local ne génère aucun trafic sortant : les documents restent sur site, les requêtes aussi. C'est la seule architecture compatible avec les contraintes réglementaires strictes du secteur.

Quels modèles SLM conviennent le mieux pour un atelier aéronautique sans GPU serveur ?

Pour un déploiement sur mini-PC ou station industrielle sans GPU dédié, Ministral 3B (Mistral AI, décembre 2025) tient dans 4 à 5 Go de RAM en quantification Q4 et fonctionne correctement sur CPU. Phi-4-mini (Microsoft, 3,8B, MIT) est encore plus frugal : environ 3 Go en Q4_K_M, avec un contexte de 128 000 tokens très utile pour ingérer de longs chapitres AMM. Si le matériel dispose d'un GPU intégré (8-12 Go VRAM), Ministral 8B ou Qwen2.5 7B offrent un meilleur niveau de compréhension sur le jargon technique aéronautique.

Comment fonctionne le RAG local sur la documentation aéronautique (AMM, IPC, CMM) ?

Le RAG local fonctionne en trois étapes : (1) indexation - les documents PDF (AMM, IPC, CMM, SRM) sont découpés en chunks, convertis en vecteurs et stockés dans une base vectorielle locale (ChromaDB, Qdrant en mode local) ; (2) retrieval - quand le technicien pose une question, la même fonction d'embedding encode la requête et trouve les passages les plus proches dans la base ; (3) génération - le SLM reçoit la question et les passages retrouvés dans son contexte, et génère une réponse factuelle ancrée dans la documentation officielle. Aucun des trois étapes ne nécessite de connexion réseau.

Quel matériel faut-il pour déployer un SLM en atelier aéronautique ?

Pour Ministral 3B ou Phi-4-mini en mode CPU-only : un mini-PC industriel à partir de 600-800 euros (Intel N100 ou Core i5/i7 de dernière génération, 16 Go de RAM DDR5) suffit pour des usages à faible concurrence (1 à 3 utilisateurs simultanés). Pour une dizaine d'utilisateurs ou un modèle 8B : une station de travail avec GPU intégré ou une carte Nvidia RTX série 40 (8-12 Go VRAM) est recommandée. Le facteur de forme compte : en atelier, les mini-PC fanless (ex. Beelink EQ12 Pro, ASUS NUC) résistent mieux aux vibrations et à la poussière qu'un PC tour standard.

Un SLM peut-il comprendre les chapitres ATA et le vocabulaire technique des AMM ?

Un SLM de base (sans fine-tuning) comprend les termes courants et les abréviations fréquentes (AMM, IPC, ATA, BITE, MEL, FIM), mais peut produire des contresens sur un jargon très spécialisé ou des procédures inhabituelles. Le RAG compense largement ce point : il ancre la réponse dans les passages exacts de la documentation officielle. Pour les cas critiques (procédures de sécurité, limites de tolérance structurelle), un fine-tuning léger sur un corpus de documentation certifiée améliore la fiabilité et réduit le risque de reformulation inexacte.

La réglementation EASA autorise-t-elle l'utilisation d'un assistant IA pour consulter la documentation de maintenance ?

L'EASA n'interdit pas les outils d'aide à la consultation de documentation, mais le technicien reste seul responsable de l'acte de maintenance et doit toujours vérifier l'information dans la source primaire approuvée (AMM officiel de l'OEM). Un assistant SLM/RAG est un outil d'aide à la navigation documentaire, pas un substitut au document réglementaire. Il doit donc afficher systématiquement la référence exacte du passage source (numéro de section AMM, révision) pour permettre la vérification.

Quel est le coût d'un projet SLM offline pour un atelier MRO ?

Le matériel représente 600 à 2 000 euros selon la taille du modèle retenu (mini-PC CPU-only vs. station GPU). Le développement - indexation de la documentation, configuration du pipeline RAG, interface utilisateur - varie de quelques jours à quelques semaines selon le volume documentaire et le niveau de personnalisation. Les coûts récurrents sont quasi nuls : pas d'abonnement API, pas de token à payer. Sur 3 ans, le ROI face à une solution SaaS cloud est très favorable dès que le nombre d'utilisateurs dépasse la dizaine.

SLM embarqué : interroger la doc technique aéro sans cloud

SLM embarqué offline pour interroger la documentation technique aéronautique AMM IPC ATA en atelier MRO

Un SLM embarqué pour la documentation technique aéronautique, c'est un petit modèle de langage déployé directement dans l'atelier - sur un mini-PC sans connexion cloud - capable de répondre à des questions sur un AMM, un IPC ou un CMM en quelques secondes. La réponse courte sur la pertinence : oui, c'est techniquement faisable aujourd'hui avec des modèles comme Ministral 3B ou Phi-4-mini, et c'est même l'une des architectures les plus adaptées au secteur aéronautique, précisément parce qu'elle ne génère aucun trafic sortant.

Ce guide couvre les quatre sujets qui font la spécificité du cas aéro : pourquoi l'offline est non négociable (ITAR/EAR, confidentialité, absence de réseau en atelier), comment assembler une architecture RAG locale sur la documentation technique, quel SLM choisir selon le matériel disponible, et quelles limites garder en tête avant de mettre un tel outil entre les mains d'un technicien.

Pourquoi le cloud est souvent exclu dans un atelier aéronautique

La question n'est pas seulement une question de confort ou de latence réseau. Dans beaucoup d'ateliers MRO et de sous-traitants aéronautiques, envoyer des données techniques vers un service cloud est une décision réglementaire complexe, voire impossible.

ITAR et EAR : le risque réglementaire souvent sous-estimé

L'ITAR (International Traffic in Arms Regulations) et l'EAR (Export Administration Regulations) sont deux réglementations américaines qui encadrent l'export de technologies à usage militaire ou dual-use. Concrètement : les données techniques liées à des programmes de défense (pièces de missiles, systèmes avioniques militaires, équipements spatiaux) ne peuvent pas être transmises à des serveurs étrangers ou consultées par des ressortissants non américains sans autorisation.

Or un appel API vers GPT-4o, Claude ou Gemini transfère le contenu de la requête - y compris les passages de documentation technique qu'on lui soumet - vers des serveurs hors périmètre ITAR contrôlé. Même les solutions "cloud souverain" comme Azure Government ou Assured Workloads de Google ont des restrictions précises sur les accès et les transferts que peu d'entreprises vérifient réellement avant déploiement.

L'absence de réseau : une contrainte physique, pas un choix

Indépendamment des réglementations, beaucoup d'ateliers de maintenance aéronautique travaillent dans des zones à connectivité limitée ou nulle : hangars isolés, zones militaires, plateformes offshore, ateliers en zone de sécurité sans accès internet. Un outil qui dépend d'une API cloud est inutilisable dans ces contextes.

Et même là où le réseau existe, la dépendance à une API tierce introduit un point de défaillance : si l'API est indisponible, le technicien perd l'accès à son assistant. Un SLM local tourne sur la machine, avec ou sans réseau, avec ou sans électricité depuis le fournisseur cloud.

La confidentialité documentaire comme argument en soi

Au-delà du réglementaire, les AMM et IPC sont des documents contractuellement confidentiels entre l'OEM (Airbus, Safran, CFM...) et l'atelier. Les licences d'utilisation de ces manuels interdisent souvent explicitement leur transmission à des tiers. Envoyer des extraits vers une API cloud, même anonymisée, entre dans une zone grise juridique que les directions juridiques des sous-traitants aéronautiques préfèrent éviter.

Principe de base

Un SLM offline répond aux trois contraintes simultanément : zéro trafic sortant (ITAR), disponibilité sans réseau (atelier), confidentialité documentaire (licences OEM). C'est rarement le cas d'une architecture cloud, quelle que soit la juridiction du datacenter.

Architecture d'un système RAG local sur documentation aéronautique

Le RAG (Retrieval-Augmented Generation) est la brique indispensable pour rendre un SLM utile sur de la documentation technique. Sans RAG, le modèle répond depuis son entraînement général - et il ne connaît pas les révisions spécifiques de votre AMM. Avec RAG, il cherche d'abord dans vos documents, puis formule la réponse.

Etape 1 : indexation de la documentation

Les documents PDF (AMM, IPC, CMM, SRM, FIM) sont découpés en chunks de taille fixe - typiquement 400 à 800 tokens avec un chevauchement de 100 tokens pour ne pas couper les procédures en deux. Chaque chunk est ensuite encodé en vecteur par un modèle d'embedding local (nomic-embed-text, all-MiniLM-L6, ou e5-small) et stocké dans une base vectorielle locale.

Les outils open source adaptés à ce contexte : ChromaDB (léger, embarquable dans le même processus), Qdrant en mode local (plus robuste pour des corpus volumineux), ou FAISS pour les cas les plus simples. Tout tourne sur la même machine, sans dépendance réseau.

Etape 2 : retrieval et génération

Quand le technicien pose sa question ("Quelles sont les tolérances d'usure du disque de frein selon le chapitre ATA 32 ?"), la requête est encodée par le même modèle d'embedding. Les K passages les plus proches sémantiquement sont extraits de la base vectorielle. Le SLM reçoit ensuite un prompt structuré : question + passages retrouvés + instruction de répondre uniquement depuis ces passages.

Cette dernière contrainte est critique : le SLM ne doit pas inventer une tolérance qu'il n'a pas vue dans le document. Un bon prompt système incluant "If the answer is not in the provided context, say so explicitly" réduit drastiquement les hallucinations sur les données de sécurité.

Etape 3 : affichage de la source

Pour un usage en contexte réglementé, chaque réponse doit afficher la référence exacte du passage source : numéro de section AMM, révision du document, page. Le technicien peut ainsi vérifier dans le document officiel avant d'agir. L'assistant n'est pas un substitut à la documentation certifiée, mais un moteur de navigation dans cette documentation.

Stack technique de référence

SLM : Ministral 3B ou Phi-4-mini via Ollama. Embedding : nomic-embed-text (local, Ollama). Base vectorielle : ChromaDB ou Qdrant local. Interface : Open WebUI (open source, auto-hébergeable). Orchestration : LangChain ou LlamaIndex. Le tout tient sur un mini-PC avec 16 Go de RAM.

Pour une architecture RAG complète avec Mistral et les choix d'infrastructure hébergement France, notre article RAG souverain avec Mistral détaille chaque composant et les arbitrages de déploiement.

Choisir le bon SLM pour un atelier aéronautique

Le choix du modèle dépend du matériel disponible et du volume d'utilisateurs simultanés. Voici une lecture pragmatique des options 2026.

Ministral 3B (Mistral AI, décembre 2025)

La version 3B de Ministral 3 (sortie en décembre 2025) est explicitement conçue pour l'edge deployment. En quantification Q4, elle tient dans 4 à 5 Go de RAM et s'exécute correctement sur un CPU moderne - ce qui signifie qu'aucun GPU n'est requis pour un usage mono-utilisateur. Mistral AI est une entreprise parisienne dont les modèles intègrent une forte proportion de texte francophone dans le pré-entraînement, ce qui est utile pour traiter des instructions de maintenance en français.

Phi-4-mini (Microsoft, 3,8B, MIT)

Phi-4-mini est l'option la plus frugale en mémoire : environ 3 Go en Q4_K_M sur CPU. Son atout pour la documentation aéronautique est son contexte de 128 000 tokens - ce qui permet d'ingérer un chapitre AMM entier dans la fenêtre de contexte sans devoir découper finement. Entraîné sur des données à haute densité informationnelle (textes techniques, mathématiques, code), il suit bien des instructions structurées et produit des extractions fiables depuis des passages factuels. Licence MIT, usage commercial libre.

Ministral 8B et Qwen2.5 7B pour les ateliers mieux équipés

Si l'atelier dispose d'une station de travail avec GPU (8 à 12 Go de VRAM), Ministral 8B offre une compréhension nettement meilleure sur les procédures complexes et le jargon très spécialisé. Qwen2.5 7B (Alibaba, Apache 2.0) est une alternative intéressante si le corpus de documentation mélange français, anglais et termes OEM en plusieurs langues - il gère bien le multilinguisme.

Modele	Taille	RAM/VRAM Q4	Contexte	Licence	Usage atelier
Phi-4-mini	3,8B	~3 Go CPU	128K tokens	MIT	Mini-PC CPU, 1-3 users
Ministral 3B	3B	~4-5 Go CPU	128K tokens	MRL v0.1	Mini-PC CPU, 1-3 users
Ministral 8B	8B	~12 Go VRAM FP8	128K tokens	MRL v0.1	Station GPU 8-12 Go, 5-10 users
Qwen2.5 7B	7B	~5 Go VRAM	128K tokens	Apache 2.0	Station GPU, multilinguisme

Pour approfondir la comparaison des SLM en conditions industrielles, notre guide SLM on-device et IA embarquee couvre les architectures edge, les outils de serving, et les benchmarks sur matériel contraint.

Matériel recommandé pour un déploiement en atelier

Le choix du matériel est souvent ce qui bloque les projets. En contexte industriel, un serveur de datacenter est rarement envisageable - il faut quelque chose de compact, silencieux, résistant aux vibrations et à la poussière, et maintenable par quelqu'un qui n'est pas data scientist.

Mini-PC industriel pour les modèles 3-4B (CPU-only)

Pour Phi-4-mini ou Ministral 3B sans GPU : un mini-PC avec processeur Intel N200 ou Core i5 13e génération, 16 Go de RAM DDR5 et 500 Go de SSD NVMe suffit largement. Les formats fanless (sans ventilateur) sont préférables en atelier : moins de poussière à gérer, moins de pièces mobiles à casser. Compter 400 à 700 euros de matériel.

La latence sur CPU pour un modèle 3B quantifié : 10 à 25 tokens par seconde selon le processeur - soit une réponse de 100 à 200 mots en 8 à 20 secondes. Acceptable pour un usage occasionnel, moins confortable pour 10 techniciens simultanés.

Station de travail avec GPU pour les modèles 7-8B

Pour servir plusieurs utilisateurs ou un modèle plus puissant : une carte Nvidia RTX série 40 (RTX 4060 Ti avec 16 Go VRAM, environ 450-500 euros) change radicalement la donne. Un Ministral 8B en Q4 sur RTX 4060 Ti génère 60 à 100 tokens par seconde - une réponse de 200 mots s'affiche en moins de 3 secondes. La station peut servir l'ensemble d'un atelier en mode client-serveur via le réseau local interne (LAN), sans jamais toucher à internet.

Serving et interface utilisateur

Ollama est le choix le plus simple pour le serving local : un binaire unique, une API compatible OpenAI, un gestionnaire de modèles intégré. Open WebUI (anciennement Ollama WebUI) fournit une interface utilisateur en navigateur, déployable sur le même serveur. Pour les équipes qui ont besoin d'un accès multi-utilisateurs avec authentification, LMStudio ou une instance llama.cpp servie derrière un proxy nginx sont des alternatives viables.

Pour les détails sur les serveurs d'inférence open source et leur comparatif, l'article top serveurs d'inference LLM open source fait le tour des options avec leurs trade-offs.

Limites du SLM local en contexte aéronautique

Soyons directs sur ce qui ne marche pas, parce que ce sont des limites qui ont des conséquences en contexte de sécurité.

Les procédures de sécurité critique. Un SLM de 3B paramètres peut reformuler une procédure de manière légèrement inexacte - supprimer une étape, inverser deux vérifications. Sur du texte commercial, c'est peu grave. Sur une procédure de remontage d'un train d'atterrissage ou d'un système hydraulique, une reformulation erronée peut avoir des conséquences graves. La règle : l'assistant affiche la référence source, le technicien vérifie dans le document primaire avant d'agir. Toujours.

Le jargon OEM très spécifique. Chaque OEM a son propre vocabulaire, ses propres abréviations, ses propres conventions de nommage des composants. Un SLM de base peut confondre des désignations proches ou mal interpréter un acronyme propre à un constructeur. Un fine-tuning léger sur un corpus de documentation certifiée améliore ce point, mais représente un investissement supplémentaire.

Les révisions documentaires. Le RAG indexe une version donnée de la documentation. Si l'AMM est révisé (Airbus et Boeing publient régulièrement des révisions), l'index doit être mis à jour manuellement. Un process de mise à jour documentaire doit être défini dès le début du projet, avec une responsabilité clairement attribuée.

Le volume documentaire. Indexer l'intégralité d'un AMM Airbus A320 (plusieurs milliers de pages) prend du temps à l'initialisation et demande un stockage adapté. Les bases vectorielles locales gèrent bien jusqu'à quelques dizaines de milliers de chunks - au-delà, les temps de retrieval peuvent augmenter et une optimisation de l'index devient nécessaire.

Point de vigilance réglementaire

L'EASA (Part-145, Part-66) ne réglemente pas les outils d'aide à la consultation documentaire, mais le technicien reste seul responsable de l'acte de maintenance. Un assistant SLM/RAG ne se substitue pas au document approuvé. Toute réponse doit renvoyer vers la section AMM source - c'est une exigence fonctionnelle, pas optionnelle.

Sur les usages complémentaires de l'IA en aéronautique, l'article IA et documentation technique aeronautique couvre les cas d'usage plus larges, et controle non destructif vision IA en aeronautique aborde le cas des inspections visuelles assistées.

Projet SLM offline en aero

Vous evaluez la faisabilite d'un assistant RAG local sur votre documentation AMM/IPC ? Cadrons ensemble le modele, le materiel et les contraintes reglementaires.

Réserver un échange

Pour aller plus loin

SLM on-device et IA embarquee - architectures edge, outils de serving et benchmarks sur materiel contraint.
IA et documentation technique aeronautique - panorama des cas d'usage : recherche, traduction, extraction structuree.
RAG souverain avec Mistral - architecture complete hebergee en France, choix de la base vectorielle, prompt engineering.
Ministral et Mistral Small : guide des SLM francais - focus sur la gamme Mistral AI pour l'entreprise, benchmarks et licences.
Controle non destructif vision IA en aeronautique - inspection visuelle et detection d'anomalies en atelier MRO.
IA et MRO en aeronautique Toulouse - vue d'ensemble des usages IA en maintenance et reparation.
SLM en entreprise : le guide complet - definition, panorama des modeles, comparatif couts, quand choisir un SLM.
Solutions LLM et SLM sur mesure par Tensoria - cadrage, developpement et deploiement de systemes NLP pour l'industrie.
Guide RAG local sur materiel industriel (OnLogic) - retour d'experience concret sur le deploiement de LLM en environnement industriel.
Annonce officielle Ministral 3 (Mistral AI) - specifications et cas d'usage des modeles edge 3B/8B/14B.