Un SLM embarqué pour la documentation technique aéronautique, c'est un petit modèle de langage déployé directement dans l'atelier - sur un mini-PC sans connexion cloud - capable de répondre à des questions sur un AMM, un IPC ou un CMM en quelques secondes. La réponse courte sur la pertinence : oui, c'est techniquement faisable aujourd'hui avec des modèles comme Ministral 3B ou Phi-4-mini, et c'est même l'une des architectures les plus adaptées au secteur aéronautique, précisément parce qu'elle ne génère aucun trafic sortant.
Ce guide couvre les quatre sujets qui font la spécificité du cas aéro : pourquoi l'offline est non négociable (ITAR/EAR, confidentialité, absence de réseau en atelier), comment assembler une architecture RAG locale sur la documentation technique, quel SLM choisir selon le matériel disponible, et quelles limites garder en tête avant de mettre un tel outil entre les mains d'un technicien.
Pourquoi le cloud est souvent exclu dans un atelier aéronautique
La question n'est pas seulement une question de confort ou de latence réseau. Dans beaucoup d'ateliers MRO et de sous-traitants aéronautiques, envoyer des données techniques vers un service cloud est une décision réglementaire complexe, voire impossible.
ITAR et EAR : le risque réglementaire souvent sous-estimé
L'ITAR (International Traffic in Arms Regulations) et l'EAR (Export Administration Regulations) sont deux réglementations américaines qui encadrent l'export de technologies à usage militaire ou dual-use. Concrètement : les données techniques liées à des programmes de défense (pièces de missiles, systèmes avioniques militaires, équipements spatiaux) ne peuvent pas être transmises à des serveurs étrangers ou consultées par des ressortissants non américains sans autorisation.
Or un appel API vers GPT-4o, Claude ou Gemini transfère le contenu de la requête - y compris les passages de documentation technique qu'on lui soumet - vers des serveurs hors périmètre ITAR contrôlé. Même les solutions "cloud souverain" comme Azure Government ou Assured Workloads de Google ont des restrictions précises sur les accès et les transferts que peu d'entreprises vérifient réellement avant déploiement.
L'absence de réseau : une contrainte physique, pas un choix
Indépendamment des réglementations, beaucoup d'ateliers de maintenance aéronautique travaillent dans des zones à connectivité limitée ou nulle : hangars isolés, zones militaires, plateformes offshore, ateliers en zone de sécurité sans accès internet. Un outil qui dépend d'une API cloud est inutilisable dans ces contextes.
Et même là où le réseau existe, la dépendance à une API tierce introduit un point de défaillance : si l'API est indisponible, le technicien perd l'accès à son assistant. Un SLM local tourne sur la machine, avec ou sans réseau, avec ou sans électricité depuis le fournisseur cloud.
La confidentialité documentaire comme argument en soi
Au-delà du réglementaire, les AMM et IPC sont des documents contractuellement confidentiels entre l'OEM (Airbus, Safran, CFM...) et l'atelier. Les licences d'utilisation de ces manuels interdisent souvent explicitement leur transmission à des tiers. Envoyer des extraits vers une API cloud, même anonymisée, entre dans une zone grise juridique que les directions juridiques des sous-traitants aéronautiques préfèrent éviter.
Principe de base
Un SLM offline répond aux trois contraintes simultanément : zéro trafic sortant (ITAR), disponibilité sans réseau (atelier), confidentialité documentaire (licences OEM). C'est rarement le cas d'une architecture cloud, quelle que soit la juridiction du datacenter.
Architecture d'un système RAG local sur documentation aéronautique
Le RAG (Retrieval-Augmented Generation) est la brique indispensable pour rendre un SLM utile sur de la documentation technique. Sans RAG, le modèle répond depuis son entraînement général - et il ne connaît pas les révisions spécifiques de votre AMM. Avec RAG, il cherche d'abord dans vos documents, puis formule la réponse.
Etape 1 : indexation de la documentation
Les documents PDF (AMM, IPC, CMM, SRM, FIM) sont découpés en chunks de taille fixe - typiquement 400 à 800 tokens avec un chevauchement de 100 tokens pour ne pas couper les procédures en deux. Chaque chunk est ensuite encodé en vecteur par un modèle d'embedding local (nomic-embed-text, all-MiniLM-L6, ou e5-small) et stocké dans une base vectorielle locale.
Les outils open source adaptés à ce contexte : ChromaDB (léger, embarquable dans le même processus), Qdrant en mode local (plus robuste pour des corpus volumineux), ou FAISS pour les cas les plus simples. Tout tourne sur la même machine, sans dépendance réseau.
Etape 2 : retrieval et génération
Quand le technicien pose sa question ("Quelles sont les tolérances d'usure du disque de frein selon le chapitre ATA 32 ?"), la requête est encodée par le même modèle d'embedding. Les K passages les plus proches sémantiquement sont extraits de la base vectorielle. Le SLM reçoit ensuite un prompt structuré : question + passages retrouvés + instruction de répondre uniquement depuis ces passages.
Cette dernière contrainte est critique : le SLM ne doit pas inventer une tolérance qu'il n'a pas vue dans le document. Un bon prompt système incluant "If the answer is not in the provided context, say so explicitly" réduit drastiquement les hallucinations sur les données de sécurité.
Etape 3 : affichage de la source
Pour un usage en contexte réglementé, chaque réponse doit afficher la référence exacte du passage source : numéro de section AMM, révision du document, page. Le technicien peut ainsi vérifier dans le document officiel avant d'agir. L'assistant n'est pas un substitut à la documentation certifiée, mais un moteur de navigation dans cette documentation.
Stack technique de référence
SLM : Ministral 3B ou Phi-4-mini via Ollama. Embedding : nomic-embed-text (local, Ollama). Base vectorielle : ChromaDB ou Qdrant local. Interface : Open WebUI (open source, auto-hébergeable). Orchestration : LangChain ou LlamaIndex. Le tout tient sur un mini-PC avec 16 Go de RAM.
Pour une architecture RAG complète avec Mistral et les choix d'infrastructure hébergement France, notre article RAG souverain avec Mistral détaille chaque composant et les arbitrages de déploiement.
Choisir le bon SLM pour un atelier aéronautique
Le choix du modèle dépend du matériel disponible et du volume d'utilisateurs simultanés. Voici une lecture pragmatique des options 2026.
Ministral 3B (Mistral AI, décembre 2025)
La version 3B de Ministral 3 (sortie en décembre 2025) est explicitement conçue pour l'edge deployment. En quantification Q4, elle tient dans 4 à 5 Go de RAM et s'exécute correctement sur un CPU moderne - ce qui signifie qu'aucun GPU n'est requis pour un usage mono-utilisateur. Mistral AI est une entreprise parisienne dont les modèles intègrent une forte proportion de texte francophone dans le pré-entraînement, ce qui est utile pour traiter des instructions de maintenance en français.
Phi-4-mini (Microsoft, 3,8B, MIT)
Phi-4-mini est l'option la plus frugale en mémoire : environ 3 Go en Q4_K_M sur CPU. Son atout pour la documentation aéronautique est son contexte de 128 000 tokens - ce qui permet d'ingérer un chapitre AMM entier dans la fenêtre de contexte sans devoir découper finement. Entraîné sur des données à haute densité informationnelle (textes techniques, mathématiques, code), il suit bien des instructions structurées et produit des extractions fiables depuis des passages factuels. Licence MIT, usage commercial libre.
Ministral 8B et Qwen2.5 7B pour les ateliers mieux équipés
Si l'atelier dispose d'une station de travail avec GPU (8 à 12 Go de VRAM), Ministral 8B offre une compréhension nettement meilleure sur les procédures complexes et le jargon très spécialisé. Qwen2.5 7B (Alibaba, Apache 2.0) est une alternative intéressante si le corpus de documentation mélange français, anglais et termes OEM en plusieurs langues - il gère bien le multilinguisme.
| Modele | Taille | RAM/VRAM Q4 | Contexte | Licence | Usage atelier |
|---|---|---|---|---|---|
| Phi-4-mini | 3,8B | ~3 Go CPU | 128K tokens | MIT | Mini-PC CPU, 1-3 users |
| Ministral 3B | 3B | ~4-5 Go CPU | 128K tokens | MRL v0.1 | Mini-PC CPU, 1-3 users |
| Ministral 8B | 8B | ~12 Go VRAM FP8 | 128K tokens | MRL v0.1 | Station GPU 8-12 Go, 5-10 users |
| Qwen2.5 7B | 7B | ~5 Go VRAM | 128K tokens | Apache 2.0 | Station GPU, multilinguisme |
Pour approfondir la comparaison des SLM en conditions industrielles, notre guide SLM on-device et IA embarquee couvre les architectures edge, les outils de serving, et les benchmarks sur matériel contraint.
Matériel recommandé pour un déploiement en atelier
Le choix du matériel est souvent ce qui bloque les projets. En contexte industriel, un serveur de datacenter est rarement envisageable - il faut quelque chose de compact, silencieux, résistant aux vibrations et à la poussière, et maintenable par quelqu'un qui n'est pas data scientist.
Mini-PC industriel pour les modèles 3-4B (CPU-only)
Pour Phi-4-mini ou Ministral 3B sans GPU : un mini-PC avec processeur Intel N200 ou Core i5 13e génération, 16 Go de RAM DDR5 et 500 Go de SSD NVMe suffit largement. Les formats fanless (sans ventilateur) sont préférables en atelier : moins de poussière à gérer, moins de pièces mobiles à casser. Compter 400 à 700 euros de matériel.
La latence sur CPU pour un modèle 3B quantifié : 10 à 25 tokens par seconde selon le processeur - soit une réponse de 100 à 200 mots en 8 à 20 secondes. Acceptable pour un usage occasionnel, moins confortable pour 10 techniciens simultanés.
Station de travail avec GPU pour les modèles 7-8B
Pour servir plusieurs utilisateurs ou un modèle plus puissant : une carte Nvidia RTX série 40 (RTX 4060 Ti avec 16 Go VRAM, environ 450-500 euros) change radicalement la donne. Un Ministral 8B en Q4 sur RTX 4060 Ti génère 60 à 100 tokens par seconde - une réponse de 200 mots s'affiche en moins de 3 secondes. La station peut servir l'ensemble d'un atelier en mode client-serveur via le réseau local interne (LAN), sans jamais toucher à internet.
Serving et interface utilisateur
Ollama est le choix le plus simple pour le serving local : un binaire unique, une API compatible OpenAI, un gestionnaire de modèles intégré. Open WebUI (anciennement Ollama WebUI) fournit une interface utilisateur en navigateur, déployable sur le même serveur. Pour les équipes qui ont besoin d'un accès multi-utilisateurs avec authentification, LMStudio ou une instance llama.cpp servie derrière un proxy nginx sont des alternatives viables.
Pour les détails sur les serveurs d'inférence open source et leur comparatif, l'article top serveurs d'inference LLM open source fait le tour des options avec leurs trade-offs.
Limites du SLM local en contexte aéronautique
Soyons directs sur ce qui ne marche pas, parce que ce sont des limites qui ont des conséquences en contexte de sécurité.
Les procédures de sécurité critique. Un SLM de 3B paramètres peut reformuler une procédure de manière légèrement inexacte - supprimer une étape, inverser deux vérifications. Sur du texte commercial, c'est peu grave. Sur une procédure de remontage d'un train d'atterrissage ou d'un système hydraulique, une reformulation erronée peut avoir des conséquences graves. La règle : l'assistant affiche la référence source, le technicien vérifie dans le document primaire avant d'agir. Toujours.
Le jargon OEM très spécifique. Chaque OEM a son propre vocabulaire, ses propres abréviations, ses propres conventions de nommage des composants. Un SLM de base peut confondre des désignations proches ou mal interpréter un acronyme propre à un constructeur. Un fine-tuning léger sur un corpus de documentation certifiée améliore ce point, mais représente un investissement supplémentaire.
Les révisions documentaires. Le RAG indexe une version donnée de la documentation. Si l'AMM est révisé (Airbus et Boeing publient régulièrement des révisions), l'index doit être mis à jour manuellement. Un process de mise à jour documentaire doit être défini dès le début du projet, avec une responsabilité clairement attribuée.
Le volume documentaire. Indexer l'intégralité d'un AMM Airbus A320 (plusieurs milliers de pages) prend du temps à l'initialisation et demande un stockage adapté. Les bases vectorielles locales gèrent bien jusqu'à quelques dizaines de milliers de chunks - au-delà, les temps de retrieval peuvent augmenter et une optimisation de l'index devient nécessaire.
Point de vigilance réglementaire
L'EASA (Part-145, Part-66) ne réglemente pas les outils d'aide à la consultation documentaire, mais le technicien reste seul responsable de l'acte de maintenance. Un assistant SLM/RAG ne se substitue pas au document approuvé. Toute réponse doit renvoyer vers la section AMM source - c'est une exigence fonctionnelle, pas optionnelle.
Sur les usages complémentaires de l'IA en aéronautique, l'article IA et documentation technique aeronautique couvre les cas d'usage plus larges, et controle non destructif vision IA en aeronautique aborde le cas des inspections visuelles assistées.
Projet SLM offline en aero
Vous evaluez la faisabilite d'un assistant RAG local sur votre documentation AMM/IPC ? Cadrons ensemble le modele, le materiel et les contraintes reglementaires.
Pour aller plus loin
- SLM on-device et IA embarquee - architectures edge, outils de serving et benchmarks sur materiel contraint.
- IA et documentation technique aeronautique - panorama des cas d'usage : recherche, traduction, extraction structuree.
- RAG souverain avec Mistral - architecture complete hebergee en France, choix de la base vectorielle, prompt engineering.
- Ministral et Mistral Small : guide des SLM francais - focus sur la gamme Mistral AI pour l'entreprise, benchmarks et licences.
- Controle non destructif vision IA en aeronautique - inspection visuelle et detection d'anomalies en atelier MRO.
- IA et MRO en aeronautique Toulouse - vue d'ensemble des usages IA en maintenance et reparation.
- SLM en entreprise : le guide complet - definition, panorama des modeles, comparatif couts, quand choisir un SLM.
- Solutions LLM et SLM sur mesure par Tensoria - cadrage, developpement et deploiement de systemes NLP pour l'industrie.
- Guide RAG local sur materiel industriel (OnLogic) - retour d'experience concret sur le deploiement de LLM en environnement industriel.
- Annonce officielle Ministral 3 (Mistral AI) - specifications et cas d'usage des modeles edge 3B/8B/14B.