La confidentialité des données dans un projet de développement IA externalisé repose sur trois piliers : un cadre contractuel conforme au RGPD (DPA signé avant tout partage de données), des garanties techniques sur l'hébergement et l'accès, et une clause explicite interdisant l'utilisation de vos données pour entraîner des modèles tiers. Ce guide détaille chaque point, sans promesses, avec les textes de référence.
Le prestataire IA est votre sous-traitant au sens du RGPD
Dès qu'un prestataire accède à des données personnelles ou confidentielles pour développer votre solution IA, il devient votre sous-traitant au sens de l'article 28 du RGPD. Ce statut a des conséquences concrètes, pas seulement juridiques.
En tant que responsable du traitement, c'est vous qui restez responsable vis-à-vis de la CNIL, même si la faute est celle du prestataire. Un manquement de sa part peut vous exposer à des sanctions allant jusqu'à 20 millions d'euros ou 4 % du chiffre d'affaires mondial, selon l'article 83 du RGPD.
La CNIL rappelle dans ses recommandations sur les systèmes d'IA et le RGPD que la finalité du traitement doit être définie avant tout développement, et que le prestataire ne peut traiter vos données qu'à cette fin précise, sur instruction documentée.
Ce point est souvent mal compris : signer une proposition commerciale ne suffit pas à qualifier le cadre de traitement. Le DPA doit exister avant le premier échange de données.
Le DPA : ce qu'il doit contenir pour vous protéger
Le Data Processing Agreement (accord de traitement des données) est le document contractuel imposé par l'article 28 du RGPD entre vous et votre prestataire. Voici ce qu'il doit explicitement couvrir pour un projet IA.
Les éléments contractuels minimaux
- Catégories de données traitées : données RH, données clients, données financières, propriété intellectuelle. Chaque catégorie doit être listée.
- Finalité stricte : développement du modèle IA décrit dans le contrat de prestation, rien d'autre.
- Durée de conservation : durée de la mission + délai de suppression à l'issue (généralement 30 à 60 jours).
- Localisation des serveurs : Union Européenne obligatoire, France si vous l'exigez.
- Sous-traitants ultérieurs : le prestataire doit lister ses propres fournisseurs cloud, LLM ou outils tiers qui accèderont à vos données.
- Interdiction d'entraînement tiers : clause explicite que vos données ne servent pas à améliorer les modèles du prestataire ni ceux de ses fournisseurs.
- Attestation de suppression : le prestataire s'engage à fournir une confirmation écrite de destruction des données à la fin du projet.
Ce que le DPA ne couvre pas automatiquement
Le DPA encadre les données personnelles. Il ne protège pas automatiquement vos données métier non personnelles (procédures internes, modèles de pricing, base produits) ni votre propriété intellectuelle. Ces éléments relèvent du contrat de prestation et du NDA.
Point de vigilance
Demandez systématiquement le DPA type du prestataire avant le premier échange de documents. S'il n'en dispose pas, ou s'il propose de signer le vôtre sans réaction, prenez-le comme signal : un prestataire qui traite régulièrement des données clients a son propre DPA prêt et l'améliore avec les retours de ses clients.
Hébergement souverain, on-premise et cloud EU : les vraies différences
La localisation des serveurs est l'une des premières questions à poser, mais la réponse n'est pas binaire. Voici les trois niveaux courants, du plus ouvert au plus hermétique.
Cloud EU (standard)
Hébergement chez AWS, Azure ou Google Cloud dans des régions européennes (Paris, Frankfurt, Amsterdam). Ces opérateurs sont soumis au RGPD et proposent des DPA conformes. Le point de vigilance : les sociétés-mères sont américaines et donc soumises au Cloud Act, ce qui crée un risque théorique de réquisition par les autorités américaines. Ce risque est limité mais réel dans les secteurs sensibles (défense, santé, institutions financières).
Hébergement souverain français
OVHcloud, Scaleway, Clever Cloud, Outscale (filiale de Dassault Systèmes) sont des acteurs européens dont la chaîne capitalistique reste hors du Cloud Act américain. Le label SecNumCloud de l'ANSSI (Agence Nationale de la Sécurité des Systèmes d'Information) est la référence française : il impose des audits techniques réguliers et des garanties de souveraineté élevées. Ce niveau est souvent exigé pour les marchés publics ou les opérateurs d'importance vitale (OIV).
On-premise (sur site)
Les modèles sont déployés sur votre infrastructure physique ou votre datacenter privé. Vos données ne quittent jamais votre périmètre. C'est la solution la plus hermétique sur le plan de la confidentialité, et elle devient accessible avec des modèles open source performants comme Mistral, LLaMA ou Qwen, qui peuvent être déployés sur du matériel standard. Le compromis : vous portez la responsabilité de la maintenance infrastructure, et le prestataire doit intervenir sur site ou via VPN sécurisé.
| Option d'hébergement | Niveau de souveraineté | RGPD conforme | Cas typique |
|---|---|---|---|
| Cloud EU (AWS/Azure/GCP) | Standard | Oui (avec DPA) | PME sans contrainte sectorielle |
| Hébergeur FR souverain | Élevé (SecNumCloud) | Oui | Secteur réglementé, marchés publics |
| On-premise | Maximum | Oui | Données très sensibles, OIV, défense |
Vos données et les LLM tiers : le risque réel d'entraînement
C'est l'inquiétude la plus fréquente des dirigeants. Elle est légitime, mais souvent mal calibrée. Voici la réalité.
Comment les LLM commerciaux gèrent vos données
OpenAI, Anthropic et Mistral AI proposent deux régimes distincts : l'interface grand public (ChatGPT, Claude.ai, Le Chat) où les données peuvent contribuer à l'amélioration du modèle selon les paramètres choisis, et l'accès via API avec options Enterprise où l'utilisation des données pour l'entraînement est désactivée contractuellement.
Un prestataire IA sérieux utilise exclusivement l'accès API avec ces options activées. Il doit pouvoir vous montrer la configuration de son compte et la clause de son DPA fournisseur confirmant l'opt-out.
Les modèles open source : une alternative sans ce risque
Les modèles déployés localement (Mistral 7B, LLaMA 3, Qwen 2.5) ne communiquent avec aucun serveur externe. Aucune donnée ne sort de l'infrastructure de déploiement. C'est la garantie la plus forte, au prix d'une infrastructure à maintenir et de performances parfois inférieures aux modèles frontier sur certaines tâches complexes.
Pour un assistant IA interne sur vos données documentaires, la combinaison RAG (Retrieval-Augmented Generation) sur modèle open source hébergé on-premise est aujourd'hui la configuration qui offre le meilleur équilibre confidentialité/performance pour la majorité des PME industrielles ou juridiques.
Ce que vous devez vérifier concrètement
- Quel modèle le prestataire utilise, et en quelle version (API ou déploiement local) ?
- Le DPA du fournisseur LLM couvre-t-il le non-entraînement sur vos données ? Demandez à le lire.
- Quels sous-traitants ultérieurs du prestataire accèdent à vos données (services d'embedding, base vectorielle, logs) ?
NDA, secret des affaires et cloisonnement technique
Le NDA (Non-Disclosure Agreement, ou accord de confidentialité) protège vos informations commerciales sensibles contre la divulgation intentionnelle. Il est nécessaire mais insuffisant seul pour un projet IA.
Ce que le NDA couvre
Le NDA interdit au prestataire de divulguer les informations auxquelles il accède dans le cadre de la mission : procédures internes, base clients, tarification, savoir-faire métier, données financières. Il crée une obligation de résultat et ouvre une voie de recours contractuelle en cas de violation.
La loi du 30 juillet 2018 transposant la directive européenne 2016/943 sur le secret des affaires offre un cadre légal complémentaire. Elle permet d'engager la responsabilité civile et pénale d'un prestataire qui exploite ou divulgue des informations confidentielles sans autorisation, même en l'absence de NDA explicite, dès lors que ces informations ont une valeur commerciale et que vous avez pris des mesures raisonnables pour les protéger.
Le cloisonnement technique : la couche que le NDA ne remplace pas
Le cloisonnement définit qui accède à quoi, techniquement. Un prestataire rigoureux met en place :
- Accès minimal : chaque membre de l'équipe projet n'accède qu'aux données strictement nécessaires à sa tâche.
- Environnement de développement dédié : vos données ne transitent pas dans des environnements partagés entre plusieurs clients.
- Traçabilité des accès : logs d'accès aux données disponibles sur demande.
- Suppression post-mission : procédure documentée de destruction des données à la fin du contrat, avec attestation.
Ces garanties techniques doivent figurer dans le contrat de prestation, pas seulement dans une politique de sécurité générale non engageante.
Anonymisation et pseudonymisation : quand et comment les appliquer
Réduire la sensibilité des données avant de les confier au prestataire est souvent la démarche la plus pragmatique. Deux approches principales existent.
Pseudonymisation
Les identifiants directs (noms, prénoms, adresses email, numéros de SIRET, identifiants internes) sont remplacés par des codes ou des tokens. La correspondance est conservée dans une table de référence que vous gardez. Les données restent techniquement dans le champ du RGPD, mais le risque en cas de fuite est fortement réduit.
La pseudonymisation convient aux projets où la donnée individuelle n'est pas nécessaire au développement du modèle, mais où la structure des données doit rester intacte pour l'entraînement.
Anonymisation
Les données sont modifiées de façon irréversible : aucune ré-identification n'est possible, y compris par recoupement. Des données véritablement anonymisées sortent du champ d'application du RGPD. En pratique, l'anonymisation totale est difficile à atteindre sur des données riches et doit être évaluée au cas par cas.
La CNIL publie des recommandations détaillées sur l'anonymisation dans les projets IA, notamment pour les données d'entraînement. Ces recommandations constituent la référence française opposable.
Conseil terrain
Pour la phase de preuve de concept (POC), il est souvent possible de travailler sur un jeu de données synthétiques ou pseudonymisé représentatif de vos données réelles. Cela permet de valider la faisabilité technique sans exposer vos données de production. Exigez cette approche systématiquement pour les POC.
Questions fréquentes sur la confidentialité des données et le développement IA
Pour aller plus loin
- Développement IA sur mesure pour PME : le guide complet : cadrage, étapes, budget et conditions de réussite d'un projet de développement IA externalisé.
- Choisir un prestataire IA pour sa PME : 12 critères qui comptent vraiment : les questions à poser sur les données, le DPA et les garanties techniques dès le premier rendez-vous.
- Recommandations de la CNIL sur le développement des systèmes d'IA : la référence officielle française sur la conformité RGPD en phase de développement.
- Article 28 du RGPD et obligations du sous-traitant : explication détaillée des clauses obligatoires du contrat de sous-traitance.
Prochaine étape
Tensoria déploie des assistants IA internes sur vos données avec hébergement en France ou on-premise, DPA inclus dans chaque contrat de prestation, et modèles open source déployés localement pour les contextes à forte contrainte de confidentialité. Chaque projet inclut un cadrage préalable des données traitées, de leur localisation et des accès.
Contactez-nous pour un échange de 30 minutes afin de préciser le niveau de confidentialité adapté à votre contexte et les options d'hébergement qui y correspondent.