Tensoria
Parlez-nous de votre projet : 07 82 80 51 40
Stratégie IA Par

Confidentialité des données et développement IA externalisé

La confidentialité des données dans un projet de développement IA externalisé repose sur trois piliers : un cadre contractuel conforme au RGPD (DPA signé avant tout partage de données), des garanties techniques sur l'hébergement et l'accès, et une clause explicite interdisant l'utilisation de vos données pour entraîner des modèles tiers. Ce guide détaille chaque point, sans promesses, avec les textes de référence.

Le prestataire IA est votre sous-traitant au sens du RGPD

Dès qu'un prestataire accède à des données personnelles ou confidentielles pour développer votre solution IA, il devient votre sous-traitant au sens de l'article 28 du RGPD. Ce statut a des conséquences concrètes, pas seulement juridiques.

En tant que responsable du traitement, c'est vous qui restez responsable vis-à-vis de la CNIL, même si la faute est celle du prestataire. Un manquement de sa part peut vous exposer à des sanctions allant jusqu'à 20 millions d'euros ou 4 % du chiffre d'affaires mondial, selon l'article 83 du RGPD.

La CNIL rappelle dans ses recommandations sur les systèmes d'IA et le RGPD que la finalité du traitement doit être définie avant tout développement, et que le prestataire ne peut traiter vos données qu'à cette fin précise, sur instruction documentée.

Ce point est souvent mal compris : signer une proposition commerciale ne suffit pas à qualifier le cadre de traitement. Le DPA doit exister avant le premier échange de données.

Le DPA : ce qu'il doit contenir pour vous protéger

Le Data Processing Agreement (accord de traitement des données) est le document contractuel imposé par l'article 28 du RGPD entre vous et votre prestataire. Voici ce qu'il doit explicitement couvrir pour un projet IA.

Les éléments contractuels minimaux

  • Catégories de données traitées : données RH, données clients, données financières, propriété intellectuelle. Chaque catégorie doit être listée.
  • Finalité stricte : développement du modèle IA décrit dans le contrat de prestation, rien d'autre.
  • Durée de conservation : durée de la mission + délai de suppression à l'issue (généralement 30 à 60 jours).
  • Localisation des serveurs : Union Européenne obligatoire, France si vous l'exigez.
  • Sous-traitants ultérieurs : le prestataire doit lister ses propres fournisseurs cloud, LLM ou outils tiers qui accèderont à vos données.
  • Interdiction d'entraînement tiers : clause explicite que vos données ne servent pas à améliorer les modèles du prestataire ni ceux de ses fournisseurs.
  • Attestation de suppression : le prestataire s'engage à fournir une confirmation écrite de destruction des données à la fin du projet.

Ce que le DPA ne couvre pas automatiquement

Le DPA encadre les données personnelles. Il ne protège pas automatiquement vos données métier non personnelles (procédures internes, modèles de pricing, base produits) ni votre propriété intellectuelle. Ces éléments relèvent du contrat de prestation et du NDA.

Point de vigilance

Demandez systématiquement le DPA type du prestataire avant le premier échange de documents. S'il n'en dispose pas, ou s'il propose de signer le vôtre sans réaction, prenez-le comme signal : un prestataire qui traite régulièrement des données clients a son propre DPA prêt et l'améliore avec les retours de ses clients.

Hébergement souverain, on-premise et cloud EU : les vraies différences

La localisation des serveurs est l'une des premières questions à poser, mais la réponse n'est pas binaire. Voici les trois niveaux courants, du plus ouvert au plus hermétique.

Cloud EU (standard)

Hébergement chez AWS, Azure ou Google Cloud dans des régions européennes (Paris, Frankfurt, Amsterdam). Ces opérateurs sont soumis au RGPD et proposent des DPA conformes. Le point de vigilance : les sociétés-mères sont américaines et donc soumises au Cloud Act, ce qui crée un risque théorique de réquisition par les autorités américaines. Ce risque est limité mais réel dans les secteurs sensibles (défense, santé, institutions financières).

Hébergement souverain français

OVHcloud, Scaleway, Clever Cloud, Outscale (filiale de Dassault Systèmes) sont des acteurs européens dont la chaîne capitalistique reste hors du Cloud Act américain. Le label SecNumCloud de l'ANSSI (Agence Nationale de la Sécurité des Systèmes d'Information) est la référence française : il impose des audits techniques réguliers et des garanties de souveraineté élevées. Ce niveau est souvent exigé pour les marchés publics ou les opérateurs d'importance vitale (OIV).

On-premise (sur site)

Les modèles sont déployés sur votre infrastructure physique ou votre datacenter privé. Vos données ne quittent jamais votre périmètre. C'est la solution la plus hermétique sur le plan de la confidentialité, et elle devient accessible avec des modèles open source performants comme Mistral, LLaMA ou Qwen, qui peuvent être déployés sur du matériel standard. Le compromis : vous portez la responsabilité de la maintenance infrastructure, et le prestataire doit intervenir sur site ou via VPN sécurisé.

Option d'hébergement Niveau de souveraineté RGPD conforme Cas typique
Cloud EU (AWS/Azure/GCP) Standard Oui (avec DPA) PME sans contrainte sectorielle
Hébergeur FR souverain Élevé (SecNumCloud) Oui Secteur réglementé, marchés publics
On-premise Maximum Oui Données très sensibles, OIV, défense

Vos données et les LLM tiers : le risque réel d'entraînement

C'est l'inquiétude la plus fréquente des dirigeants. Elle est légitime, mais souvent mal calibrée. Voici la réalité.

Comment les LLM commerciaux gèrent vos données

OpenAI, Anthropic et Mistral AI proposent deux régimes distincts : l'interface grand public (ChatGPT, Claude.ai, Le Chat) où les données peuvent contribuer à l'amélioration du modèle selon les paramètres choisis, et l'accès via API avec options Enterprise où l'utilisation des données pour l'entraînement est désactivée contractuellement.

Un prestataire IA sérieux utilise exclusivement l'accès API avec ces options activées. Il doit pouvoir vous montrer la configuration de son compte et la clause de son DPA fournisseur confirmant l'opt-out.

Les modèles open source : une alternative sans ce risque

Les modèles déployés localement (Mistral 7B, LLaMA 3, Qwen 2.5) ne communiquent avec aucun serveur externe. Aucune donnée ne sort de l'infrastructure de déploiement. C'est la garantie la plus forte, au prix d'une infrastructure à maintenir et de performances parfois inférieures aux modèles frontier sur certaines tâches complexes.

Pour un assistant IA interne sur vos données documentaires, la combinaison RAG (Retrieval-Augmented Generation) sur modèle open source hébergé on-premise est aujourd'hui la configuration qui offre le meilleur équilibre confidentialité/performance pour la majorité des PME industrielles ou juridiques.

Ce que vous devez vérifier concrètement

  • Quel modèle le prestataire utilise, et en quelle version (API ou déploiement local) ?
  • Le DPA du fournisseur LLM couvre-t-il le non-entraînement sur vos données ? Demandez à le lire.
  • Quels sous-traitants ultérieurs du prestataire accèdent à vos données (services d'embedding, base vectorielle, logs) ?

NDA, secret des affaires et cloisonnement technique

Le NDA (Non-Disclosure Agreement, ou accord de confidentialité) protège vos informations commerciales sensibles contre la divulgation intentionnelle. Il est nécessaire mais insuffisant seul pour un projet IA.

Ce que le NDA couvre

Le NDA interdit au prestataire de divulguer les informations auxquelles il accède dans le cadre de la mission : procédures internes, base clients, tarification, savoir-faire métier, données financières. Il crée une obligation de résultat et ouvre une voie de recours contractuelle en cas de violation.

La loi du 30 juillet 2018 transposant la directive européenne 2016/943 sur le secret des affaires offre un cadre légal complémentaire. Elle permet d'engager la responsabilité civile et pénale d'un prestataire qui exploite ou divulgue des informations confidentielles sans autorisation, même en l'absence de NDA explicite, dès lors que ces informations ont une valeur commerciale et que vous avez pris des mesures raisonnables pour les protéger.

Le cloisonnement technique : la couche que le NDA ne remplace pas

Le cloisonnement définit qui accède à quoi, techniquement. Un prestataire rigoureux met en place :

  • Accès minimal : chaque membre de l'équipe projet n'accède qu'aux données strictement nécessaires à sa tâche.
  • Environnement de développement dédié : vos données ne transitent pas dans des environnements partagés entre plusieurs clients.
  • Traçabilité des accès : logs d'accès aux données disponibles sur demande.
  • Suppression post-mission : procédure documentée de destruction des données à la fin du contrat, avec attestation.

Ces garanties techniques doivent figurer dans le contrat de prestation, pas seulement dans une politique de sécurité générale non engageante.

Anonymisation et pseudonymisation : quand et comment les appliquer

Réduire la sensibilité des données avant de les confier au prestataire est souvent la démarche la plus pragmatique. Deux approches principales existent.

Pseudonymisation

Les identifiants directs (noms, prénoms, adresses email, numéros de SIRET, identifiants internes) sont remplacés par des codes ou des tokens. La correspondance est conservée dans une table de référence que vous gardez. Les données restent techniquement dans le champ du RGPD, mais le risque en cas de fuite est fortement réduit.

La pseudonymisation convient aux projets où la donnée individuelle n'est pas nécessaire au développement du modèle, mais où la structure des données doit rester intacte pour l'entraînement.

Anonymisation

Les données sont modifiées de façon irréversible : aucune ré-identification n'est possible, y compris par recoupement. Des données véritablement anonymisées sortent du champ d'application du RGPD. En pratique, l'anonymisation totale est difficile à atteindre sur des données riches et doit être évaluée au cas par cas.

La CNIL publie des recommandations détaillées sur l'anonymisation dans les projets IA, notamment pour les données d'entraînement. Ces recommandations constituent la référence française opposable.

Conseil terrain

Pour la phase de preuve de concept (POC), il est souvent possible de travailler sur un jeu de données synthétiques ou pseudonymisé représentatif de vos données réelles. Cela permet de valider la faisabilité technique sans exposer vos données de production. Exigez cette approche systématiquement pour les POC.

Questions fréquentes sur la confidentialité des données et le développement IA

Non, sauf clause contractuelle expresse en ce sens. Le RGPD (article 28) impose que le sous-traitant ne traite les données que sur instruction du responsable du traitement, c'est-à-dire vous. Un prestataire sérieux stipule explicitement dans son DPA que vos données ne servent pas à améliorer ses modèles ni ceux de ses fournisseurs tiers. Exigez cette clause avant de transmettre le moindre fichier.
Le DPA (Data Processing Agreement, ou accord de traitement des données) est le contrat que l'article 28 du RGPD impose entre un responsable de traitement et son sous-traitant. Il est obligatoire dès que le prestataire accède à des données personnelles ou confidentielles pour vous. Il précise les catégories de données traitées, la finalité, les mesures de sécurité, l'emplacement des serveurs et les conditions de suppression en fin de mission. Sans DPA signé, vous êtes en infraction RGPD.
Tout hébergement dans l'Union Européenne est soumis au RGPD et offre un cadre équivalent. L'hébergement en France (OVHcloud, Scaleway, Clever Cloud) ou chez un opérateur labellisé SecNumCloud ajoute une couche de souveraineté qui peut être requise par certains secteurs réglementés ou marchés publics. L'on-premise (infrastructure installée dans vos locaux) est la solution la plus hermétique : les données ne quittent jamais votre périmètre. Le bon choix dépend de la sensibilité des données et des exigences de votre secteur, pas d'une règle universelle.
Pas si votre prestataire utilise les API en mode entreprise avec les options d'opt-out activées, ou des modèles open source déployés sur votre propre infrastructure. OpenAI, Anthropic et Mistral AI proposent des options contractuelles (souvent dans leurs offres API Enterprise) qui désactivent l'utilisation de vos données pour l'entraînement général. Vérifiez que votre prestataire a activé ces options et que son DPA le confirme par écrit.
Le NDA (accord de confidentialité) est nécessaire mais insuffisant seul. Il protège contre la divulgation intentionnelle, mais ne précise pas les modalités techniques de traitement des données, les sous-traitants ultérieurs du prestataire, ni les garanties de sécurité. Un dispositif complet associe NDA, DPA conforme au RGPD, clauses techniques sur l'hébergement et l'anonymisation, et conditions de suppression des données à la fin du projet.
Elle doit être supprimée ou restituée, selon ce que prévoit votre DPA. Le RGPD impose que le prestataire supprime ou retourne toutes les données personnelles à l'issue de la prestation. Exigez un délai précis (30 à 60 jours après la fin du contrat) et une attestation écrite de suppression. Pour les données métier non personnelles, stipulez la restitution dans le format que vous choisissez et la destruction des copies.
Oui, et c'est souvent la meilleure approche pour les phases d'entraînement ou de test. La pseudonymisation remplace les identifiants directs (noms, SIRET, emails) par des codes, ce qui réduit le risque sans éliminer la valeur analytique. L'anonymisation totale est plus lourde mais sort les données du champ du RGPD. Votre prestataire doit être capable de vous proposer cette étape en amont du projet, pas en option tardive.
Par plusieurs mécanismes cumulables : NDA couvrant les informations commerciales sensibles (procédures, savoir-faire, données clients, tarifs), clause de confidentialité dans le contrat de prestation, cloisonnement technique (accès limité aux seules données nécessaires au projet), et clause de non-sollicitation. La loi française du 30 juillet 2018 transposant la directive UE 2016/943 sur le secret des affaires vous offre un cadre de recours en cas de violation, même sans NDA explicite.
En tant que responsable de traitement, c'est vous qui pouvez être sanctionné, même si la faute est celle du prestataire. Les sanctions CNIL peuvent atteindre 20 millions d'euros ou 4 % du chiffre d'affaires mondial annuel (article 83 du RGPD). C'est pourquoi le choix et l'encadrement contractuel du prestataire sont une responsabilité de direction, pas un détail juridique.

Pour aller plus loin

Prochaine étape

Tensoria déploie des assistants IA internes sur vos données avec hébergement en France ou on-premise, DPA inclus dans chaque contrat de prestation, et modèles open source déployés localement pour les contextes à forte contrainte de confidentialité. Chaque projet inclut un cadrage préalable des données traitées, de leur localisation et des accès.

Contactez-nous pour un échange de 30 minutes afin de préciser le niveau de confidentialité adapté à votre contexte et les options d'hébergement qui y correspondent.

Passer à l'action

Vous voulez appliquer ça dans votre entreprise ?

En quelques minutes, identifiez les cas d'usage IA les plus rentables pour votre métier. Sans engagement, et sans jargon.

Demander un devis
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.