La détection de fraude par machine learning permet à une PME d'identifier automatiquement les anomalies de paiement, les doublons de factures, les notes de frais suspectes et les comportements e-commerce à risque, avant qu'ils ne se transforment en pertes réelles. Ce guide explique quand l'approche supervisée ou non supervisée s'impose, ce que vos données doivent contenir, et comment gérer le problème central des faux positifs.
Les cas de fraude concrets en PME que le ML détecte
La détection de fraude par machine learning n'est pas réservée aux banques qui analysent des millions de transactions par seconde. En PME, les typologies de fraude sont différentes, souvent moins spectaculaires, mais cumulativement coûteuses. Et c'est précisément là que le ML apporte de la valeur : dans la répétition et le volume.
Anomalies de paiement et doublons de factures
Les doublons de paiement fournisseur sont parmi les cas les mieux documentés. Selon Grant Thornton, les doublons représentent en moyenne 0,1 à 0,5 % du volume total des paiements fournisseurs, un chiffre en apparence modeste qui peut représenter plusieurs dizaines de milliers d'euros annuels sur un volume d'achats de 10 millions d'euros.
Le ML détecte des patterns que les règles classiques ratent : un même montant réglé à un fournisseur sur deux entités juridiques distinctes, une facture numérotée différemment mais émise le même jour pour le même montant, un IBAN modifié juste avant un virement important.
Fraude aux notes de frais
Les notes de frais sont un terrain fertile pour les anomalies. Non pas parce que tous les collaborateurs fraudent, mais parce que les comportements habituels sont suffisamment stables pour qu'une déviation soit détectable. Un modèle ML apprend le comportement normal de chaque profil (montant moyen, catégories usuelles, fréquence mensuelle, géographies habituelles) et signale les écarts.
Un commercial qui soumet habituellement 400 euros de frais mensuels et dépasse soudainement 1 200 euros en notes de restaurant sur un mois creux : le système alerte, l'équipe RH vérifie. Ce n'est pas une accusation automatique, c'est une priorisation des contrôles.
Fraude e-commerce et comportement client suspect
Pour les PME qui vendent en ligne, le ML analyse les combinaisons de signaux que les règles unitaires ne capturent pas : adresse de livraison jamais utilisée, moyen de paiement apparu il y a moins de 24 heures, montant anormalement élevé pour un compte créé récemment, vitesse de navigation inhabituellement rapide sur le tunnel d'achat.
Chaque variable prise isolément peut être normale. Combinées, elles forment un profil de risque que le modèle apprend à reconnaître à partir des transactions frauduleuses passées.
Fournisseurs fantômes et fraude interne
La création de fournisseurs fictifs est une forme de fraude interne classique. Le ML peut croiser les données comptables avec les bases légales (SIRENE, Infogreffe) et signaler les entités avec un IBAN apparu récemment, un SIRET non trouvé, ou une adresse identique à celle d'un collaborateur. Ce croisement peut être automatisé à chaque création de tiers dans le référentiel fournisseurs.
Supervisé vs non supervisé : choisir la bonne approche
Le choix de l'approche dépend d'une question simple : avez-vous un historique de fraudes documentées, ou pas ? La réponse conditionne entièrement la méthode.
L'apprentissage supervisé : précis mais exigeant en données étiquetées
En apprentissage supervisé, vous entraînez le modèle sur des transactions déjà étiquetées : chaque ligne de l'historique est marquée "fraude" ou "légitime". Le modèle apprend les combinaisons de variables qui distinguent les deux classes et généralise sur les nouvelles transactions.
Les algorithmes les plus utilisés dans ce contexte sont Random Forest, Gradient Boosting (XGBoost, LightGBM) et les réseaux de neurones pour les volumes importants. Ces modèles produisent un score de probabilité de fraude entre 0 et 1, que vous pouvez seuiller selon votre tolérance au risque.
La contrainte principale : il faut suffisamment d'exemples de fraude dans l'historique. Si vous avez identifié moins d'une cinquantaine de cas, le modèle aura du mal à généraliser. Des techniques comme SMOTE (Synthetic Minority Oversampling Technique) permettent de pallier partiellement ce déséquilibre, mais elles ne remplacent pas des données réelles.
L'apprentissage non supervisé : détection d'anomalies sans étiquettes
Quand l'historique ne contient pas d'exemples étiquetés, l'approche non supervisée prend le relais. Le modèle ne cherche pas à reproduire des patterns de fraude connus : il identifie les transactions statistiquement anormales par rapport au comportement global.
Les algorithmes de référence sont Isolation Forest (efficace sur les ensembles déséquilibrés), Local Outlier Factor (analyse de voisinage) et les autoencodeurs neuronaux (reconstruisent la transaction "normale" et signalent les écarts importants de reconstruction).
L'avantage est de détecter des typologies de fraude nouvelles, jamais vues dans l'historique. La contrepartie : les alertes sont des anomalies, pas des certitudes. Le taux de faux positifs est structurellement plus élevé, et une validation humaine reste indispensable.
Supervisé vs non supervisé : tableau de décision
| Critère | Supervisé | Non supervisé |
|---|---|---|
| Historique étiqueté requis | Oui (min. ~500 cas) | Non |
| Précision sur fraudes connues | Élevée | Moyenne |
| Détection fraudes nouvelles | Limitée | Bonne |
| Taux de faux positifs | Maîtrisable | Plus élevé |
| Explicabilité des alertes | Bonne (SHAP) | Partielle |
| Complexité de mise en oeuvre | Plus élevée | Plus simple |
En pratique, la plupart des projets PME commencent par une approche non supervisée pour établir la baseline, puis enrichissent progressivement avec des étiquettes validées par les équipes pour passer au supervisé. Cette progression est naturelle et recommandée.
Le problème des faux positifs et comment le maîtriser
C'est le problème central de tout système anti-fraude, et il est souvent sous-estimé dans les phases de POC. Un faux positif, c'est une transaction légitime signalée à tort comme suspecte. En PME, les conséquences sont concrètes : un virement fournisseur bloqué qui génère une pénalité, un client e-commerce dont la commande est annulée et qui ne revient jamais, une note de frais refusée qui crée un conflit RH.
Le taux de faux positifs dépend directement du seuil de décision que vous appliquez au score de probabilité.
Seuil bas (ex. score supérieur à 0,3 = alerte) : vous attrapez presque toutes les fraudes réelles, mais vous générez beaucoup d'alertes qui mobilisent le temps des équipes. Acceptable si le coût de la fraude non détectée est très élevé.
Seuil élevé (ex. score supérieur à 0,8 = alerte) : vous réduisez les faux positifs, mais vous laissez passer des fraudes à score intermédiaire. Acceptable si la capacité de traitement est limitée.
La boucle de rétroaction : la seule vraie solution
Ajuster le seuil est un palliatif. La vraie solution est de construire une boucle de rétroaction : les équipes qui traitent les alertes valident ou infirment chaque cas, et ces retours réentraînent le modèle périodiquement.
Sur 6 à 12 mois de feedback structuré, le taux de faux positifs peut être réduit de 40 à 60 % sur les typologies déjà rencontrées. C'est ce mécanisme qui fait la différence entre un système qui s'améliore dans le temps et un système qui reste figé à ses performances initiales.
L'explicabilité des alertes
Une alerte inexpliquée est une alerte ignorée. Les outils comme SHAP (SHapley Additive exPlanations) permettent de décomposer la contribution de chaque variable au score de fraude : "Cette facture est signalée car le montant dépasse de 3 fois la moyenne habituelle sur ce fournisseur, et l'IBAN a été modifié il y a 48 heures."
Cette explicabilité n'est pas qu'un confort opérationnel. Elle est aussi une exigence du RGPD dès lors que le système prend des décisions automatisées significatives (article 22 du règlement européen).
Données nécessaires : ce qu'il faut avoir avant de démarrer
Soyons directs : un système de détection de fraude ML ne fonctionne pas sans données de qualité. C'est la variable qui détermine si un projet est faisable ou non. Et dans la majorité des PME, l'inventaire honnête des données disponibles est l'étape la plus utile avant tout développement.
Ce qu'il faut pour les anomalies de paiement
Pour détecter des anomalies sur les paiements fournisseurs, vous avez besoin a minima d'un historique transactionnel structuré couvrant 12 à 24 mois : montant, date, identifiant fournisseur, IBAN, référence facture, entité payante. La qualité compte plus que la durée : un historique de 12 mois cohérent bat un historique de 3 ans avec des doublons de lignes et des entités mal normalisées.
Pour les doublons, l'algorithme compare des vecteurs de similarité multi-dimensionnels : montant exact, montant approximatif, référence facture, date, fournisseur. Il faut que ces champs soient effectivement renseignés et fiables dans votre ERP ou votre outil comptable.
Ce qu'il faut pour les notes de frais
Pour les notes de frais, le ML a besoin d'un historique par collaborateur avec suffisamment de transactions pour établir un profil individuel : idéalement 18 mois minimum, avec les catégories de dépenses, les montants, les dates et les projets associés. Si votre outil de gestion des notes de frais (Spendesk, Jenji, N2F) exporte ces données de façon structurée, vous avez une base solide.
Ce qu'il faut pour la fraude e-commerce
La fraude e-commerce nécessite des données comportementales, pas seulement transactionnelles : adresse IP, device fingerprint, temps passé sur chaque page du tunnel, historique des retours et des litiges, ancienneté du compte, vélocité des commandes. Ces données existent souvent dans les outils e-commerce (Shopify, WooCommerce, PrestaShop) mais elles ne sont pas toujours collectées ou consolidées dans un format exploitable.
Conditions minimales pour démarrer
-
1Historique structuré de 12 à 24 mois selon le cas d'usage (paiements, notes de frais, commandes)
-
2Champs clés renseignés et cohérents : montant, date, identifiant tiers, référence, moyen de paiement
-
3Cas de fraude documentés (même peu nombreux) si vous visez une approche supervisée
-
4Un référent opérationnel disponible pour valider les alertes et alimenter la boucle de rétroaction
-
5Clarté sur les contraintes RGPD : quelles données personnelles sont impliquées et sous quelle base légale le traitement est effectué
Si votre inventaire de données révèle des champs manquants ou des exports non fiables, ce n'est pas une raison d'abandonner le projet. C'est une raison de commencer par un cadrage de la donnée avant de commencer le développement ML. Cela fait partie du travail de préparation.
Notre article sur les données prêtes pour l'IA en entreprise détaille cette étape d'audit amont.
Les algorithmes utilisés en pratique
Voici ce qui fonctionne réellement sur les cas PME, sans mythologie autour de la "deep learning révolutionnaire".
Pour les approches supervisées
Random Forest et XGBoost sont les références pour les données tabulaires (factures, transactions, notes de frais). Ils gèrent bien les déséquilibres de classes, produisent des scores interprétables via SHAP, et convergent rapidement même sur des historiques modestes de quelques dizaines de milliers de lignes. En benchmark sur des datasets de fraude financière publics (Kaggle Credit Card Fraud), XGBoost avec rééquilibrage atteint régulièrement 97 à 99 % de précision et rappel sur la classe minoritaire, selon la qualité des features construites.
Le feature engineering compte davantage que le choix de l'algorithme. Les variables qui font la différence sont souvent dérivées : ratio montant/médiane historique du fournisseur, délai depuis la dernière transaction similaire, score de similarité entre la référence facture et les doublons potentiels, ancienneté de l'IBAN dans le référentiel.
Pour les approches non supervisées
Isolation Forest est l'algorithme de référence pour la détection d'anomalies sur données tabulaires. Il isole les points anormaux en construisant des arbres de partitionnement aléatoires : les points faciles à isoler (ceux qui nécessitent peu de partitions) sont statistiquement anormaux. Il est rapide, gère bien les grandes dimensions, et fonctionne avec quelques centaines d'enregistrements.
Les autoencodeurs (réseaux de neurones qui apprennent à compresser et reconstruire les données) sont particulièrement utiles pour les données comportementales e-commerce où les relations entre variables sont non linéaires. L'erreur de reconstruction est le signal d'anomalie : une transaction que le modèle "comprend mal" (erreur de reconstruction élevée) est statistiquement suspecte.
L'approche hybride règles et ML
Les règles métier et le ML ne s'opposent pas, ils se complètent. Les règles couvrent les cas réglementaires et les seuils absolus (un paiement supérieur à 100 000 euros nécessite toujours une double validation, quelle que soit la probabilité ML). Le ML couvre les cas ambigus et les patterns complexes que les règles ne peuvent pas capturer.
Comme le souligne Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria : "Dans les projets de détection de fraude PME que nous déployons, les premières semaines de production servent presque toujours à calibrer le seuil de score et à construire la boucle de rétroaction. Le modèle technique est rarement le goulot d'étranglement. C'est l'organisation du circuit de validation humaine qui détermine si le système s'améliore ou reste figé."
Pour comprendre comment cadrer et budgéter un tel projet, consultez notre guide sur le développement de solutions IA prédictives pour PME.