Un projet de machine learning prédictif ne peut pas fonctionner sans un historique de données exploitable : c'est l'objection numéro un que soulèvent les dirigeants de PME, et elle est légitime. Cet article détaille les prérequis réels en données selon le type de modèle prédictif visé : volume, granularité, qualité, étiquetage, et les pièges qui font échouer les projets même avec de bons historiques (fuite de données, biais, déséquilibre des classes).
Volume et historique : les seuils réels selon le type de prédiction
La première question posée dans tout projet prédictif est "ai-je assez de données ?". La réponse honnête : ça dépend du type de modèle. Il n'existe pas de seuil universel, mais des fourchettes pragmatiques selon le cas d'usage.
"La question du volume est souvent mal posée. Ce n'est pas combien de lignes que vous avez, c'est combien d'occurrences de l'événement que vous cherchez à prédire. Prédire une panne qui arrive trois fois par an sur 5 ans donne 15 exemples positifs. C'est insuffisant pour un modèle supervisé classique, même avec 50 000 lignes de capteurs." (Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria)
Seuils pratiques par type de modèle prédictif
| Type de prédiction | Historique minimum | Remarque |
|---|---|---|
| Prévision de ventes (mensuelle) | 12 à 24 mois | 24 mois pour capturer la saisonnalité |
| Prévision de stocks (hebdo) | 18 à 36 mois | Deux cycles saisonniers complets |
| Scoring client (churn, risque) | 1 000 à 5 000 exemples par classe | Nécessite des étiquettes historiques |
| Maintenance prédictive (capteurs) | 50 à 100 occurrences de la panne cible | Volume brut secondaire face aux occurrences |
| Détection d'anomalies (non supervisé) | Quelques milliers de lignes "normales" | Pas besoin d'exemples anormaux étiquetés |
| Prévision de trésorerie | 24 à 36 mois | Cycles annuels et comportements de paiement |
Ces seuils sont des points de départ, pas des garanties. Un historique de 24 mois avec des données mal structurées ou incohérentes produira des résultats inférieurs à 12 mois de données propres et bien annotées.
Pour mieux comprendre comment ce prérequis s'articule avec les autres dimensions d'un projet IA en PME (RAG, automatisation, assistant interne), consultez l'article données prêtes pour l'IA en entreprise qui couvre les cas non prédictifs.
Granularité et qualité : ce qui compte vraiment
La granularité est la résolution temporelle ou dimensionnelle de vos données. Elle détermine ce que le modèle peut apprendre.
Choisir la bonne granularité temporelle
La règle pratique : votre granularité doit être au moins 4 à 5 fois plus fine que l'horizon de prédiction.
Vous souhaitez prévoir vos ventes à un horizon de 4 semaines ? Des données journalières, voire hebdomadaires, conviennent. Vous cherchez à anticiper une panne 48 heures à l'avance sur une machine industrielle ? Vos capteurs doivent remonter des mesures toutes les 5 à 15 minutes au moins.
Une granularité trop grossière nivelle les signaux fins qui différencient un comportement normal d'un comportement précurseur. Une granularité trop fine crée du bruit inutile et fait exploser les coûts de stockage et de calcul sans valeur ajoutée.
Les quatre indicateurs de qualité à vérifier en priorité
Taux de valeurs manquantes. En dessous de 5 % sur les colonnes clés, c'est gérable par imputation. Entre 5 et 20 %, la stratégie de traitement impacte les résultats. Au-delà de 20 %, la colonne est souvent inutilisable pour l'entraînement.
Cohérence temporelle. Cherchez les trous dans vos séries. Une série de ventes journalières avec des week-ends et jours fériés manquants n'est pas un problème, c'est attendu. Des semaines entières absentes sans explication sont un signal de problème amont (export incomplet, changement de système).
Stationnarité du processus. Si votre entreprise a changé de modèle commercial, de zone de chalandise, ou de gamme produit sur la période de l'historique, les données antérieures au changement peuvent polluer l'entraînement. Le modèle apprend un comportement qui n'existe plus.
Distribution des variables cibles. Pour les classifications (panne ou pas, churn ou pas), vérifiez le ratio entre les classes. Un ratio 99/1 (99 % de transactions normales pour 1 % d'anomalies) est un déséquilibre sévère qui nécessite des techniques spécifiques : suréchantillonnage (SMOTE), sous-échantillonnage de la classe majoritaire, ou pondération des classes dans la fonction de perte.
La règle des 80 %
D'après une analyse publiée par IBM Institute for Business Value en 2023, les data scientists passent en moyenne 60 à 80 % de leur temps sur les données, dont la majorité sur le nettoyage et la préparation. Ce chiffre n'est pas une surprise pour les praticiens : c'est le reflet de ce que vous devez anticiper dans votre budget projet.
Étiquetage des données : le vrai frein des modèles supervisés
L'apprentissage supervisé exige que chaque exemple d'entraînement soit associé à une valeur cible connue (l'étiquette). C'est ce qui permet au modèle d'apprendre la correspondance entre les features d'entrée et l'outcome à prédire.
En pratique, l'étiquetage est l'étape la plus sous-estimée des projets prédictifs en PME.
Quand l'étiquetage est naturel
Pour la prévision de ventes ou de stocks, l'étiquette est la valeur historique que l'on cherche à prédire. Elle est déjà dans vos données : pas besoin d'annotation manuelle. C'est pourquoi les projets de prévision de séries temporelles sont souvent les plus accessibles techniquement.
Même logique pour la prévision de trésorerie : vos relevés bancaires passés constituent un historique d'étiquettes naturelles.
Quand l'étiquetage pose problème
Les cas difficiles sont ceux où l'événement à prédire n'a jamais été formellement enregistré comme tel dans vos systèmes.
Exemple typique : vous souhaitez prédire quels clients risquent de partir (churn). Pour que le modèle apprenne, il vous faut un historique de clients qui sont effectivement partis, avec leur profil comportemental avant le départ. Si votre CRM n'a jamais tracé les résiliations, ou si l'information est éparpillée dans des emails et des notes manuscrites, vous n'avez pas d'étiquettes exploitables.
Autre cas fréquent : la maintenance prédictive industrielle. Si vos techniciens n'ont jamais rempli de rapport de panne structuré (date, machine, type de défaut), vous n'avez pas d'exemples positifs sur lesquels entraîner un modèle supervisé. Vous pouvez travailler en détection d'anomalies non supervisée, mais les résultats seront moins précis.
La qualité de l'étiquetage compte autant que son volume
Des étiquettes bruitées (pannes mal documentées, résiliations mal codifiées, valeurs renseignées à la louche) dégradent les performances du modèle de façon souvent non visible à l'entraînement mais visible en production. C'est ce que les praticiens appellent le problème du "garbage in, garbage out" : le modèle apprend parfaitement une vérité erronée.
Selon une étude citée par LeMagIT sur la qualité des données en IA, les données inexactes ou mal étiquetées causent l'échec d'une majorité de projets d'apprentissage automatique (source LeMagIT, 2024).
Données de séries temporelles : spécificités et pièges
La majorité des modèles prédictifs en PME (prévision des ventes, des stocks, de la trésorerie, maintenance prédictive) traitent des séries temporelles. Ce type de données a des particularités que les approches classiques de machine learning ne gèrent pas bien si on les ignore.
La séparation train/test ne se fait pas au hasard
En machine learning classique sur données tabulaires, on mélange aléatoirement les exemples pour créer les jeux d'entraînement et de test. Sur une série temporelle, c'est une erreur grave. Le jeu de test doit toujours être postérieur au jeu d'entraînement, sans chevauchement.
Si vous mélangez les dates, le modèle voit "du futur" pendant l'entraînement et apprend des corrélations impossibles en conditions réelles. Ses métriques de performance semblent excellentes. Il échoue en production. C'est une forme de fuite de données temporelle.
Saisonnalité, tendance et cycles
Pour qu'un modèle capture correctement la saisonnalité annuelle, il lui faut au minimum deux cycles complets dans l'historique d'entraînement. Sur 12 mois, un modèle de prévision de ventes de jouets ne "voit" qu'un seul pic de Noël. Il ne peut pas distinguer ce pic de la tendance générale. Sur 24 à 36 mois, la saisonnalité devient un signal robuste.
Les tendances (croissance régulière, déclin progressif) et les cycles économiques posent un problème différent : le modèle entraîné sur une période de croissance sous-estime les creux, et inversement. Il n'existe pas de solution parfaite, mais des techniques de décomposition (STL, X-13ARIMA) permettent de traiter séparément les composantes saisonnières, tendancielles et résiduelles.
Les variables exogènes : un levier sous-utilisé en PME
Les séries temporelles pures (ventes passées pour prédire les ventes futures) ont une limite : elles ne peuvent pas anticiper les ruptures causées par des événements externes. L'ajout de variables exogènes améliore significativement les prédictions.
Exemples concrets selon le secteur :
- +Distribution alimentaire : calendrier des jours fériés, données météo, promotions planifiées
- +Industrie de process : température ambiante, humidité, cadence de production
- +E-commerce : budget pub Google/Meta, visites site, notes produits
- +Services financiers : taux d'intérêt, indicateurs macroéconomiques sectoriels
Ces variables doivent être disponibles non seulement dans l'historique (pour l'entraînement) mais aussi dans le futur au moment de la prédiction. Un calendrier des jours fériés est connu à l'avance. La météo ne l'est que sur un horizon de quelques jours. Attention à ne pas utiliser en variables exogènes des données que vous n'aurez pas au moment de l'inférence.
Les pièges qui font échouer même les bons historiques
Disposer d'un bon historique ne suffit pas. Les projets prédictifs échouent en production pour des raisons souvent évitables dès la phase de préparation des données.
La fuite de données (data leakage)
C'est le piège le plus insidieux et le plus dévastateur. La fuite de données survient quand des informations qui ne seraient pas disponibles au moment de la prédiction réelle se retrouvent dans les features d'entraînement.
Exemple concret : vous entraînez un modèle pour prédire si un client va résilier dans les 30 prochains jours. Vous incluez dans vos features le nombre d'appels au service client du mois en cours. Mais au moment de la prédiction, vous n'avez que les appels des semaines passées, pas le total mensuel définitif. Le modèle apprend à partir d'une information qui n'est pas encore disponible.
Les sources classiques de fuite en PME :
- +Agrégats calculés sur la fenêtre qui inclut la cible (total mensuel, moyenne glissante mal construite)
- +Variables renseignées a posteriori dans l'ERP (statut final d'une commande complété après livraison)
- +Jointures involontaires avec des tables contenant des informations futures
- +Normalisation statistique calculée sur l'ensemble du jeu (train + test) avant la séparation
La parade systématique : reconstruire le pipeline de données exactement comme s'il fonctionnait en production, avec un "point de coupure" temporel strict. Tout ce qui est postérieur à ce point est interdit pour les features.
Le biais d'échantillon
Votre historique ne représente pas nécessairement la diversité des situations que le modèle rencontrera en production. Quelques situations fréquentes en PME :
Biais de survie : si votre historique de clients ne contient que les clients actifs aujourd'hui, vous avez éliminé tous ceux qui ont résilié. Le modèle de churn apprend sur un sous-ensemble non représentatif.
Biais de période : un modèle entraîné sur 2020-2022 inclut la période Covid, avec des comportements d'achat très atypiques. Si votre activité est revenue à la normale depuis, inclure cette période peut dégrader les prédictions.
Biais de sélection : dans les données de maintenance, seules les pannes diagnostiquées et enregistrées dans votre GMAO apparaissent. Les incidents traités en urgence sans documentation sont absents de l'historique.
Le surapprentissage sur petits jeux de données
Sur des historiques courts ou des événements rares, le modèle peut "mémoriser" les exemples d'entraînement au lieu de généraliser. Les métriques de validation paraissent bonnes, mais les prédictions en production sont instables.
Signaux d'alerte : performance parfaite sur le jeu d'entraînement mais dégradée sur le jeu de validation, ou forte variabilité des prédictions selon la graine aléatoire utilisée. La solution passe par une régularisation plus forte, des architectures plus simples, ou l'utilisation de techniques de validation croisée temporelle (walk-forward validation) adaptées aux séries temporelles.
Comment auditer vos données en 30 minutes
Avant de solliciter un prestataire ou de démarrer un projet, vous pouvez réaliser vous-même un audit rapide de vos données. L'objectif n'est pas la perfection : c'est d'identifier les blocages potentiels avant d'engager du temps et du budget.
Checklist d'audit données prédictif (30 minutes)
-
1Identifier la cible : quelle valeur ou quel événement voulez-vous prédire ? Est-il tracé quelque part dans vos systèmes avec une date ?
-
2Mesurer l'historique disponible : combien de mois ou d'années de données propres pouvez-vous extraire ? Comparez au seuil du tableau ci-dessus.
-
3Compter les valeurs manquantes : exportez 1 000 lignes et vérifiez le taux de remplissage des colonnes que vous comptez utiliser comme features.
-
4Chercher les ruptures : y a-t-il eu un changement de système, une acquisition, un nouveau périmètre commercial sur la période ? Ces ruptures peuvent invalider une partie de l'historique.
-
5Vérifier les étiquettes : si vous avez besoin d'un modèle supervisé, combien d'exemples de l'événement cible (panne, résiliation, fraude) sont documentés dans l'historique ? Comparez au seuil minimal de votre cas d'usage.
-
6Identifier les variables exogènes disponibles : quelles données contextuelles (promotions, météo, calendrier) sont déjà stockées et associables à vos séries ?
Ce diagnostic de 30 minutes permet de trancher honnêtement : le projet est faisable dès maintenant, il nécessite une phase de structuration préalable, ou il doit être différé le temps que l'historique s'accumule.
Tensoria réalise ce type d'audit des données dans le cadre du cadrage de tout projet prédictif, avant d'engager le moindre développement. C'est la seule façon d'éviter les projets qui échouent sur un historique insuffisant ou mal structuré.
Pour aller plus loin sur les cas d'usage concrets du prédictif en PME et les livrables d'un projet de A à Z, consultez la page solutions IA prédictives pour PME et ETI.