ARIMA, Prophet ou deep learning : il n'y a pas une méthode universelle de prévision sur séries temporelles, il y a un contexte - volume de données, horizon, nombre de séries, interprétabilité requise - qui rend une famille de modèles nettement plus adaptée que les autres. Ce guide couvre les cinq grandes familles (statistiques, Prophet, gradient boosting, deep learning, foundation models), détaille les forces et limites de chacune, et propose un tableau de décision clair pour orienter votre choix.
Nous prenons le parti de la clarté opérationnelle : pas de comparatif académique exhaustif, mais les critères qui comptent quand vous devez choisir une méthode pour un projet réel, avec des données réelles et des contraintes de temps et de compétences.
Les cinq familles de méthodes de prévision
Avant de comparer, clarifions le paysage. Les approches de prévision sur séries temporelles se regroupent en cinq familles, chacune avec une philosophie différente.
- Statistiques classiques : ARIMA/SARIMA, ETS, lissage exponentiel. Modèles paramétriques, interprétables, conçus pour des séries uniques avec peu de données.
- Prophet (Meta) : modèle additif décomposable, pensé pour les séries d'affaires avec saisonnalités multiples et événements ponctuels. Accessible sans expertise profonde.
- Gradient boosting sur features : LightGBM, XGBoost, CatBoost alimentés par des lags et des features calendaires. Approche ML supervisée, très compétitive sur de grands volumes de séries.
- Deep learning : N-BEATS, NHITS, TFT, DeepAR. Modèles neuraux entraînés de zéro sur vos données. Puissants sur les longues séries avec covariables, mais gourmands en données.
- Foundation models : Chronos-2 (Amazon), TimeGPT (Nixtla), TimesFM (Google). Pré-entraînés sur des millions de séries, capables de prévision zero-shot sans entraînement sur vos données.
Point de repère
La compétition M5 (Walmart, 2020) portant sur 42 840 séries de ventes retail a montré que les meilleures solutions combinaient gradient boosting (LightGBM) et lissage exponentiel - pas du deep learning complexe. La complexité ne garantit pas la performance.
Méthodes statistiques : ARIMA, SARIMA et ETS
Principe de fonctionnement
ARIMA (AutoRegressive Integrated Moving Average) modélise une série comme une combinaison linéaire de ses valeurs passées (AR), de ses erreurs passées (MA) et de différenciations pour la rendre stationnaire (I). SARIMA ajoute des termes saisonniers. ETS (Error-Trend-Seasonality) et le lissage exponentiel de Holt-Winters attribuent des poids exponentiellement décroissants aux observations passées pour extraire tendance et saisonnalité.
Forces
- Peu de données suffisent. Dix-huit à vingt-quatre mois de données mensuelles permettent déjà de calibrer un SARIMA correct. Le deep learning en demanderait dix fois plus.
- Interprétabilité totale. Les paramètres p, d, q d'ARIMA ont une signification directe. Les intervalles de confiance sont analytiques et calibrés.
- Rapidité. Sur une série unique, ARIMA s'ajuste en quelques millisecondes. ETS est encore plus rapide. Pas de GPU nécessaire.
- Robustesse sur séries courtes. Plusieurs benchmarks académiques montrent qu'un ensemble de méthodes statistiques simples bat des modèles deep learning sur des données mensuelles réelles.
Limites
- Hypothèse de linéarité : ARIMA ne capture pas les relations non linéaires entre variables.
- Une série, un modèle : si vous avez 10 000 références produits, calibrer un ARIMA par série devient un problème industriel.
- Gestion des variables exogènes limitée (ARIMAX existe mais reste simple).
- La saisonnalité multiple (hebdomadaire + annuelle par exemple) est difficile à modéliser proprement avec SARIMA seul.
Prophet (Meta) : le compromis accessibilité/expressivité
Principe de fonctionnement
Prophet décompose la série en trois composants additifs : une tendance (linéaire par morceaux ou logistique), une saisonnalité modélisée par une série de Fourier, et un terme d'événements ponctuels (jours fériés, promotions, incidents). L'ajustement est probabiliste via Stan. L'utilisateur contrôle les points de changement de tendance, les saisonnalités et les événements via une API Python ou R accessible.
Cas d'usage typique
Prophet brille sur les métriques d'affaires avec structure hebdomadaire forte et événements connus à l'avance : trafic web, transactions e-commerce, consommation d'énergie horaire. Dès que la série est courte ou les patterns non additifs, d'autres méthodes prennent l'avantage.
Forces
- Gestion native des jours fériés (par pays), des saisonnalités multiples et des valeurs manquantes.
- Robuste aux outliers et aux changements de tendance sans intervention manuelle.
- Très accessible : un data analyst peut l'utiliser sans expertise statistique approfondie.
- NeuralProphet (extension avec LSTM et composants neuronaux) étend les capacités vers les covariables et les patterns non linéaires.
Limites
- Suppose une décomposition additive : les interactions entre tendance et saisonnalité multiplicative sont approximées.
- Limité à la prévision univariée native (une série à la fois).
- Sur des séries complexes avec de nombreuses covariables, LightGBM ou TFT font généralement mieux.
- Maintenance réduite : Meta a ralenti les contributions au dépôt principal depuis 2023.
Gradient boosting sur features : LightGBM et XGBoost
Principe de fonctionnement
Le problème de prévision est reformulé en apprentissage supervisé classique. On construit un tableau de features : lags de la série cible (valeurs à t-1, t-7, t-28...), features calendaires (jour de la semaine, mois, indicateurs de fêtes), et variables exogènes connues à l'avance (prix, promotions, météo). LightGBM apprend ensuite la relation non linéaire entre ces colonnes et la valeur cible future.
Un seul modèle peut couvrir des milliers de séries simultanément en ajoutant des identifiants de série comme feature - c'est l'approche dite "modèle global".
Forces
- Scalabilité. Un modèle LightGBM global sur 50 000 références produit tourne en quelques minutes. C'est l'approche dominante en retail et logistique à grande échelle.
- Variables exogènes. Intégrer prix, météo, données macroéconomiques est naturel : ce sont des colonnes supplémentaires.
- Interprétabilité partielle. SHAP (SHapley Additive exPlanations) permet d'expliquer l'importance de chaque feature - utile pour la confiance métier.
- Pas de GPU requis pour l'inférence. LightGBM est 20 fois plus rapide qu'un modèle deep learning comparable en production.
Limites
- Ingénierie des features manuelle. La qualité du modèle dépend directement des lags et features construits. Une mauvaise sélection de lags plafonne la performance.
- Ne capture pas les dépendances temporelles longues aussi naturellement qu'un réseau récurrent ou un transformeur.
- La prévision probabiliste (intervalles de confiance) demande des techniques spécifiques (quantile regression, conformal prediction).
Deep learning : N-BEATS, NHITS, TFT, DeepAR
N-BEATS et NHITS
N-BEATS (2020, Element AI) est un réseau résiduel pur qui décompose la prévision en blocs de bases (tendance, saisonnalité) sans recurrence ni attention. Rapide, interprétable dans sa version décomposable, et compétitif sur les benchmarks académiques majeurs. NHITS (2022) l'améliore sur les longs horizons via une interpolation multi-échelle : il échantillonne la série à plusieurs résolutions et combine les représentations. Sur les horizons longs (30 jours et plus), NHITS surpasse systématiquement N-BEATS et rivalise avec des modèles bien plus complexes.
TFT (Temporal Fusion Transformer)
Développé par Google en 2019 et publié dans International Journal of Forecasting, le TFT combine attention multi-tête, LSTM et sélection de variables (gating). Son point fort : quantifier l'importance de chaque covariable à chaque horizon de prévision via les poids d'attention. Idéal quand vous avez de nombreuses variables exogènes hétérogènes et que vous avez besoin d'expliquer quelle variable pèse le plus. En contrepartie, il est plus lourd à entraîner et requiert plusieurs milliers de points par série.
DeepAR
Publié par Amazon en 2017, DeepAR est un modèle autorégréssif basé sur LSTM qui prédit des distributions de probabilités (loi normale ou négative binomiale). Il brille sur les prévisions probabilistes pour de nombreuses séries de même nature (ventes produits d'un catalogue) en apprenant une représentation partagée. Sa limite : moins compétitif face à NHITS ou TFT sur les benchmarks récents, et le modèle LSTM sous-jacent est plus lent qu'un transformeur bien optimisé.
Limites communes au deep learning
- Nécessite de nombreuses données : en général plusieurs milliers de points par série pour bien généraliser.
- Temps d'entraînement significatif, infrastructure GPU requise.
- Hyperparamètres nombreux - le tuning est coûteux sans expérience.
- La "boite noire" est plus opaque que les méthodes statistiques, même avec TFT.
Foundation models : la 5e voie (zero-shot)
Depuis 2024, une nouvelle famille de modèles transforme l'approche : les foundation models pour séries temporelles, pré-entraînés sur des millions de séries de domaines variés. Ils permettent de faire de la prévision zero-shot - sans ré-entraînement sur vos données.
Les modèles notables en 2026 :
- Chronos-2 (Amazon, octobre 2025) : le plus mature pour la production. Supporte la prévision univariée, multivariée et avec covariables. Son mécanisme "group attention" gère les séries hétérogènes.
- TimeGPT (Nixtla) : prévision multi-horizon avec variables exogènes, accessible via API. Bonne option pour un démarrage rapide.
- TimesFM (Google) : modèle de 200M paramètres entraîné sur 100 milliards de points, disponible sur Hugging Face.
- Lag-Llama : transformeur decoder-only adapté à la prévision univariée probabiliste, open source.
Pour une analyse approfondie de cette famille et de ses cas d'usage, voir notre article dédié : foundation models pour séries temporelles : prévision zero-shot.
Limite à connaitre
Les foundation models donnent d'excellentes baselines en quelques minutes, mais un modèle fine-tuné sur vos données spécifiques (saisonnalité propre à votre secteur, produits de niche, patterns métier) les surpasse généralement sur les cas à fort enjeu. Le zero-shot convient au prototypage et aux séries nouvelles sans historique.
Tableau de décision : quelle méthode selon votre contexte ?
Ce tableau synthétise les critères déterminants pour choisir la famille de modèles la plus adaptée.
| Critère | ARIMA / ETS | Prophet | LightGBM / XGBoost | Deep learning (NHITS, TFT) | Foundation models |
|---|---|---|---|---|---|
| Volume de données | Faible (< 200 pts) | Moyen (200+ pts) | Moyen a fort | Fort (2 000+ pts/série) | Aucun (zero-shot) |
| Nombre de séries | Faible (1 a 10) | Faible a moyen | Tres fort (1 modele global) | Moyen a fort | Quelconque |
| Saisonnalite | Simple (1 cycle) | Multiple native | Via features calendaires | Apprise automatiquement | Apprise du pre-entrainement |
| Variables exogenes | Limitees (ARIMAX) | Evenements connus | Excellente integration | Excellente (TFT surtout) | Partielle (en evolution) |
| Horizon de prevision | Court a moyen | Moyen a long | Flexible | Long horizon (NHITS) | Flexible |
| Interpretabilite | Totale | Bonne (composants) | Bonne (SHAP) | Partielle (TFT) / faible | Faible |
| Infrastructure requise | CPU, minimal | CPU, minimal | CPU (GPU optionnel) | GPU recommande | API ou GPU |
| Expertise requise | Statistiques de base | Faible | ML + feature engineering | Deep learning, MLOps | Faible (API) a moyenne |
Quand combiner les méthodes ?
L'ensemble (stacking ou moyennage pondéré) surpasse souvent un modèle unique. La compétition M4 (2018, 100 000 séries) a été remportée par un hybride ETS + LSTM. En pratique, une stratégie fréquente consiste à démarrer avec un foundation model zero-shot comme baseline, puis à affiner avec LightGBM ou NHITS sur vos données une fois l'historique constitué. Pour l'évaluation rigoureuse de ces méthodes (MAPE, MASE, backtesting), voir notre article évaluer une prévision de séries temporelles.
Pas sur de votre choix ?
Nous cadrons avec vous la méthode adaptée a votre volume de données, vos séries et vos contraintes opérationnelles.
Synthese : ce que dit le terrain
Le vrai choix ne se fait pas entre "méthode ancienne" et "méthode moderne". Il se fait selon trois axes : vos données (volume, qualité, fréquence), votre contexte (nombre de séries, variables disponibles, horizon) et vos contraintes (infrastructure, expertise, interprétabilité requise par les métiers).
En pratique, pour une PME ou ETI qui démarre un projet de prévision :
- Commencez par ARIMA/ETS ou Prophet si vous avez peu de données et peu de séries. Le bon choix vaut mieux que le choix sophistiqué.
- Passez à LightGBM dès que vous avez de nombreuses séries (produits, clients, sites) et des variables exogènes à exploiter.
- Envisagez NHITS ou TFT quand le volume de données le justifie et que l'horizon ou les patterns sont complexes.
- Utilisez un foundation model pour prototyper rapidement ou couvrir des séries nouvelles sans historique.
L'IA prédictive bien appliquée ne consiste pas à déployer le modèle le plus puissant. Elle consiste à déployer le modèle le plus adapté, le plus vite possible, avec une évaluation honnête de ses limites. Pour en savoir plus sur ce que nous construisons en pratique, consultez notre offre IA prédictive sur mesure.
Pour aller plus loin
- Panorama des librairies Python de forecasting en 2026 - NeuralForecast, StatsForecast, Darts, sktime : forces et limites.
- Random Forest vs LSTM sur séries temporelles : résultats chiffrés chez un distributeur - mise en oeuvre concrète avec chiffres à l'appui.
- STL, ADF, ACF/PACF : lire la structure d'une série avant de la modéliser - le diagnostic préalable indispensable.
- La prévision zero-shot avec Chronos-2, TimeGPT et TimesFM - quand un foundation model fait mieux qu'une approche classique.
- Backtesting et métriques : mesurer objectivement la qualité d'une prévision - MAPE, MASE et protocoles sans leakage.
- Ajouter météo, promotions et jours fériés à un modele de prévision - SARIMAX, Prophet, LightGBM et TFT face aux régresseurs externes.
- Calcul de prévision des ventes par IA : guide complet - du choix du modèle au déploiement.
- Comparing Prophet and Deep Learning to ARIMA in Forecasting (arXiv) - étude comparative indépendante.
- Temporal Fusion Transformers for Interpretable Multi-horizon Forecasting (arXiv) - article de référence sur TFT.