Les foundation models pour séries temporelles ont changé la donne de la prévision en 2024-2026 : des modeles pre-entraines sur des centaines de milliards de points de données peuvent désormais prévoir n'importe quelle série sans aucun entraînement spécifique, là où ARIMA ou Prophet demandaient d'ajuster un modele par série. C'est la prévision zero-shot - et elle est déjà opérationnelle avec TimesFM (Google), Chronos-Bolt (Amazon), Moirai (Salesforce), TimeGPT (Nixtla), Toto (Datadog) et Lag-Llama. Sur le benchmark GIFT-Eval (97 tâches, multiples horizons et domaines), TimesFM 2.5 et Chronos-2 atteignent des niveaux de précision que des modeles supervisés entraînés spécifiquement n'atteignaient pas il y a encore deux ans.
Pour une PME, l'enjeu est concret : démarrer une prévision de ventes, de stocks ou de trésorerie en quelques jours sans long historique ni data scientist à temps plein, puis affiner avec un fine-tuning ciblé si besoin. Ce guide couvre l'architecture de ces modeles, leur positionnement vs les approches classiques, les cas où un foundation model est vraiment le bon choix - et les cas où un Prophet bien paramétré reste devant.
Comment fonctionnent les foundation models pour séries temporelles
Un foundation model de prévision est un grand transformer pre-entraîné sur un corpus massif et hétérogène de séries temporelles. L'idée reprend directement ce qui a fonctionné en NLP : entraîner un modele sur un volume de données suffisamment large et varié pour qu'il apprenne des patterns universels, puis l'appliquer à de nouvelles tâches sans réentraînement.
Architecture : decoder-only et patching
La majorité des foundation models de prévision adoptent une architecture decoder-only, similaire aux LLMs de génération de texte. La série temporelle passée joue le rôle du contexte ; le modele génère les valeurs futures en autoregression. Cette architecture excelle pour capturer les dépendances longue distance dans une série.
Le patching, introduit par Chronos-Bolt (Amazon), est une amélioration clé : au lieu de traiter chaque point temporel individuellement, le modele découpe la série en blocs non chevauchants ("patches") avant d'appliquer l'attention. Résultat : moins de tokens à traiter, attention plus rapide, meilleure capture des patterns locaux. Chronos-Bolt traite plus de 300 prévisions par seconde sur un seul GPU selon la documentation Amazon.
Pre-entraînement et prévision zero-shot
Le pre-entraînement se fait sur des corpora massifs et variés. Quelques ordres de grandeur :
- TimesFM (Google) : pre-entraîné sur environ 100 milliards de points réels issus de données Google, retail, finance, énergie
- Toto (Datadog) : pre-entraîné sur 2 000 milliards de points, le plus grand corpus ouvert pour un foundation model de prévision
- Moirai (Salesforce) : pre-entraîné sur 27 milliards d'observations couvrant 9 domaines distincts
Cette diversité de pre-entraînement est ce qui rend la prévision zero-shot possible : le modele a déjà vu des patterns de saisonnalité, de tendance, d'effet promotionnel, de rupture de niveau dans des dizaines de domaines. Quand on lui soumet une nouvelle série, il reconnaît les structures sans avoir besoin d'être calibré dessus.
Covariables et données exogènes
Les meilleurs foundation models vont au-delà des séries univariées. Moirai est conçu nativement pour ingérer des covariables - températures, jours fériés, données promotionnelles - en entrée, sans modification d'architecture. Chronos-2 introduit le support multivarié avec variables exogènes dans sa dernière version. Pour des prévisions de ventes où la météo ou les promos ont un fort impact, cette capacité change tout. Notre article sur les variables exogènes en prévision de séries temporelles détaille comment les intégrer correctement.
Architecture en bref
Foundation model = decoder-only transformer + pre-entraînement massif multi-domaines + prévision zero-shot. Le patching (Chronos-Bolt) réduit les tokens traités et améliore la vitesse. Les covariables (Moirai, Chronos-2) permettent d'intégrer des variables exogènes sans réentraîner le modele.
Panorama des principaux modeles en 2026
Le marché s'est fortement structuré depuis 2024. Voici les modeles qui comptent vraiment pour un usage professionnel.
TimesFM 2.5 (Google)
TimesFM est le modele de référence de Google Research, open-source, pre-entraîné sur 100 milliards de points. La version 2.5 (sortie septembre 2025) est actuellement classée premiere sur GIFT-Eval, le benchmark de référence couvrant 97 tâches zero-shot, en améliorant de 6 % le MASE agrégé par rapport à la version précédente. Points forts : contexte très long, prévisions quantiles continues (intervalles de confiance), inférence GPU requise pour les gros volumes. Disponible sur HuggingFace.
Chronos et Chronos-Bolt (Amazon)
Chronos est la famille de fondation d'Amazon, open-source, disponible en plusieurs tailles (Mini, Small, Base, Large). Chronos-Bolt en est l'évolution majeure : il introduit le patching pour une inférence beaucoup plus rapide, ce qui le rend opérable sur CPU pour des volumes modestes. La dernière itération, Chronos-2, supporte les variables exogènes multivariées et dépasse TimesFM sur le win-rate GIFT-Eval selon les benchmarks mi-2026. Licence MIT, déployable en local.
Moirai (Salesforce)
Moirai de Salesforce AI Research se distingue par deux capacités natives rares : la gestion des valeurs manquantes dans l'historique et l'intégration directe de covariables (variables exogènes connues à l'avance). C'est l'un des seuls modeles qui traitent nativement des fréquences mixtes (données horaires, journalières et mensuelles dans le même batch). Disponible en tailles Small, Base, Large sous licence Apache 2.0 sur HuggingFace. Particulièrement adapté aux contextes industriels où les données de capteurs sont souvent incomplètes.
TimeGPT (Nixtla)
TimeGPT de Nixtla est le seul modele propriétaire de ce panorama. Il s'utilise exclusivement via API (Python ou REST), ce qui en fait l'option la plus rapide à déployer pour une PME sans infrastructure GPU. Nixtla propose une API avec quelques centaines d'appels gratuits pour tester, puis un abonnement mensuel. Avantage majeur : l'API gère automatiquement la saisonnalité, les anomalies et les covariables. Inconvénient : les données transitent chez Nixtla, ce qui peut poser un problème RGPD selon votre secteur.
Toto 2.0 (Datadog)
Toto (Time-Series Optimized Transformer for Observability) est le foundation model de Datadog, pre-entraîné sur 2 000 milliards de points - le corpus le plus large du marché. La famille Toto 2.0 (mai 2026) couvre des tailles de 4M à 2,5B paramètres. La version 2,5B est la meilleure de la famille sur le benchmark BOOM (Datadog's Observability Benchmark), et les trois plus grandes tailles (313M, 1B, 2,5B) occupent le front de Pareto de ce benchmark. Open-weights sur HuggingFace. Conçu originellement pour l'observabilité (métriques système, CPU, requêtes réseau) mais généralise bien à d'autres domaines.
Lag-Llama
Lag-Llama est le seul modele de ce panorama issu de la recherche académique indépendante (arXiv 2310.08278). Architecture decoder-only basée sur LLaMA, avec les lags (valeurs retardées) et les features calendaires comme covariables implicites. Son point fort différenciant : il supporte le fine-tuning via LoRA, ce qui permet de l'adapter à un domaine spécifique en quelques heures sur un GPU standard. Open-source, licence Apache 2.0, fonctionne sur CPU pour les petits volumes. Recommandé quand on veut un modele full open-source adaptable sans passer par une API cloud.
Benchmark : quand un foundation model bat ARIMA/Prophet - et quand il ne le bat pas
La question qui compte en production n'est pas "quel modele est le plus impressionnant sur le papier ?" mais "dans mon cas précis, quel approche donne les meilleurs résultats ?"
| Situation | Foundation model zero-shot | ARIMA / Prophet / ML classique |
|---|---|---|
| Historique court (< 1 an) | Avantage clair - zero-shot ne dépend pas de la longueur | ARIMA instable, Prophet peu fiable |
| Centaines de séries à prévoir | Très efficace - un seul modele pour tout | Ajustement manuel par série, coûteux |
| Série stable, 3+ ans d'historique, saisonnalité régulière | Compétitif mais pas systématiquement meilleur | Prophet / SARIMA souvent équivalent ou meilleur |
| Explicabilité requise (audit, finance) | Boite noire - difficile à justifier | ARIMA et Prophet très interprétables |
| Covariables complexes (météo, promos, jours fériés) | Moirai / Chronos-2 les intègrent nativement | Prophet supporte les régresseurs, mais moins automatique |
| Déploiement on-premise RGPD strict | Lag-Llama, Chronos-Bolt, Moirai : open-source local | ARIMA/Prophet en local, pas de contrainte |
| Inférence temps réel, très faible latence | Toto 22M ou Chronos Mini : rapides | ARIMA/ETS très légers sur CPU |
Sur les benchmarks publics, les foundation models zero-shot battent ARIMA et Prophet sur 60 à 70 % des séries retail testées selon les évaluations internes de Google (TimesFM). Mais "60-70 %" signifie aussi que sur 30 à 40 % des séries, l'approche classique reste devant. Le bon réflexe : tester les deux en parallèle sur votre propre jeu de données avec un backtesting rigoureux avant de décider.
Pour comprendre comment mesurer objectivement ces comparaisons, notre guide sur evaluer une prévision avec MAPE, MASE et backtesting détaille les bons protocoles. Pour comprendre les différences conceptuelles entre approches, l'article ARIMA vs Prophet vs deep learning en prévision pose le cadre.
Règle de décision
Si vous avez plus de 20 séries à prévoir et moins de 18 mois d'historique, un foundation model zero-shot est le point de départ naturel. Si vous avez une ou deux séries stables avec plusieurs années de données et un besoin d'interprétabilité, Prophet ou SARIMA reste souvent la meilleure option - plus simple, plus lisible, aussi précis.
Déploiement et coût GPU : ce qui change selon le modele
Les foundation models ne sont pas tous équivalents en termes de ressources nécessaires. Voici un repère réaliste pour une PME qui veut déployer en production.
Options cloud (sans infrastructure propre)
TimeGPT via l'API Nixtla est le chemin le plus rapide : deux lignes de Python, un token API, et les prévisions arrivent. Adapté pour tester rapidement ou pour des volumes faibles. Les données transitent chez Nixtla, ce qui exclut les cas à données sensibles.
Les grands clouds (AWS, GCP, Azure) proposent Chronos et TimesFM via leurs services de ML managé (Amazon SageMaker JumpStart, Vertex AI). Facturation à l'usage, pas de GPU à gérer, mais coût par appel qui monte à fort volume.
Déploiement local (open-source)
Pour les entreprises qui veulent garder les données en interne :
- Lag-Llama et Chronos-Bolt (petites tailles) : fonctionnent sur CPU pour quelques centaines de séries. Un serveur standard avec 8-16 Go de RAM suffit pour l'inférence batch.
- Moirai Base ou Chronos-Bolt Base : GPU recommandé (A10G, T4 en cloud, ou RTX 3060 en local) pour des volumes industriels. Budget GPU : entre 300 et 800 € pour du matériel local, ou 0,5-1 $/heure pour une instance cloud spot.
- TimesFM 2.5 : nécessite un GPU dédié pour une inférence rapide sur des volumes importants.
- Toto 22M : la petite taille de la famille Toto 2.0 tourne sur du matériel très léger et reste précise pour les métriques systeme et les séries d'observabilité.
Fine-tuning : Lag-Llama via LoRA
Si les performances zero-shot ne sont pas suffisantes sur votre domaine - demande intermittente de pièces industrielles, série avec des ruptures atypiques non vues dans le pre-entraînement - le fine-tuning est la prochaine étape.
Lag-Llama + LoRA est aujourd'hui la combinaison la plus accessible pour une PME :
- LoRA n'entraîne qu'un faible pourcentage des paramètres (matrices d'adaptation légères), pas le modele entier
- Une session de fine-tuning sur une RTX 3090 (24 Go VRAM) ou une instance A100 cloud se chiffre en quelques heures
- Coût estimé : 50 à 300 € de compute cloud pour adapter le modele à vos données métier
- Le modele fine-tuné reste déployable en local, sans dépendance API
Moirai et TimesFM proposent également des procédures de fine-tuning documentées dans leurs repos GitHub, mais sans l'intégration LoRA native de Lag-Llama. Pour les bases du fine-tuning efficace en entreprise, notre guide LoRA et QLoRA expliqués pose les fondamentaux - les principes s'appliquent directement aux foundation models de prévision.
Angle PME : démarrer vite sans long historique
Le cas d'usage le plus fréquent qu'on rencontre chez les PME : une entreprise qui a 8 à 14 mois d'historique de ventes, 50 à 200 références produit, et veut des prévisions fiables pour piloter ses stocks ou sa trésorerie. Avec ARIMA ou Prophet, cet historique est souvent trop court pour calibrer des modeles robustes.
C'est exactement là que les foundation models apportent le plus de valeur. Un Chronos-Bolt ou un Moirai pre-entraîné sur des milliards de points a déjà "vu" des milliers de séries de ventes saisonnières, de pics promotionnels, de tendances de croissance. Il n'a pas besoin de votre historique pour apprendre ces structures - il les applique directement.
Approche concrète pour démarrer :
- Etape 1 - Test zero-shot : appliquer Chronos-Bolt ou TimeGPT (API) sur vos 10-20 séries les plus importantes. Comparer avec un Prophet de base sur un backtesting glissant (90 jours). Si le foundation model est meilleur ou équivalent, passer à l'étape suivante.
- Etape 2 - Déploiement sur toutes les séries : un seul modele couvre toutes vos références. Pas d'ajustement serie par serie.
- Etape 3 - Fine-tuning si nécessaire : si des familles de produits restent mal prévues (demande très intermittente, effets saisonniers atypiques), un fine-tuning Lag-Llama sur ces séries spécifiques améliore significativement la précision.
Pour les fondamentaux sur la prévision de ventes et de stocks avec l'IA, nos articles prévision des ventes avec l'IA et prévision des stocks IA pour PME donnent le cadre métier. Pour les librairies Python qui implémentent ces modeles, l'article top librairies de prévision de séries temporelles recense les outils classiques - les foundation models viennent en complément, pas en remplacement.
Un dernier point pratique : les foundation models ne dispensent pas de bien comprendre vos données. Une série temporelle avec des anomalies non corrigées, des changements de granularité ou des lacunes importantes dans l'historique donnera de mauvais résultats même avec le meilleur modele. La décomposition de série temporelle (saisonnalité, tendance, résidu) reste une étape préalable utile avant tout modele, classique ou foundation.
Prévision IA pour votre PME
Foundation model ou approche classique ? 30 minutes pour choisir l'architecture de prévision adaptée à votre historique et vos séries.
En résumé : les foundation models ne remplacent pas tout - ils comblent un vrai manque
Les foundation models pour séries temporelles remplissent un vide que les approches classiques ne couvraient pas bien : la prévision rapide, sans long historique, sur de nombreuses séries hétérogènes. Sur ce terrain, TimesFM, Chronos-Bolt, Moirai et leurs concurrents changent vraiment la donne.
Mais ils n'effacent pas ARIMA ou Prophet. Sur une série stable avec plusieurs années de données propres et un besoin d'interprétabilité, l'approche classique reste souvent le meilleur rapport simplicité/précision. Et un foundation model mal appliqué à des données bruyantes ou mal préparées ne produit pas de miracles.
La logique opérationnelle pour une PME : commencer par un test zero-shot sur vos séries clés, mesurer honnêtement les résultats vs votre modele actuel, et ne basculer sur un foundation model que si le gain est réel et mesurable. Si vous avez un service IA prédictive à mettre en place ou à améliorer, ce cadrage préalable est toujours la premiere étape.
Pour aller plus loin
- Prophet, gradient boosting ou deep learning : quel modele selon votre situation - positionnement des approches classiques vs IA.
- MAPE, MASE et backtesting : comparer honnêtement vos modeles - métriques et protocoles pour mesurer vos résultats.
- Prophet, Nixtla, Darts, PyTorch Forecasting : quelle librairie Python choisir - inventaire des outils classiques complémentaires.
- Intégrer météo, promos et jours fériés dans une prévision - feature engineering et modeles qui supportent les régresseurs externes.
- Séparer tendance, saisonnalité et résidu avant de modéliser - préalable indispensable à tout modele, classique ou foundation.
- Prévision des ventes avec l'IA - application métier pour le retail et les PME.
- Prévision des stocks IA pour PME en 2026 - précision, coût et conditions de réussite.
- Données nécessaires pour un projet ML prédictif - comment évaluer la maturité de votre historique.
- Lag-Llama : Towards Foundation Models for Probabilistic Time Series Forecasting (arXiv) - papier de référence.
- TimesFM : A decoder-only foundation model for time-series forecasting (Google Research) - blog officiel.