En 2026, huit librairies Python dominent le développement avec les LLM : LangChain, LlamaIndex, Hugging Face Transformers, DSPy, Haystack, LiteLLM, Instructor/Pydantic AI et Semantic Kernel. Chacune répond à un besoin précis. Ce comparatif détaille pour chacune ce qu'elle fait réellement, pour qui elle est conçue, ses forces et ses limites, pour vous aider à choisir sans perdre de temps.
Critères de sélection : comment nous avons évalué ces librairies
Huit librairies, des périmètres qui se chevauchent, des noms qui reviennent dans chaque fil de discussion entre data scientists. Pour rendre ce comparatif utile, voici les critères qui ont guidé l'évaluation.
Maturité et stabilité : une librairie dont l'API change à chaque minor version a un coût caché en maintenance. Nous regardons l'historique des breaking changes et la politique de versioning.
Adéquation au cas d'usage : une librairie généraliste n'est pas toujours le meilleur choix face à une librairie spécialisée. Nous distinguons ce que chaque outil fait nativement de ce qu'il fait avec des contournements.
Courbe d'apprentissage : pertinente pour une équipe qui doit monter en compétence rapidement. Une librairie puissante mais opaque a un coût réel sur les premières semaines d'un projet.
Aptitude à la production : gestion des erreurs, observabilité, tests, performance. Un POC qui fonctionne en notebook est différent d'un système qui tient en charge avec des SLA.
Activité de la communauté et de la maintenance : issues fermées, fréquence des releases, qualité de la documentation. Une librairie abandonnée ou sous-maintenue est un risque à 18 mois.
1. LangChain : le framework généraliste de référence
LangChain est la librairie la plus utilisée dans l'écosystème Python LLM. Elle couvre un périmètre large : construction de chaînes de traitement (chains), agents avec outils, intégration de bases vectorielles, mémoire conversationnelle, callbacks et observabilité via LangSmith.
Pour qui
Les équipes qui démarrent un projet LLM sans périmètre fonctionnel très précis, les projets qui combinent plusieurs cas d'usage (RAG + agents + intégration d'outils), et les équipes qui veulent bénéficier d'un écosystème large avec des intégrations prêtes à l'emploi pour des dizaines de fournisseurs (OpenAI, Anthropic, Mistral, bases vectorielles comme Pinecone, Weaviate, Chroma, pgvector).
Forces
- Écosystème très large : intégrations avec pratiquement tous les fournisseurs LLM et bases vectorielles du marché
- LCEL (LangChain Expression Language) : syntaxe composable et lisible pour construire des pipelines
- LangSmith pour le traçage, l'évaluation et le débogage des chaînes en production
- Documentation abondante, tutoriels nombreux, communauté active
- Support natif des patterns agents (ReAct, tool calling, structured output)
Limites
- Abstractions parfois redondantes : l'historique de la librairie a généré plusieurs façons de faire la même chose, ce qui alourdit la lecture du code existant
- Les breaking changes entre versions majeures ont été fréquents entre 2023 et 2025 ; la version 0.3+ a stabilisé l'API, mais les projets anciens nécessitent des migrations
- Pour un cas d'usage très spécialisé (RAG pur ou sorties structurées uniquement), LlamaIndex ou Instructor sont plus ergonomiques
- La richesse de l'écosystème peut rendre le choix des composants déroutant pour une équipe qui démarre
Pour aller plus loin sur le déploiement d'un pipeline LangChain en production, notre guide sur déployer un LLM en production couvre l'infrastructure, le scaling et l'observabilité.
2. LlamaIndex : spécialiste du RAG et de l'indexation
LlamaIndex est conçu autour d'un problème précis : connecter des LLM à des données externes de façon efficace. Ses abstractions (Document, Node, Index, Retriever, QueryEngine) correspondent exactement aux étapes d'un pipeline RAG. C'est cette spécialisation qui le distingue de LangChain.
Pour qui
Les équipes qui construisent un assistant documentaire, un système de question-answering sur corpus interne, ou tout projet où la qualité du retrieval est le facteur critique de succès. Aussi pertinent pour les projets avec des sources hétérogènes (PDF, bases SQL, APIs, Notion, Confluence) grâce aux nombreux connecteurs de données (data loaders).
Forces
- Abstractions RAG natives : chunking, indexation, retrieval, re-ranking, query routing dans un seul framework cohérent
- Connecteurs pour des dizaines de sources de données (SimpleDirectoryReader, DatabaseReader, NotionReader, etc.)
- Stratégies avancées : HyDE (Hypothetical Document Embeddings), sentence window retrieval, auto-merging retrieval
- LlamaCloud pour la gestion de pipelines RAG en production avec observabilité intégrée
- Forte activité de recherche : de nouvelles stratégies de retrieval sont intégrées régulièrement
Limites
- Moins adapté aux cas d'usage hors RAG (agents génériques, automatisation de workflows)
- Courbe d'apprentissage sur les abstractions avancées (sub-question query engine, recursive retrieval)
- Documentation plus fragmentée que LangChain sur certains sujets avancés
Nous avons détaillé les stratégies de retrieval avancées dans notre article sur l'optimisation d'un système RAG.
3. Hugging Face Transformers : la porte d'entrée vers l'open source
Hugging Face Transformers est la bibliothèque de référence pour travailler avec des modèles open source. Elle donne accès à plusieurs centaines de milliers de modèles via le Hub, et fournit les outils pour charger, fine-tuner, quantifier et déployer ces modèles en Python.
Pour qui
Les data scientists et les équipes qui veulent contrôler leur stack : choix du modèle, fine-tuning sur données propriétaires, déploiement on-premise ou souverain. Indispensable pour les projets qui ne peuvent pas dépendre d'une API tierce pour des raisons de confidentialité ou de coût à grande échelle. Pour les équipes qui travaillent sur des textes en français (classification, NER, embeddings), notre comparatif des librairies NLP pour le français (spaCy, CamemBERT, Flair, Stanza, Sentence-Transformers) complète utilement ce panorama.
Forces
- Accès à l'ensemble de l'écosystème de modèles open source : Mistral, LLaMA 3, Phi-3, Qwen, Falcon et des centaines d'autres
- Pipeline d'inférence unifié (pipeline("text-generation"), pipeline("ner"), etc.) pour démarrer rapidement
- PEFT (Parameter-Efficient Fine-Tuning) : LoRA, QLoRA, Prefix Tuning pour fine-tuner avec des ressources limitées
- Quantification via bitsandbytes (4-bit, 8-bit) pour faire tourner des modèles larges sur GPU accessibles
- Intégration native avec PyTorch et JAX, compatibilité avec vLLM pour l'inférence haute performance
Limites
- Ce n'est pas un framework applicatif : il faut ajouter LangChain, LlamaIndex ou une couche custom pour construire un système complet
- L'inférence locale de modèles larges (7B+) nécessite du matériel GPU dédié pour des latences acceptables
- La gestion du fine-tuning et du déploiement demande une expertise MLOps que n'ont pas toutes les équipes. Pour les outils qui couvrent ce périmètre (MLflow, W&B, BentoML, Ray, Airflow), notre comparatif des outils MLOps pour la production aide à construire la bonne stack autour de Hugging Face.
- L'API change régulièrement avec l'évolution rapide de l'écosystème
4. DSPy : l'optimisation programmatique des prompts
DSPy (Declarative Self-improving Python) est un framework de l'université de Stanford qui change l'approche du prompt engineering. Plutôt que d'écrire des prompts à la main, vous déclarez ce que votre pipeline doit faire (signatures d'entrée/sortie), et DSPy optimise automatiquement les prompts et les demonstrations via des téléprompters (MIPRO, BootstrapFewShot, etc.).
Pour qui
Les équipes qui ont un ensemble d'évaluation (gold set) et une métrique à maximiser, et qui veulent automatiser l'amélioration de leurs prompts plutôt que de les affiner manuellement à chaque changement de modèle. Particulièrement utile lors des migrations de modèle (passer de GPT-4 à Claude 3.5 Sonnet, par exemple) où les prompts optimisés pour un modèle ne fonctionnent pas nécessairement sur un autre.
Forces
- Séparation nette entre la logique du pipeline et les prompts : le code est plus lisible et plus maintenable
- Optimisation automatique des prompts via des algorithmes comme MIPRO v2 ou BootstrapFewShot
- Portabilité : un pipeline DSPy fonctionne sur n'importe quel LLM supporté, et l'optimisation s'adapte au modèle cible
- Réduction du coût de maintenance lié aux prompts fragiles quand les modèles changent
Limites
- Courbe d'apprentissage significative : le paradigme est différent du prompt engineering classique
- Nécessite un gold set d'évaluation de qualité pour que l'optimisation soit pertinente
- Moins d'exemples métier et de tutoriels pratiques que LangChain
- L'optimisation peut être coûteuse en tokens lors des phases de compilation du pipeline
5. Haystack : pipelines NLP orientés production
Haystack, développé par deepset, est un framework de pipelines NLP et LLM conçu dès le départ pour la production. Son architecture modulaire repose sur des composants (Component) et des pipelines déclaratifs. Il couvre le RAG, le question-answering, la recherche sémantique et les agents.
Pour qui
Les équipes qui valorisent la robustesse et la maintenabilité en production, notamment dans des contextes d'entreprise avec des exigences de qualité de code et de testabilité. Haystack est aussi pertinent pour les équipes NLP qui ont un historique avec deepset ou qui travaillent déjà sur des systèmes de recherche documentaire.
Forces
- Architecture de pipeline claire et testable : chaque composant est indépendant, mocable, et les pipelines peuvent être sérialisés en YAML
- Support natif d'Elasticsearch, OpenSearch et Weaviate pour les pipelines hybrides (BM25 + vectoriel)
- Haystack Studio pour la visualisation et le monitoring des pipelines
- Bonne couverture des cas d'usage NLP classiques (extraction d'entités, classification, réponse à questions)
- Politique de versioning stable, breaking changes bien documentés
Limites
- Communauté plus petite que LangChain, moins d'exemples et d'intégrations tierces
- L'architecture composant/pipeline peut être verbeuse pour des cas d'usage simples
- Les fonctionnalités agents sont moins matures que chez LangChain en 2026
6. LiteLLM : l'abstraction multi-fournisseurs
LiteLLM résout un problème concret : chaque fournisseur LLM (OpenAI, Anthropic, Mistral, Cohere, Gemini, modèles locaux via Ollama) a sa propre API. LiteLLM expose une interface unifiée compatible OpenAI qui reroute les appels vers le fournisseur de votre choix. Un paramètre model suffit à changer de fournisseur sans réécrire le code applicatif.
Pour qui
Toute équipe qui utilise ou envisage d'utiliser plusieurs fournisseurs LLM : pour le fallback (si OpenAI est indisponible, basculer sur Mistral), le routage selon le coût (modèle économique pour les requêtes simples, modèle puissant pour les cas complexes), ou la migration progressive d'un fournisseur à un autre.
Forces
- Interface unifiée pour plus de 100 fournisseurs et modèles, y compris les modèles locaux via Ollama
- LiteLLM Proxy : déploiement d'un serveur qui centralise les appels LLM avec load balancing, fallback, rate limiting et logging
- Tracking natif des coûts par fournisseur et par modèle
- Très léger : peut s'ajouter à n'importe quelle stack existante sans refactoring majeur
- Compatible avec LangChain et LlamaIndex comme couche de transport
Limites
- Ce n'est pas un framework applicatif : il ne gère pas les agents, les pipelines ou le RAG
- Les fonctionnalités avancées de certains fournisseurs (computer use Anthropic, multimodalité spécifique) peuvent être partiellement supportées selon la version
- Le proxy ajoute un hop réseau qui peut impacter la latence sur des cas d'usage très sensibles
7. Instructor et Pydantic AI : sorties structurées fiables
Ces deux librairies répondent au même problème de base : obtenir des LLM des sorties JSON structurées et validées, plutôt que du texte libre qu'il faut ensuite parser avec des heuristiques fragiles.
Instructor, créé par Jason Liu, est la plus simple des deux. Elle wrapp n'importe quel client LLM (openai, anthropic, litellm) et retourne une instance Pydantic validée. Si le LLM produit un JSON invalide, Instructor relance automatiquement la requête avec le message d'erreur de validation pour que le modèle se corrige.
Pydantic AI va plus loin en proposant un framework d'agents complet bâti autour des types Pydantic : définition d'agents typés, outils typés, gestion des dépendances, streaming structuré. Il est plus opinionated qu'Instructor mais offre plus de cohérence sur des architectures multi-agents.
Pour qui
Instructor convient aux équipes qui ont besoin d'extraction structurée dans un pipeline existant (extraction d'entités, classification avec score de confiance, parsing de documents). Pydantic AI s'adresse aux projets qui construisent des agents ou des workflows multi-agents où la rigueur de typage est une exigence dès le départ.
Forces
- Validation Pydantic native : zéro parsing manuel, erreurs de type capturées à l'exécution
- Retry automatique avec feedback d'erreur au modèle : taux d'échec très faible sur les LLM récents
- Instructor supporte OpenAI, Anthropic, Mistral, Google et bien d'autres via leur client natif
- Pydantic AI intègre le tracing via Logfire pour le monitoring en production
Limites
- Instructor est limité à l'extraction structurée : pas d'abstractions pour le RAG, les agents complexes ou la mémoire
- Pydantic AI est plus jeune et son API est encore en évolution en 2026
- La complexité des schémas Pydantic très imbriqués peut dégrader les performances de l'inférence sur certains modèles
Les architectures agents multi-étapes sont couvertes dans notre article sur l'agentic RAG et les agents IA de retrieval.
8. Semantic Kernel : l'approche Microsoft
Semantic Kernel est le SDK open source de Microsoft pour intégrer des LLM dans des applications. Il supporte Python, C# et Java, avec une intégration native dans l'écosystème Azure (Azure OpenAI, Azure AI Foundry). Son modèle de plugin (fonctions natives + fonctions sémantiques) et son planificateur d'agents sont ses différenciants principaux.
Pour qui
Les équipes qui opèrent dans un contexte Microsoft (Azure, .NET, Microsoft 365 Copilot Studio) ou qui veulent construire des agents dans une architecture multi-langage avec une cohérence SDK. Aussi pertinent pour les grandes organisations qui ont déjà un accord enterprise Azure et veulent capitaliser sur leur infrastructure existante.
Forces
- Intégration native avec Azure OpenAI, Azure AI Foundry et les services Microsoft 365
- Support multi-langage (Python, C#, Java) avec une API cohérente : utile pour les équipes mixtes
- Kernel Plugins : découplage propre entre les capacités (fonctions) et leur orchestration
- Process Framework pour des workflows d'agents déterministes et maintenables
- Soutien et maintenance actifs par Microsoft
Limites
- Conçu en priorité pour Azure : les équipes sans contexte Microsoft auront une expérience moins fluide
- Communauté Python plus petite que LangChain, moins d'exemples métier
- L'API Python a suivi l'API C# de référence, ce qui peut générer des idiomes peu pythoniques
- Moins adapté aux projets exploratoires rapides : l'architecture Kernel/Plugin est plus verbeux pour des POC simples
Tableau comparatif des 8 librairies Python LLM
Comparatif synthétique (2026)
| Librairie | Cas d'usage principal | Maturité production | Courbe apprentissage | Spécialisation |
|---|---|---|---|---|
| LangChain | Agents, pipelines, RAG | Élevée | Moyenne | Généraliste |
| LlamaIndex | RAG, indexation, sources hétérogènes | Élevée | Moyenne | RAG / recherche |
| HF Transformers | Modèles open source, fine-tuning | Élevée | Élevée | Modèles open source |
| DSPy | Optimisation prompts, pipelines déclaratifs | Bonne | Élevée | Prompt engineering auto |
| Haystack | Pipelines NLP, QA, recherche | Élevée | Moyenne | Pipelines production |
| LiteLLM | Abstraction multi-fournisseurs, proxy | Élevée | Faible | Routage / fallback LLM |
| Instructor / Pydantic AI | Sorties structurées, agents typés | Bonne | Faible à moyenne | Extraction structurée |
| Semantic Kernel | Agents, intégration Azure/Microsoft | Élevée | Moyenne à élevée | Écosystème Microsoft |
Comment choisir selon votre cas
Il n'y a pas de réponse universelle. La librairie qui convient dépend de trois variables : votre cas d'usage précis, la maturité LLM de votre équipe, et les contraintes d'infrastructure (cloud, on-premise, souveraineté des données).
Grille de décision rapide
-
1Vous construisez un assistant documentaire ou un système RAG : commencez par LlamaIndex. Ajoutez LiteLLM si vous voulez garder la flexibilité fournisseur.
-
2Vous construisez des agents qui appellent des outils externes : LangChain (périmètre large) ou Pydantic AI (si la rigueur de typage est prioritaire).
-
3Vous avez besoin d'extraction structurée fiable (JSON, entités, classification) : Instructor est le choix le plus direct et le plus robuste.
-
4Vous utilisez plusieurs fournisseurs LLM ou voulez du fallback automatique : LiteLLM en couche de transport, combiné à LangChain ou LlamaIndex selon le cas d'usage.
-
5Vous voulez fine-tuner ou déployer un modèle open source on-premise : Hugging Face Transformers avec vLLM pour l'inférence. LangChain ou LlamaIndex par-dessus pour la couche applicative.
-
6Vous êtes dans un contexte Azure/Microsoft ou votre stack est multi-langage (Python + C#) : Semantic Kernel est le choix naturel.
-
7Vous avez un gold set d'évaluation et voulez automatiser l'optimisation des prompts : DSPy, en remplacement ou en complément de LangChain sur les modules critiques.
Comme le résume Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria : "Le choix de la librairie est rarement le vrai enjeu. Ce qui détermine si un projet LLM réussit en production, c'est la qualité de l'évaluation mise en place dès le début et la discipline sur les tests de régression à chaque changement de modèle ou de prompt. Les équipes qui négligent l'évaluation passent plus de temps à déboguer en production qu'à délivrer des fonctionnalités."
Votre équipe n'a pas les ressources pour intégrer ces librairies en production ?
Du choix de la librairie au déploiement d'un LLM en production, en passant par le fine-tuning et l'évaluation : c'est le métier de notre équipe. Nous intervenons sur les stacks LangChain, LlamaIndex, Hugging Face et les modèles Mistral, Claude et GPT.
Voir notre offre expert IA générative et LLM