Tensoria
Parlez-nous de votre projet : 07 82 80 51 40
Outils & Modèles Par

Top 8 librairies Python pour les LLM en 2026

En 2026, huit librairies Python dominent le développement avec les LLM : LangChain, LlamaIndex, Hugging Face Transformers, DSPy, Haystack, LiteLLM, Instructor/Pydantic AI et Semantic Kernel. Chacune répond à un besoin précis. Ce comparatif détaille pour chacune ce qu'elle fait réellement, pour qui elle est conçue, ses forces et ses limites, pour vous aider à choisir sans perdre de temps.

Critères de sélection : comment nous avons évalué ces librairies

Huit librairies, des périmètres qui se chevauchent, des noms qui reviennent dans chaque fil de discussion entre data scientists. Pour rendre ce comparatif utile, voici les critères qui ont guidé l'évaluation.

Maturité et stabilité : une librairie dont l'API change à chaque minor version a un coût caché en maintenance. Nous regardons l'historique des breaking changes et la politique de versioning.

Adéquation au cas d'usage : une librairie généraliste n'est pas toujours le meilleur choix face à une librairie spécialisée. Nous distinguons ce que chaque outil fait nativement de ce qu'il fait avec des contournements.

Courbe d'apprentissage : pertinente pour une équipe qui doit monter en compétence rapidement. Une librairie puissante mais opaque a un coût réel sur les premières semaines d'un projet.

Aptitude à la production : gestion des erreurs, observabilité, tests, performance. Un POC qui fonctionne en notebook est différent d'un système qui tient en charge avec des SLA.

Activité de la communauté et de la maintenance : issues fermées, fréquence des releases, qualité de la documentation. Une librairie abandonnée ou sous-maintenue est un risque à 18 mois.

1. LangChain : le framework généraliste de référence

LangChain est la librairie la plus utilisée dans l'écosystème Python LLM. Elle couvre un périmètre large : construction de chaînes de traitement (chains), agents avec outils, intégration de bases vectorielles, mémoire conversationnelle, callbacks et observabilité via LangSmith.

Pour qui

Les équipes qui démarrent un projet LLM sans périmètre fonctionnel très précis, les projets qui combinent plusieurs cas d'usage (RAG + agents + intégration d'outils), et les équipes qui veulent bénéficier d'un écosystème large avec des intégrations prêtes à l'emploi pour des dizaines de fournisseurs (OpenAI, Anthropic, Mistral, bases vectorielles comme Pinecone, Weaviate, Chroma, pgvector).

Forces

  • Écosystème très large : intégrations avec pratiquement tous les fournisseurs LLM et bases vectorielles du marché
  • LCEL (LangChain Expression Language) : syntaxe composable et lisible pour construire des pipelines
  • LangSmith pour le traçage, l'évaluation et le débogage des chaînes en production
  • Documentation abondante, tutoriels nombreux, communauté active
  • Support natif des patterns agents (ReAct, tool calling, structured output)

Limites

  • Abstractions parfois redondantes : l'historique de la librairie a généré plusieurs façons de faire la même chose, ce qui alourdit la lecture du code existant
  • Les breaking changes entre versions majeures ont été fréquents entre 2023 et 2025 ; la version 0.3+ a stabilisé l'API, mais les projets anciens nécessitent des migrations
  • Pour un cas d'usage très spécialisé (RAG pur ou sorties structurées uniquement), LlamaIndex ou Instructor sont plus ergonomiques
  • La richesse de l'écosystème peut rendre le choix des composants déroutant pour une équipe qui démarre

Pour aller plus loin sur le déploiement d'un pipeline LangChain en production, notre guide sur déployer un LLM en production couvre l'infrastructure, le scaling et l'observabilité.

2. LlamaIndex : spécialiste du RAG et de l'indexation

LlamaIndex est conçu autour d'un problème précis : connecter des LLM à des données externes de façon efficace. Ses abstractions (Document, Node, Index, Retriever, QueryEngine) correspondent exactement aux étapes d'un pipeline RAG. C'est cette spécialisation qui le distingue de LangChain.

Pour qui

Les équipes qui construisent un assistant documentaire, un système de question-answering sur corpus interne, ou tout projet où la qualité du retrieval est le facteur critique de succès. Aussi pertinent pour les projets avec des sources hétérogènes (PDF, bases SQL, APIs, Notion, Confluence) grâce aux nombreux connecteurs de données (data loaders).

Forces

  • Abstractions RAG natives : chunking, indexation, retrieval, re-ranking, query routing dans un seul framework cohérent
  • Connecteurs pour des dizaines de sources de données (SimpleDirectoryReader, DatabaseReader, NotionReader, etc.)
  • Stratégies avancées : HyDE (Hypothetical Document Embeddings), sentence window retrieval, auto-merging retrieval
  • LlamaCloud pour la gestion de pipelines RAG en production avec observabilité intégrée
  • Forte activité de recherche : de nouvelles stratégies de retrieval sont intégrées régulièrement

Limites

  • Moins adapté aux cas d'usage hors RAG (agents génériques, automatisation de workflows)
  • Courbe d'apprentissage sur les abstractions avancées (sub-question query engine, recursive retrieval)
  • Documentation plus fragmentée que LangChain sur certains sujets avancés

Nous avons détaillé les stratégies de retrieval avancées dans notre article sur l'optimisation d'un système RAG.

3. Hugging Face Transformers : la porte d'entrée vers l'open source

Hugging Face Transformers est la bibliothèque de référence pour travailler avec des modèles open source. Elle donne accès à plusieurs centaines de milliers de modèles via le Hub, et fournit les outils pour charger, fine-tuner, quantifier et déployer ces modèles en Python.

Pour qui

Les data scientists et les équipes qui veulent contrôler leur stack : choix du modèle, fine-tuning sur données propriétaires, déploiement on-premise ou souverain. Indispensable pour les projets qui ne peuvent pas dépendre d'une API tierce pour des raisons de confidentialité ou de coût à grande échelle. Pour les équipes qui travaillent sur des textes en français (classification, NER, embeddings), notre comparatif des librairies NLP pour le français (spaCy, CamemBERT, Flair, Stanza, Sentence-Transformers) complète utilement ce panorama.

Forces

  • Accès à l'ensemble de l'écosystème de modèles open source : Mistral, LLaMA 3, Phi-3, Qwen, Falcon et des centaines d'autres
  • Pipeline d'inférence unifié (pipeline("text-generation"), pipeline("ner"), etc.) pour démarrer rapidement
  • PEFT (Parameter-Efficient Fine-Tuning) : LoRA, QLoRA, Prefix Tuning pour fine-tuner avec des ressources limitées
  • Quantification via bitsandbytes (4-bit, 8-bit) pour faire tourner des modèles larges sur GPU accessibles
  • Intégration native avec PyTorch et JAX, compatibilité avec vLLM pour l'inférence haute performance

Limites

  • Ce n'est pas un framework applicatif : il faut ajouter LangChain, LlamaIndex ou une couche custom pour construire un système complet
  • L'inférence locale de modèles larges (7B+) nécessite du matériel GPU dédié pour des latences acceptables
  • La gestion du fine-tuning et du déploiement demande une expertise MLOps que n'ont pas toutes les équipes. Pour les outils qui couvrent ce périmètre (MLflow, W&B, BentoML, Ray, Airflow), notre comparatif des outils MLOps pour la production aide à construire la bonne stack autour de Hugging Face.
  • L'API change régulièrement avec l'évolution rapide de l'écosystème

4. DSPy : l'optimisation programmatique des prompts

DSPy (Declarative Self-improving Python) est un framework de l'université de Stanford qui change l'approche du prompt engineering. Plutôt que d'écrire des prompts à la main, vous déclarez ce que votre pipeline doit faire (signatures d'entrée/sortie), et DSPy optimise automatiquement les prompts et les demonstrations via des téléprompters (MIPRO, BootstrapFewShot, etc.).

Pour qui

Les équipes qui ont un ensemble d'évaluation (gold set) et une métrique à maximiser, et qui veulent automatiser l'amélioration de leurs prompts plutôt que de les affiner manuellement à chaque changement de modèle. Particulièrement utile lors des migrations de modèle (passer de GPT-4 à Claude 3.5 Sonnet, par exemple) où les prompts optimisés pour un modèle ne fonctionnent pas nécessairement sur un autre.

Forces

  • Séparation nette entre la logique du pipeline et les prompts : le code est plus lisible et plus maintenable
  • Optimisation automatique des prompts via des algorithmes comme MIPRO v2 ou BootstrapFewShot
  • Portabilité : un pipeline DSPy fonctionne sur n'importe quel LLM supporté, et l'optimisation s'adapte au modèle cible
  • Réduction du coût de maintenance lié aux prompts fragiles quand les modèles changent

Limites

  • Courbe d'apprentissage significative : le paradigme est différent du prompt engineering classique
  • Nécessite un gold set d'évaluation de qualité pour que l'optimisation soit pertinente
  • Moins d'exemples métier et de tutoriels pratiques que LangChain
  • L'optimisation peut être coûteuse en tokens lors des phases de compilation du pipeline

5. Haystack : pipelines NLP orientés production

Haystack, développé par deepset, est un framework de pipelines NLP et LLM conçu dès le départ pour la production. Son architecture modulaire repose sur des composants (Component) et des pipelines déclaratifs. Il couvre le RAG, le question-answering, la recherche sémantique et les agents.

Pour qui

Les équipes qui valorisent la robustesse et la maintenabilité en production, notamment dans des contextes d'entreprise avec des exigences de qualité de code et de testabilité. Haystack est aussi pertinent pour les équipes NLP qui ont un historique avec deepset ou qui travaillent déjà sur des systèmes de recherche documentaire.

Forces

  • Architecture de pipeline claire et testable : chaque composant est indépendant, mocable, et les pipelines peuvent être sérialisés en YAML
  • Support natif d'Elasticsearch, OpenSearch et Weaviate pour les pipelines hybrides (BM25 + vectoriel)
  • Haystack Studio pour la visualisation et le monitoring des pipelines
  • Bonne couverture des cas d'usage NLP classiques (extraction d'entités, classification, réponse à questions)
  • Politique de versioning stable, breaking changes bien documentés

Limites

  • Communauté plus petite que LangChain, moins d'exemples et d'intégrations tierces
  • L'architecture composant/pipeline peut être verbeuse pour des cas d'usage simples
  • Les fonctionnalités agents sont moins matures que chez LangChain en 2026

6. LiteLLM : l'abstraction multi-fournisseurs

LiteLLM résout un problème concret : chaque fournisseur LLM (OpenAI, Anthropic, Mistral, Cohere, Gemini, modèles locaux via Ollama) a sa propre API. LiteLLM expose une interface unifiée compatible OpenAI qui reroute les appels vers le fournisseur de votre choix. Un paramètre model suffit à changer de fournisseur sans réécrire le code applicatif.

Pour qui

Toute équipe qui utilise ou envisage d'utiliser plusieurs fournisseurs LLM : pour le fallback (si OpenAI est indisponible, basculer sur Mistral), le routage selon le coût (modèle économique pour les requêtes simples, modèle puissant pour les cas complexes), ou la migration progressive d'un fournisseur à un autre.

Forces

  • Interface unifiée pour plus de 100 fournisseurs et modèles, y compris les modèles locaux via Ollama
  • LiteLLM Proxy : déploiement d'un serveur qui centralise les appels LLM avec load balancing, fallback, rate limiting et logging
  • Tracking natif des coûts par fournisseur et par modèle
  • Très léger : peut s'ajouter à n'importe quelle stack existante sans refactoring majeur
  • Compatible avec LangChain et LlamaIndex comme couche de transport

Limites

  • Ce n'est pas un framework applicatif : il ne gère pas les agents, les pipelines ou le RAG
  • Les fonctionnalités avancées de certains fournisseurs (computer use Anthropic, multimodalité spécifique) peuvent être partiellement supportées selon la version
  • Le proxy ajoute un hop réseau qui peut impacter la latence sur des cas d'usage très sensibles

7. Instructor et Pydantic AI : sorties structurées fiables

Ces deux librairies répondent au même problème de base : obtenir des LLM des sorties JSON structurées et validées, plutôt que du texte libre qu'il faut ensuite parser avec des heuristiques fragiles.

Instructor, créé par Jason Liu, est la plus simple des deux. Elle wrapp n'importe quel client LLM (openai, anthropic, litellm) et retourne une instance Pydantic validée. Si le LLM produit un JSON invalide, Instructor relance automatiquement la requête avec le message d'erreur de validation pour que le modèle se corrige.

Pydantic AI va plus loin en proposant un framework d'agents complet bâti autour des types Pydantic : définition d'agents typés, outils typés, gestion des dépendances, streaming structuré. Il est plus opinionated qu'Instructor mais offre plus de cohérence sur des architectures multi-agents.

Pour qui

Instructor convient aux équipes qui ont besoin d'extraction structurée dans un pipeline existant (extraction d'entités, classification avec score de confiance, parsing de documents). Pydantic AI s'adresse aux projets qui construisent des agents ou des workflows multi-agents où la rigueur de typage est une exigence dès le départ.

Forces

  • Validation Pydantic native : zéro parsing manuel, erreurs de type capturées à l'exécution
  • Retry automatique avec feedback d'erreur au modèle : taux d'échec très faible sur les LLM récents
  • Instructor supporte OpenAI, Anthropic, Mistral, Google et bien d'autres via leur client natif
  • Pydantic AI intègre le tracing via Logfire pour le monitoring en production

Limites

  • Instructor est limité à l'extraction structurée : pas d'abstractions pour le RAG, les agents complexes ou la mémoire
  • Pydantic AI est plus jeune et son API est encore en évolution en 2026
  • La complexité des schémas Pydantic très imbriqués peut dégrader les performances de l'inférence sur certains modèles

Les architectures agents multi-étapes sont couvertes dans notre article sur l'agentic RAG et les agents IA de retrieval.

8. Semantic Kernel : l'approche Microsoft

Semantic Kernel est le SDK open source de Microsoft pour intégrer des LLM dans des applications. Il supporte Python, C# et Java, avec une intégration native dans l'écosystème Azure (Azure OpenAI, Azure AI Foundry). Son modèle de plugin (fonctions natives + fonctions sémantiques) et son planificateur d'agents sont ses différenciants principaux.

Pour qui

Les équipes qui opèrent dans un contexte Microsoft (Azure, .NET, Microsoft 365 Copilot Studio) ou qui veulent construire des agents dans une architecture multi-langage avec une cohérence SDK. Aussi pertinent pour les grandes organisations qui ont déjà un accord enterprise Azure et veulent capitaliser sur leur infrastructure existante.

Forces

  • Intégration native avec Azure OpenAI, Azure AI Foundry et les services Microsoft 365
  • Support multi-langage (Python, C#, Java) avec une API cohérente : utile pour les équipes mixtes
  • Kernel Plugins : découplage propre entre les capacités (fonctions) et leur orchestration
  • Process Framework pour des workflows d'agents déterministes et maintenables
  • Soutien et maintenance actifs par Microsoft

Limites

  • Conçu en priorité pour Azure : les équipes sans contexte Microsoft auront une expérience moins fluide
  • Communauté Python plus petite que LangChain, moins d'exemples métier
  • L'API Python a suivi l'API C# de référence, ce qui peut générer des idiomes peu pythoniques
  • Moins adapté aux projets exploratoires rapides : l'architecture Kernel/Plugin est plus verbeux pour des POC simples

Tableau comparatif des 8 librairies Python LLM

Comparatif synthétique (2026)

Librairie Cas d'usage principal Maturité production Courbe apprentissage Spécialisation
LangChain Agents, pipelines, RAG Élevée Moyenne Généraliste
LlamaIndex RAG, indexation, sources hétérogènes Élevée Moyenne RAG / recherche
HF Transformers Modèles open source, fine-tuning Élevée Élevée Modèles open source
DSPy Optimisation prompts, pipelines déclaratifs Bonne Élevée Prompt engineering auto
Haystack Pipelines NLP, QA, recherche Élevée Moyenne Pipelines production
LiteLLM Abstraction multi-fournisseurs, proxy Élevée Faible Routage / fallback LLM
Instructor / Pydantic AI Sorties structurées, agents typés Bonne Faible à moyenne Extraction structurée
Semantic Kernel Agents, intégration Azure/Microsoft Élevée Moyenne à élevée Écosystème Microsoft

Comment choisir selon votre cas

Il n'y a pas de réponse universelle. La librairie qui convient dépend de trois variables : votre cas d'usage précis, la maturité LLM de votre équipe, et les contraintes d'infrastructure (cloud, on-premise, souveraineté des données).

Grille de décision rapide

  • 1
    Vous construisez un assistant documentaire ou un système RAG : commencez par LlamaIndex. Ajoutez LiteLLM si vous voulez garder la flexibilité fournisseur.
  • 2
    Vous construisez des agents qui appellent des outils externes : LangChain (périmètre large) ou Pydantic AI (si la rigueur de typage est prioritaire).
  • 3
    Vous avez besoin d'extraction structurée fiable (JSON, entités, classification) : Instructor est le choix le plus direct et le plus robuste.
  • 4
    Vous utilisez plusieurs fournisseurs LLM ou voulez du fallback automatique : LiteLLM en couche de transport, combiné à LangChain ou LlamaIndex selon le cas d'usage.
  • 5
    Vous voulez fine-tuner ou déployer un modèle open source on-premise : Hugging Face Transformers avec vLLM pour l'inférence. LangChain ou LlamaIndex par-dessus pour la couche applicative.
  • 6
    Vous êtes dans un contexte Azure/Microsoft ou votre stack est multi-langage (Python + C#) : Semantic Kernel est le choix naturel.
  • 7
    Vous avez un gold set d'évaluation et voulez automatiser l'optimisation des prompts : DSPy, en remplacement ou en complément de LangChain sur les modules critiques.

Comme le résume Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria : "Le choix de la librairie est rarement le vrai enjeu. Ce qui détermine si un projet LLM réussit en production, c'est la qualité de l'évaluation mise en place dès le début et la discipline sur les tests de régression à chaque changement de modèle ou de prompt. Les équipes qui négligent l'évaluation passent plus de temps à déboguer en production qu'à délivrer des fonctionnalités."

Votre équipe n'a pas les ressources pour intégrer ces librairies en production ?

Du choix de la librairie au déploiement d'un LLM en production, en passant par le fine-tuning et l'évaluation : c'est le métier de notre équipe. Nous intervenons sur les stacks LangChain, LlamaIndex, Hugging Face et les modèles Mistral, Claude et GPT.

Voir notre offre expert IA générative et LLM

Questions fréquentes sur les librairies Python pour les LLM

LangChain reste le point d'entrée le plus documenté pour débuter. Sa communauté est large, ses exemples nombreux, et il couvre la majorité des cas d'usage courants : RAG, agents, chaînes de traitement. Pour un projet centré sur la recherche dans des documents, LlamaIndex est plus adapté dès le départ. Si vous partez de zéro sur un cas très simple, LiteLLM avec une interface OpenAI unifiée peut suffire.
Oui, LangChain reste pertinent pour les pipelines complexes et les équipes qui veulent un écosystème complet. DSPy répond à un besoin différent : optimiser les prompts de façon programmatique plutôt que de les écrire à la main. Pydantic AI s'adresse aux cas où la sortie structurée et la fiabilité de type sont prioritaires. Ces trois outils ne sont pas en compétition directe : ils couvrent des besoins complémentaires.
LiteLLM est la réponse la plus directe. Il propose une interface unifiée compatible OpenAI qui reroute les appels vers plus de 100 fournisseurs différents (OpenAI, Anthropic Claude, Mistral, Cohere, modèles locaux via Ollama). Un changement de fournisseur se réduit à modifier un paramètre model. LangChain offre aussi des abstractions multi-fournisseurs, mais LiteLLM est plus léger si c'est votre seul besoin.
Instructor est le choix le plus direct. Il combine la validation Pydantic avec les appels LLM et relance automatiquement le modèle en cas de sortie invalide. Pydantic AI adopte une approche similaire mais avec un framework d'agents intégré. Pour des besoins ponctuels dans LangChain, le mode structured output est aussi disponible, mais Instructor reste plus précis et plus prévisible sur la validation.
DSPy est utilisé en production, notamment dans des équipes qui veulent automatiser l'optimisation de leurs prompts plutôt que de les réécrire manuellement à chaque changement de modèle. Il est particulièrement pertinent quand vous avez un ensemble de données d'évaluation (gold set) et que vous cherchez à maximiser une métrique précise. La courbe d'apprentissage est plus élevée que LangChain, et la documentation moins fournie en exemples métier.
Oui, pour des modèles légers (classification, NER, embeddings). Les modèles d'inférence générative de grande taille (7B+ paramètres) nécessitent un GPU pour des latences acceptables en production. L'API Inference de Hugging Face permet de faire tourner des modèles sur leur infrastructure sans gérer le hardware. Pour les modèles embarqués sur CPU, des formats comme GGUF via llama.cpp offrent une alternative, mais avec des contraintes de taille de contexte et de débit.
Oui. Semantic Kernel supporte OpenAI, Anthropic, Hugging Face et d'autres fournisseurs en plus d'Azure OpenAI. Il n'est pas limité à Azure. En revanche, son intégration est nativement plus profonde avec les services Microsoft (Azure AI Foundry, Microsoft 365 Copilot), et la majorité de sa documentation et de ses exemples supposent un contexte .NET ou Azure. Les équipes Python sans contexte Microsoft auront généralement plus d'aisance avec LangChain ou LlamaIndex.
LlamaIndex est conçu autour du RAG : ses abstractions (index, retriever, query engine, node parser) correspondent exactement aux étapes du pipeline. Pour un RAG complexe avec plusieurs sources, des stratégies de chunking avancées ou un routing multi-index, LlamaIndex est plus ergonomique. LangChain couvre aussi le RAG mais avec des abstractions plus génériques. Si votre projet est majoritairement un système de recherche documentaire, commencez par LlamaIndex. Si le RAG est une composante parmi d'autres (agents, outils, workflows), LangChain unifie mieux l'ensemble.

Passer à l'action

Vous voulez appliquer ça dans votre entreprise ?

En quelques minutes, identifiez les cas d'usage IA les plus rentables pour votre métier. Sans engagement, et sans jargon.

Demander un devis

Articles liés

Outils & Modèles

Top outils d'évaluation et d'observabilité des LLM en 2026

Ragas, DeepEval, LangSmith, Langfuse, promptfoo, TruLens, Phoenix : comparatif des outils pour évaluer et monitorer vos LLM en production. Forces, limites, pour qui.

Lire l'article
Outils & Modèles

Top librairies de NLP pour le français en 2026

spaCy, CamemBERT, Hugging Face Transformers, Flair, Stanza, Sentence-Transformers : comparatif des meilleures librairies NLP pour traiter du texte en français. Forces, limites, cas d'usage.

Lire l'article
Outils & Modèles

Top serveurs d'inférence LLM open-source en 2026

vLLM, Ollama, TGI, llama.cpp, LMDeploy, SGLang, TensorRT-LLM : comparatif complet des runtimes d'inférence LLM open-source pour l'auto-hébergement. Débit, latence, quantization, GPU vs CPU.

Lire l'article
Outils & Modèles

Top modèles LLM open-source pour l'entreprise en 2026

Mistral, Llama, Qwen, DeepSeek, Gemma, Phi, Command R : comparatif des LLM open-source auto-hébergeables pour les entreprises soucieuses de souveraineté et de confidentialité des données.

Lire l'article
Outils & Modèles

Top librairies de fine-tuning de LLM en 2026

Unsloth, PEFT, TRL, Axolotl, LLaMA-Factory, torchtune, AutoTrain : comparatif des 7 meilleures librairies de fine-tuning de LLM en 2026. Forces, limites, cas d'usage, tableau comparatif.

Lire l'article
Outils & Modèles

Top frameworks pour construire des agents IA en 2026

LangGraph, CrewAI, AutoGen, OpenAI Agents SDK, Smolagents, Pydantic AI, LlamaIndex Agents, Google ADK : comparatif concret pour choisir le bon framework d'agents IA selon votre stack et votre cas d'usage.

Lire l'article
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.