Tensoria
Parlez-nous de votre projet : 07 82 80 51 40
Outils & Modèles Par

Top librairies de fine-tuning de LLM en 2026

Les 7 meilleures librairies de fine-tuning de LLM en 2026 sont Unsloth, Hugging Face PEFT, TRL, Axolotl, LLaMA-Factory, torchtune et AutoTrain Advanced. Ce comparatif détaille pour chacune ce qu'elle fait, pour quel profil, ses forces réelles et ses limites, avec un tableau récapitulatif pour décider rapidement.

LoRA, QLoRA, full fine-tuning : les bases en 2 minutes

Avant de comparer les librairies, il faut comprendre les trois grandes approches d'entraînement, car chaque outil est pensé autour de l'une d'elles.

Le full fine-tuning met à jour l'ensemble des paramètres du modèle de base. C'est l'approche la plus puissante, mais elle exige des dizaines de Go de VRAM et un dataset de plusieurs dizaines de milliers d'exemples pour éviter le catastrophic forgetting (le modèle oublie ce qu'il savait avant). Réservé aux équipes avec des GPU A100 ou H100 et un vrai budget de calcul.

LoRA (Low-Rank Adaptation) gèle les poids originaux du modèle et ajoute de petites matrices d'adaptation à certaines couches. Ces matrices représentent 0,1 à 1 % des paramètres totaux, mais capturent une grande partie de l'adaptation souhaitée. Résultat : moins de VRAM, moins de temps de calcul, et un adaptateur léger qui se superpose au modèle de base à l'inférence. L'article de recherche original de Hu et al. (2021) sur LoRA est disponible sur arXiv.

QLoRA ajoute une étape supplémentaire : le modèle de base est quantifié en 4 bits avant l'entraînement LoRA. La quantification réduit la taille mémoire du modèle d'un facteur 4, ce qui permet d'entraîner un modèle de 70 milliards de paramètres sur deux GPU grand public. La librairie bitsandbytes de Tim Dettmers est la brique de quantification utilisée dans la plupart des implémentations QLoRA.

Critères de sélection d'une librairie de fine-tuning

Quatre dimensions distinguent concrètement les librairies disponibles en 2026.

La VRAM requise. Certains outils sont optimisés pour faire tourner un fine-tuning sur un seul GPU de 16 ou 24 Go (RTX 3090, RTX 4090). D'autres présupposent un accès à des A100 ou H100 pour les modèles de grande taille. La VRAM est souvent le facteur bloquant avant même le choix de la librairie.

La facilité de prise en main. L'écart est réel entre une librairie qui expose une API Python de bas niveau (torchtune) et une interface web qui guide l'utilisateur étape par étape (LLaMA-Factory, AutoTrain). Pour un data scientist expérimenté, la flexibilité prime. Pour une équipe qui fine-tune occasionnellement, l'interface compte davantage que les performances brutes.

La taille et la variété des modèles supportés. Llama 3.x, Mistral Nemo, Qwen2.5, Gemma 2, Phi-4 : les modèles de base changent rapidement. Une librairie bien maintenue supporte les nouvelles architectures dans les semaines qui suivent leur sortie. Une librairie moins active peut rester bloquée sur une génération de modèles.

L'intégration dans l'écosystème Python ML. Les équipes qui utilisent déjà Hugging Face Transformers, Weights & Biases ou DeepSpeed vont naturellement préférer des librairies qui s'y intègrent sans friction. Les équipes PyTorch-first vont préférer torchtune.

1. Unsloth

Unsloth est la librairie qui a le plus progressé en adoption depuis 2024. Son positionnement est clair : offrir le fine-tuning QLoRA le plus rapide possible sur GPU unique, sans sacrifier la précision numérique.

Ce qu'elle fait

Unsloth réécrit les noyaux de calcul critiques en Triton (le langage de kernels GPU d'OpenAI) pour accélérer les opérations d'attention et de backpropagation. Selon la documentation officielle d'Unsloth, les gains de vitesse mesurés sont de l'ordre de 2x par rapport à une implémentation PEFT+Flash Attention standard, avec une réduction de 70 % de la consommation mémoire sur certains modèles. La librairie s'utilise comme un wrapper autour de Hugging Face Transformers : le code de fine-tuning existant est modifiable en quelques lignes.

Pour qui

Data scientists et ingénieurs ML qui veulent du contrôle Python complet sur leur pipeline, tout en exploitant les optimisations matérielles sans avoir à écrire des kernels custom eux-mêmes. Compatible Google Colab (version gratuite incluse), ce qui la rend accessible sans infrastructure dédiée.

Forces

  • Vitesse de fine-tuning parmi les meilleures du marché sur GPU unique
  • Support des modèles populaires (Llama 3, Mistral, Qwen2.5, Gemma 2, Phi-4) mis à jour rapidement
  • Compatible avec les pipelines TRL pour le SFT et le DPO
  • Très bonne documentation avec des notebooks Colab prêts à l'emploi
  • Version Pro avec support multi-GPU et noyaux supplémentaires

Limites

  • Dépendance aux optimisations Triton : le support de nouveaux GPU (notamment AMD) est plus lent
  • La version open source est limitée à un seul GPU ; le multi-GPU exige la version Pro (payante)
  • Moins adapté aux équipes qui ont besoin de pipelines YAML versionnés et reproductibles

2. Hugging Face PEFT (LoRA/QLoRA)

PEFT (Parameter-Efficient Fine-Tuning) est la librairie de référence de l'écosystème Hugging Face pour toutes les méthodes d'adaptation à paramètres réduits. Elle est utilisée comme brique de base par la plupart des autres librairies de ce comparatif.

Ce qu'elle fait

PEFT implémente LoRA, QLoRA (via bitsandbytes), AdaLoRA (allocation adaptative du rang), IA3, et plusieurs autres méthodes. Elle s'intègre nativement avec Hugging Face Transformers, Accelerate et TRL. Un modèle chargé avec PEFT peut passer en mode entraînable en quelques lignes de code, avec un contrôle fin sur quelles couches adapter et avec quel rang LoRA.

Pour qui

Équipes qui travaillent déjà dans l'écosystème Hugging Face et qui veulent une base solide, bien documentée et maintenue. PEFT est aussi le bon choix quand on veut expérimenter plusieurs méthodes d'adaptation (LoRA, AdaLoRA, IA3) sur le même code de base.

Forces

  • Standard de fait : toutes les ressources communautaires, tutoriels et modèles sur Hugging Face Hub utilisent PEFT
  • Support de quasiment tous les modèles disponibles sur Hugging Face
  • Contrôle fin sur la configuration (rang, alpha, ciblage des couches)
  • Bonne intégration avec Weights & Biases pour le suivi des expériences
  • Maintenu activement par Hugging Face

Limites

  • Sans optimisations kernel type Unsloth, la vitesse est inférieure sur GPU unique
  • La combinaison PEFT + bitsandbytes + Accelerate peut demander un temps de configuration initial non négligeable
  • Pas d'interface graphique : nécessite de l'expertise Python

3. TRL (Transformer Reinforcement Learning)

TRL est la librairie Hugging Face dédiée à l'alignement des modèles de langage : fine-tuning supervisé (SFT), optimisation par préférence directe (DPO) et RLHF complet. Elle est devenue incontournable depuis que le fine-tuning par préférence a supplanté le simple SFT comme approche standard d'alignement.

Ce qu'elle fait

TRL fournit des entraîneurs (trainers) spécialisés : SFTTrainer pour le fine-tuning supervisé sur instructions, DPOTrainer pour l'optimisation sur des paires de réponses préférées/rejetées, PPOTrainer pour le RLHF complet avec un modèle de récompense. Elle s'intègre nativement avec PEFT et Unsloth, et gère automatiquement le packing de séquences (plusieurs exemples courts concaténés dans une même fenêtre de contexte) pour maximiser l'utilisation de la VRAM.

Pour qui

Équipes qui veulent aller au-delà du fine-tuning d'instruction et aligner un modèle sur des préférences : choisir entre deux réponses, réduire les hallucinations sur un domaine, adopter un ton ou un style particulier. TRL est aussi la couche d'entraînement utilisée dans les pipelines de la plupart des modèles de chat open source.

Forces

  • Référence pour DPO et RLHF : documentation exhaustive, cas d'usage validés
  • Compatible Unsloth et PEFT : les deux peuvent être combinés sans friction
  • Gestion du packing de séquences, ce qui améliore l'efficacité sur les datasets de courtes instructions
  • Scripts d'exemple pour chaque type d'entraînement inclus dans le repo

Limites

  • Courbe d'apprentissage plus élevée que PEFT seul pour les nouveaux venus en alignement
  • Le RLHF complet (PPO) reste coûteux et difficile à stabiliser sans expertise
  • Rarement utilisé seul : suppose que l'on maîtrise déjà PEFT et Transformers

4. Axolotl

Axolotl est un framework de fine-tuning orienté production. Son principe : tout se configure via un fichier YAML, et le framework orchestre automatiquement les librairies sous-jacentes (PEFT, TRL, Flash Attention, DeepSpeed). Zéro code personnalisé pour les cas standards.

Ce qu'elle fait

On décrit le fine-tuning dans un fichier YAML : modèle de base, dataset, méthode d'entraînement (LoRA, QLoRA, full), hyperparamètres, format de prompt, intégration Weights & Biases. Axolotl lit ce fichier et exécute l'entraînement en assemblant les bonnes librairies. Cela rend les expériences reproductibles par nature et versionnables via Git.

Pour qui

Équipes d'ingénierie ML qui veulent des pipelines de fine-tuning reproductibles, faciles à passer en revue en code review, et déployables sur des clusters multi-GPU sans réécriture. Idéal pour les organisations qui lancent plusieurs runs d'entraînement en parallèle ou qui ont besoin d'audit des configurations.

Forces

  • Reproductibilité maximale : la configuration YAML est le seul artéfact à versionner
  • Supporte LoRA, QLoRA, full fine-tuning, Flash Attention, DeepSpeed sans configuration manuelle
  • Bonne communauté et nombreux fichiers de config exemples dans le repo officiel
  • Compatible multi-GPU nativement via DeepSpeed ZeRO

Limites

  • Moins flexible pour les cas atypiques : sortir du cadre YAML exige de modifier les sources
  • La complexité de la configuration YAML peut être déroutante lors de la prise en main
  • Moins rapide qu'Unsloth sur GPU unique faute des noyaux Triton optimisés

5. LLaMA-Factory

LLaMA-Factory est la solution la plus accessible du comparatif. Elle propose une interface web appelée LLaMA Board qui guide l'utilisateur de bout en bout : chargement du modèle, configuration de l'entraînement, lancement, évaluation. Le code Python sous-jacent reste disponible pour les utilisateurs avancés.

Ce qu'elle fait

LLaMA-Factory supporte plus de 100 modèles de base (Llama, Mistral, Qwen, Gemma, Phi, DeepSeek, et plusieurs modèles multimodaux). Elle intègre LoRA, QLoRA, full fine-tuning, GaLore et APOLLO. L'interface web permet de configurer l'entraînement, de suivre les courbes de loss en temps réel et d'évaluer le modèle final sur des jeux de benchmarks standard.

Pour qui

Data scientists qui débutent en fine-tuning, équipes produit qui veulent tester rapidement une adaptation sans pipeline complexe, et professionnels non-ML (chercheurs, ingénieurs domaine) qui veulent adapter un modèle à leur corpus sans écrire de code.

Forces

  • Meilleure interface utilisateur du comparatif, très accessible
  • Compatibilité maximale en nombre de modèles supportés
  • Support des modèles multimodaux (vision-langage) inclus
  • Documentation en anglais et en chinois, communauté très active
  • Exportation directe vers Hugging Face Hub ou GGUF pour Ollama

Limites

  • Moins de contrôle bas niveau que PEFT ou TRL pour les configurations avancées
  • L'interface web peut masquer certains hyperparamètres importants aux débutants
  • Les performances brutes sur GPU unique sont inférieures à Unsloth

6. torchtune

torchtune est la librairie de fine-tuning native PyTorch développée et maintenue par Meta. Son positionnement est volontairement minimaliste : du PyTorch pur, sans couches d'abstraction supplémentaires, lisible et auditable ligne par ligne.

Ce qu'elle fait

torchtune fournit des recettes d'entraînement (recipes) en Python pur, configurables via YAML. Chaque recette implémente un cas d'usage standard : full fine-tuning mono-GPU, LoRA multi-GPU, DPO, distillation. Le code est intentionnellement explicite : pas de magie cachée, chaque étape est lisible. La librairie s'intègre avec PyTorch 2.x et exploite torch.compile pour les optimisations de performance.

Pour qui

Équipes de recherche qui veulent comprendre et modifier précisément le code d'entraînement, ingénieurs qui ont des contraintes d'auditabilité ou de conformité nécessitant de lire chaque ligne, et organisations qui veulent éviter les dépendances sur des librairies tierces non maintenues par des équipes de taille suffisante.

Forces

  • Code source clair, lisible, sans abstraction excessive
  • Maintenu par Meta, garantie de suivi des modèles Llama
  • Intégration native avec PyTorch 2.x et torch.compile
  • Zéro dépendance sur Hugging Face Transformers si souhaité

Limites

  • Moins de modèles supportés nativement que PEFT ou LLaMA-Factory
  • Communauté plus petite, moins de ressources tutoriels disponibles
  • Pas d'interface graphique, courbe d'apprentissage plus élevée pour les non-experts PyTorch
  • Les recettes doivent être adaptées manuellement pour les architectures non standard

7. Hugging Face AutoTrain Advanced

AutoTrain Advanced est la solution no-code de Hugging Face. Elle permet de lancer un fine-tuning de LLM sans écrire une seule ligne de Python, en quelques clics depuis un espace Hugging Face ou en local via une interface web.

Ce qu'elle fait

L'utilisateur uploade son dataset (CSV ou JSONL), choisit un modèle de base depuis Hugging Face Hub, configure les hyperparamètres via une interface web, et lance l'entraînement. AutoTrain gère automatiquement le choix de la méthode (LoRA par défaut pour les LLM), la mise en forme du dataset et la sauvegarde du modèle résultant. L'exécution peut se faire sur les serveurs Hugging Face (facturation à l'heure GPU) ou sur une machine locale.

Pour qui

Équipes sans expertise ML qui veulent expérimenter le fine-tuning sur leur propre corpus, et organisations qui ont besoin d'un outil accessible à des profils non-ingénieurs (chef de projet, expert domaine). Utile aussi pour la validation rapide d'une hypothèse avant d'investir dans un pipeline plus complexe.

Forces

  • Aucun code requis : accessible à tous les profils
  • Intégration directe avec Hugging Face Hub pour le dataset et le modèle résultant
  • Support GPU cloud intégré sans gestion d'infrastructure
  • Bonne solution pour un premier fine-tuning de validation

Limites

  • Peu de contrôle sur les hyperparamètres avancés
  • Les coûts GPU sur les serveurs Hugging Face peuvent dépasser ceux d'une infrastructure propre sur des runs longs
  • Pas adapté aux pipelines de production avec des contraintes de reproductibilité strictes
  • Fonctionnalités avancées (DPO, RLHF) moins bien intégrées qu'avec TRL directement

Tableau comparatif des 7 librairies

Comparatif des librairies de fine-tuning LLM en 2026

Librairie Méthodes Facilité Vitesse GPU unique Multi-GPU Idéal pour
Unsloth LoRA, QLoRA Intermédiaire Excellente Pro seulement Data scientists, vitesse max
PEFT LoRA, QLoRA, AdaLoRA, IA3 Intermédiaire Bonne Oui (Accelerate) Ecosystem HF, flexibilité
TRL SFT, DPO, RLHF Avancé Bonne Oui Alignement, DPO
Axolotl LoRA, QLoRA, Full Intermédiaire Bonne Oui (DeepSpeed) Pipelines prod, reproductibilité
LLaMA-Factory LoRA, QLoRA, Full, GaLore Très facile Correcte Oui Débutants, UI, multi-modèles
torchtune LoRA, Full, DPO, distil. Avancé Bonne Oui Recherche, auditabilité
AutoTrain LoRA (auto) Très facile Limitée Partiel No-code, validation rapide

Comment choisir et faut-il vraiment fine-tuner ?

Avant de choisir une librairie, la question qui compte est en amont : le fine-tuning est-il la bonne réponse à votre problème ?

Quand le fine-tuning s'impose

Le fine-tuning est pertinent quand vous cherchez à modifier le comportement structurel du modèle : adopter un style d'écriture précis, générer systématiquement un format de sortie donné (JSON, SOAP, HTML structuré), maîtriser un domaine très technique avec un vocabulaire spécialisé que le modèle de base gère mal, ou réduire les hallucinations sur un référentiel métier stable. C'est aussi la bonne approche quand la latence est critique et que vous ne pouvez pas vous permettre d'injecter plusieurs milliers de tokens de contexte à chaque requête.

Quand le RAG est préférable

Si le besoin est d'interroger des documents qui changent souvent (documentation produit, articles de loi, contrats mis à jour), le RAG est plus adapté. Un modèle fine-tuné encode l'information dans ses poids à un instant T : si le référentiel évolue, il faut ré-entraîner. Le RAG récupère l'information en temps réel sans toucher aux poids du modèle.

Notre article sur le choix entre RAG et fine-tuning détaille les critères de décision selon votre cas d'usage.

Quand le prompting suffit

Pour un grand nombre de cas d'usage, un bon prompt système, éventuellement enrichi de quelques exemples en few-shot, suffit. Le prompting est gratuit, instantané et modifiable sans pipeline de données. Tester d'abord le prompting et le RAG avant de lancer un fine-tuning est une règle de bonne pratique que la plupart des équipes expérimentées appliquent.

Comment choisir sa librairie selon le profil

  • 1
    Débutant ou équipe sans expertise ML : commencer par LLaMA-Factory (interface web) ou AutoTrain (no-code)
  • 2
    Data scientist ou ingénieur ML : Unsloth + TRL pour la vitesse et le contrôle ; PEFT seul pour la flexibilité maximale
  • 3
    Équipe d'ingénierie ML en production : Axolotl pour la reproductibilité et les configs YAML versionnées
  • 4
    Équipe de recherche ou contrainte d'auditabilité : torchtune pour la lisibilité et l'absence de dépendances cachées
  • 5
    Besoin d'aligner sur des préférences (DPO, RLHF) : TRL est incontournable, quel que soit le reste du stack

Comme le note Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria : "Dans les projets de fine-tuning que nous accompagnons, la librairie est rarement le sujet. Ce qui prend le plus de temps, c'est la constitution et le nettoyage du dataset d'entraînement. Un pipeline de fine-tuning avec un dataset médiocre donne un modèle médiocre, quelle que soit la librairie. Investir 80 % de l'effort sur les données et 20 % sur l'outillage est la répartition qui fonctionne."

Si vous déployez ensuite votre modèle en production, notre guide sur le déploiement de LLM en production couvre les questions d'infrastructure, de serving et d'optimisation à l'inférence. Pour gérer l'ensemble du cycle de vie MLOps autour du modèle (versioning d'expériences, orchestration des pipelines, monitoring en production), notre comparatif des outils MLOps pour la production (MLflow, W&B, BentoML, Ray, Airflow, Kubeflow) couvre les choix selon la maturité de l'équipe.

Pour les équipes qui souhaitent être accompagnées sur un projet de fine-tuning, de RAG ou d'intégration LLM, notre équipe intervient du cadrage jusqu'à la mise en production sur notre page expert IA générative et LLM.

Questions fréquentes sur le fine-tuning de LLM

Le full fine-tuning met à jour tous les paramètres du modèle. Il donne les meilleurs résultats mais nécessite des dizaines de Go de VRAM et un dataset volumineux. LoRA (Low-Rank Adaptation) gèle les poids originaux et entraîne seulement de petites matrices additionnelles, ce qui réduit la mémoire et le temps d'entraînement d'un facteur 5 à 10. QLoRA ajoute la quantification du modèle de base (en 4 bits) avant d'appliquer LoRA, ce qui permet d'entraîner des modèles de 7 à 70 milliards de paramètres sur un seul GPU grand public.
Avec QLoRA et une librairie comme Unsloth ou LLaMA-Factory, il est possible de fine-tuner des modèles de 7 milliards de paramètres sur un GPU avec 16 Go de VRAM (RTX 3090, RTX 4090, A10G). Pour les modèles de 70 milliards de paramètres, il faut au minimum un A100 80 Go ou plusieurs GPU en parallèle. Sans GPU local, Google Colab Pro, RunPod ou Lambda Labs permettent d'accéder à du matériel adapté à la demande.
Pour un fine-tuning d'instruction (apprendre à répondre selon un format précis ou un domaine), quelques centaines à quelques milliers d'exemples bien construits suffisent. La qualité prime largement sur la quantité : 500 exemples propres et représentatifs donnent de meilleurs résultats que 50 000 exemples bruités. Pour les tâches de classification ou d'extraction d'entités, on peut descendre à 200 à 500 exemples si le domaine est cohérent.
Le RAG est préférable quand le besoin est d'interroger des documents qui changent régulièrement (base de connaissances, documentation produit, contrats). Le fine-tuning est préférable quand le besoin est d'adapter le style, le ton ou le format de réponse du modèle, ou quand les documents ne seront pas mis à jour fréquemment. Les deux approches sont complémentaires : un modèle fine-tuné peut être couplé à un pipeline RAG pour combiner adaptation de comportement et récupération de contexte frais.
Pour un débutant, LLaMA-Factory est le meilleur point d'entrée grâce à son interface web et à sa compatibilité avec plus de 100 modèles. Pour un data scientist ou un ingénieur ML qui veut du contrôle, Unsloth combiné à TRL offre la meilleure vitesse avec une API Python familière. Axolotl est recommandé pour les équipes qui ont besoin de pipelines reproductibles en production, avec des configs YAML versionnées.
Si le fine-tuning se fait sur des infrastructures cloud (Google Colab, AWS, Azure), les données d'entraînement transitent par ces serveurs. Pour des données sensibles, il est préférable de fine-tuner sur infrastructure on-premise ou dans un cloud souverain (OVH, Scaleway). Il faut aussi vérifier les licences des modèles de base : certains modèles ont des restrictions d'usage commercial qui s'appliquent aussi aux modèles fine-tunés.
Oui. Des frameworks comme LoRAX et S-LoRA permettent de servir un unique modèle de base avec des dizaines d'adaptateurs LoRA distincts en mémoire, en les permutant dynamiquement selon la requête. Cela permet de déployer des variantes spécialisées (par client, par domaine) sans multiplier les instances de modèles, ce qui réduit significativement les coûts d'infrastructure.
La famille Llama (Meta), Mistral et ses dérivés (Mixtral, Mistral Nemo), Qwen2 et Qwen2.5 (Alibaba), Gemma 2 (Google) et Phi-3 et Phi-4 (Microsoft) sont les modèles de base les mieux supportés par l'ensemble des librairies du comparatif. Unsloth maintient une liste de modèles optimisés nativement avec des noyaux custom. LLaMA-Factory supporte plus de 100 modèles dont plusieurs modèles de vision (multimodaux).

Passer à l'action

Vous voulez appliquer ça dans votre entreprise ?

En quelques minutes, identifiez les cas d'usage IA les plus rentables pour votre métier. Sans engagement, et sans jargon.

Demander un devis

Articles liés

Outils & Modèles

Top outils d'évaluation et d'observabilité des LLM en 2026

Ragas, DeepEval, LangSmith, Langfuse, promptfoo, TruLens, Phoenix : comparatif des outils pour évaluer et monitorer vos LLM en production. Forces, limites, pour qui.

Lire l'article
Outils & Modèles

Top librairies de NLP pour le français en 2026

spaCy, CamemBERT, Hugging Face Transformers, Flair, Stanza, Sentence-Transformers : comparatif des meilleures librairies NLP pour traiter du texte en français. Forces, limites, cas d'usage.

Lire l'article
Outils & Modèles

Top serveurs d'inférence LLM open-source en 2026

vLLM, Ollama, TGI, llama.cpp, LMDeploy, SGLang, TensorRT-LLM : comparatif complet des runtimes d'inférence LLM open-source pour l'auto-hébergement. Débit, latence, quantization, GPU vs CPU.

Lire l'article
Outils & Modèles

Top modèles LLM open-source pour l'entreprise en 2026

Mistral, Llama, Qwen, DeepSeek, Gemma, Phi, Command R : comparatif des LLM open-source auto-hébergeables pour les entreprises soucieuses de souveraineté et de confidentialité des données.

Lire l'article
Outils & Modèles

Top 8 librairies Python pour les LLM en 2026

LangChain, LlamaIndex, DSPy, LiteLLM, Instructor, Haystack, Hugging Face, Semantic Kernel : comparatif des 8 librairies Python LLM en 2026. Forces, limites, cas d'usage pour CTO et data scientists.

Lire l'article
Outils & Modèles

Top frameworks pour construire des agents IA en 2026

LangGraph, CrewAI, AutoGen, OpenAI Agents SDK, Smolagents, Pydantic AI, LlamaIndex Agents, Google ADK : comparatif concret pour choisir le bon framework d'agents IA selon votre stack et votre cas d'usage.

Lire l'article
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Anas Rabhi Ingénieur IA, fondateur de Tensoria ianas.fr

Je suis ingénieur IA et data scientist, fondateur de Tensoria. Depuis plus de 6 ans, j'accompagne les entreprises dans l'exploitation concrète de l'IA pour leur métier : assistants internes basés sur RAG, agents IA en production, automatisations sur mesure, traitement intelligent de documents. J'interviens du cadrage initial à la mise en production, sur stacks LLM modernes (Mistral, Claude, GPT) et infrastructures souveraines quand la confidentialité l'exige.