Les librairies de computer vision open source permettent aujourd'hui à une PME ou une équipe industrielle de déployer de la détection d'objet, de la segmentation ou de la classification d'images sans partir de zéro. Mais le choix entre Ultralytics/YOLO, OpenCV, Detectron2, MMDetection, timm, SAM, Hugging Face Transformers ou Supervision dépend entièrement de votre tâche, de vos contraintes matérielles et du volume de données disponibles. Ce comparatif vous donne les critères de sélection concrets pour trancher.
Critères de sélection avant de choisir une librairie
Avant de comparer les librairies elles-mêmes, identifiez quatre paramètres qui déterminent votre sélection.
La tâche exacte. Détection d'objet (localisation + classe via bounding box), segmentation d'instance (masque pixel par objet), segmentation sémantique (label par pixel), classification (label sur l'image entière), OCR (lecture de texte dans une image), ou une combinaison ? Chaque librairie a des points forts différents selon la tâche.
Les contraintes temps réel. Avez-vous besoin de traiter un flux vidéo à 25 ou 30 images par seconde, ou analysez-vous des lots d'images en différé ? Le temps réel impose des architectures légères et un déploiement GPU local ou edge. Le traitement différé autorise des modèles plus lourds et une infrastructure cloud.
Le volume de données d'entraînement disponibles. Avec moins de 500 images annotées, le transfer learning sur YOLO ou timm est la seule option réaliste. Avec plusieurs milliers d'images, les architectures Detectron2 ou MMDetection deviennent pertinentes. SAM et Hugging Face Transformers peuvent fonctionner en zero-shot ou few-shot, donc avec très peu ou aucune donnée annotée.
Le contexte de déploiement. Serveur avec GPU dédié, cloud managé (AWS SageMaker, Azure ML), ou équipement edge sans connexion réseau (Jetson Orin, PC industriel) ? Certaines librairies exportent vers des formats optimisés pour l'edge (ONNX, TensorRT, TFLite) ; d'autres sont difficiles à sortir d'un environnement Python standard.
1. Ultralytics / YOLO, la référence temps réel pour l'industrie
Ultralytics est l'organisation qui maintient YOLOv8 et YOLOv11, les deux versions actives en 2026. YOLO (You Only Look Once) est l'architecture de détection d'objet la plus déployée en production industrielle, pour une raison simple : elle offre un excellent compromis vitesse et précision sans nécessiter une infrastructure GPU haute gamme.
Ce que ça couvre. Détection d'objet, segmentation d'instance, classification, estimation de pose (keypoints), oriented bounding boxes (OBB, utile pour les objets orientés en vue aérienne). YOLOv11 améliore les performances sur les petits objets par rapport à YOLOv8, point critique pour le contrôle qualité de pièces de faible dimension.
Pour qui. Data scientists et lead devs qui veulent aller vite en production. Industriels qui opèrent sur des lignes avec des caméras fixes et des contraintes de latence. Équipes qui doivent déployer sur Jetson ou PC industriel sans connexion cloud.
Forces. Formation rapide avec peu d'images (200 à 500 par classe suffisent pour un premier modèle viable). Export natif vers ONNX, TensorRT, CoreML, TFLite. API Python très simple. Documentation complète. Modèles disponibles en cinq tailles (nano, small, medium, large, extra) pour calibrer le compromis vitesse/précision.
Limites. La licence Ultralytics est devenue AGPL-3.0 pour les usages commerciaux depuis YOLOv8, ce qui impose des contraintes de distribution du code dérivé. Une licence commerciale est disponible. Pour des architectures de détection très spécifiques (two-stage, panoptique), Detectron2 ou MMDetection offrent plus de flexibilité de configuration.
2. OpenCV, le socle incontournable du traitement d'image
OpenCV (Open Source Computer Vision Library) n'est pas un framework de deep learning. C'est la librairie de référence pour tout ce qui entoure le modèle d'inférence : capture vidéo, prétraitement des images, gestion des caméras industrielles, filtrage, morphologie, détection de contours, transformation géométrique, et rendu des résultats.
Ce que ça couvre. Traitement d'image classique (filtres, seuillage, dilatation, érosion, Canny, Hough), capture et lecture de flux vidéo, calibration de caméra, homographie, OCR basique via Tesseract, et depuis OpenCV 4.x, inférence de modèles ONNX via le module DNN (limité mais fonctionnel).
Pour qui. Tout développeur qui construit un pipeline computer vision, qu'il utilise ensuite YOLO, Detectron2 ou un modèle Hugging Face pour l'inférence. OpenCV est la couche commune.
Forces. Performances très élevées en C++ et Python. Pas de dépendance GPU pour le traitement classique. Fonctionne hors ligne par construction. Compatible avec tous les standards de caméra industrielle (GigE Vision, USB3 Vision). Documentation exhaustive et communauté très large.
Limites. OpenCV seul ne suffit pas pour de la détection d'objet ou de la segmentation deep learning. Le module DNN permet d'inférer des modèles ONNX simples, mais pour des architectures complexes, il vaut mieux passer par PyTorch ou TensorRT. OpenCV n'est pas un outil d'entraînement.
3. Detectron2, la puissance de Meta AI pour la segmentation avancée
Detectron2 est le framework de détection et segmentation développé et maintenu par Meta AI (anciennement Facebook AI Research). Il implémente les architectures two-stage de référence : Faster R-CNN, Mask R-CNN, RetinaNet, Panoptic FPN, et plusieurs variantes.
Ce que ça couvre. Détection d'objet, segmentation d'instance, segmentation panoptique (combinaison sémantique et instance), estimation de pose. Performances très élevées sur les benchmarks COCO. Configuration fine de chaque composant de l'architecture (backbone, FPN, RPN, ROI head).
Pour qui. Équipes ML qui ont besoin de performances maximales sur des cas complexes (scènes denses, petits objets, segmentation fine) et disposent de datasets de plusieurs milliers d'images annotées. Chercheurs ou équipes qui veulent expérimenter avec des architectures non standard.
Forces. Architectures de référence académique en production. Très configurable. Support des modèles ViTDet (backbone Vision Transformer). Licence Apache 2.0, sans restriction commerciale. Intégration avec COCO et les formats d'annotation courants.
Limites. Installation complexe (dépend de la version CUDA, de torch, et d'une compilation locale). Moins adapté au déploiement edge : pas d'export ONNX natif simple. Plus lent à l'inférence que YOLO sur des cas comparables. Courbe d'apprentissage élevée. Moins maintenu activement depuis 2023, les contributions se sont ralenties.
4. MMDetection, le catalogue d'architectures le plus complet
MMDetection fait partie de l'écosystème OpenMMLab (CASIA). C'est une boîte à outils modulaire qui catalogue plus d'une centaine d'architectures de détection : YOLO, DETR, Sparse R-CNN, TOOD, CenterNet, DINO (l'architecture, pas le modèle Meta), et bien d'autres.
Ce que ça couvre. Détection d'objet, segmentation d'instance, segmentation panoptique. Points forts sur les benchmarks COCO et sur les compétitions de détection. Utile pour comparer plusieurs architectures sur un même dataset sans réécrire le code d'entraînement.
Pour qui. Équipes recherche, data scientists qui benchmarkent des architectures, équipes qui veulent reproduire des résultats papier ou expérimenter avec des approches récentes avant de choisir une architecture à déployer.
Forces. Catalogue d'architectures le plus large du marché open source. Modularité : chaque composant (backbone, neck, head, loss) est interchangeable. Weights pré-entraînés disponibles pour la majorité des architectures. Support des datasets COCO, VOC, Cityscapes et personnalisés.
Limites. Complexité de configuration élevée : les fichiers de config sont en Python et peuvent atteindre plusieurs centaines de lignes. Pas conçu pour le déploiement rapide. La documentation est dense et suppose une connaissance solide des architectures de détection. Le passage de l'entraînement à la production nécessite un travail d'ingénierie supplémentaire.
5. timm, le catalogue de backbones de classification le plus utilisé
timm (PyTorch Image Models), maintenu par Ross Wightman et intégré à l'écosystème Hugging Face, est la librairie de référence pour les modèles de classification d'images basés sur PyTorch. Elle donne accès à plusieurs centaines de backbones pré-entraînés sur ImageNet et d'autres datasets larges.
Ce que ça couvre. Classification d'images. En pratique, timm est utilisé comme extracteur de features ou comme backbone dans des pipelines custom de détection ou de segmentation. Les architectures disponibles couvrent EfficientNet, EfficientNetV2, ConvNeXt, ResNet, Vision Transformer (ViT), DeiT, Swin Transformer, et des dizaines d'autres.
Pour qui. Data scientists qui ont un problème de classification d'images (tri de pièces, reconnaissance de défauts par catégorie, classification documentaire par scan numérisé) et veulent fine-tuner rapidement un modèle pré-entraîné sur leurs données métier.
Forces. Installation simple (pip install timm). API cohérente pour charger n'importe quel backbone. Modèles à l'état de l'art sur ImageNet. Fine-tuning rapide avec quelques centaines d'images par classe. Compatible avec PyTorch Lightning et Hugging Face Trainer. Export ONNX possible via PyTorch natif.
Limites. timm est un catalogue de classification, pas un framework de détection ou segmentation. Pour ces tâches, il sert de backbone dans une architecture externe, ce qui demande du code custom. Moins adapté au temps réel sur edge que YOLO. La gestion des flux vidéo doit être implémentée manuellement.
6. Segment Anything Model (SAM), la segmentation zero-shot
SAM (Segment Anything Model), publié par Meta AI en 2023 et suivi de SAM 2 en 2024, est un modèle de segmentation capable de segmenter n'importe quel objet dans une image à partir d'un prompt minimal : un point, une boîte englobante, ou un masque approximatif. SAM 2 étend cette capacité aux vidéos.
Ce que ça couvre. Segmentation d'instance zero-shot (sans entraînement sur vos données). Peut être combiné avec YOLO pour un pipeline détection + segmentation précise : YOLO fournit la boîte englobante, SAM génère le masque pixel-parfait à l'intérieur. Utile pour la mesure de surfaces, l'analyse de forme de défaut, ou la préparation de datasets d'annotation.
Pour qui. Cas où la segmentation précise est requise mais les données annotées sont rares ou coûteuses à produire. Contrôle qualité où la forme exacte du défaut doit être mesurée. Équipes qui annotent des datasets et veulent accélérer la création de masques.
Forces. Aucun entraînement requis pour une utilisation basique. Généralisation exceptionnelle : fonctionne sur des domaines très différents de ImageNet (imagerie industrielle, médicale, aérienne). SAM 2 est nettement plus rapide que SAM 1 grâce à la mémoire temporelle sur vidéo.
Limites. Modèles lourds (ViT-H : 2,4 Go) qui nécessitent un GPU dédié pour une inférence rapide. Pas conçu pour du temps réel sur flux vidéo haute cadence. Les variantes légères (SAM-tiny, MobileSAM, EfficientSAM) sont disponibles mais avec une précision réduite. SAM segmente ce qu'on lui pointe, pas ce qu'on cherche : il faut combiner avec un détecteur pour trouver automatiquement les objets d'intérêt.
7. Hugging Face Transformers (vision), les Vision Transformers accessibles
Hugging Face Transformers expose les modèles Vision Transformer (ViT, DINO, CLIP, BLIP, Florence-2, PaliGemma) via une API unifiée et un Hub de modèles. Ces architectures transforment la vision en un problème de séquences, ce qui permet des capacités que les CNN classiques n'ont pas : recherche sémantique visuelle, classification zero-shot, génération de descriptions d'images.
Ce que ça couvre. Classification d'images, recherche visuelle sémantique (CLIP : trouver l'image qui correspond le mieux à une description textuelle), classification zero-shot (CLIP : classer des images dans des catégories non vues à l'entraînement), détection d'objets (DETR, DETA), segmentation (Mask2Former), et tâches vision-langage (BLIP-2, Florence-2 : génération de descriptions, réponse à des questions sur des images).
Pour qui. Équipes qui veulent exploiter des modèles fondationnels pré-entraînés sur des milliards d'images, sans disposer de grandes quantités de données annotées. Cas d'usage mixtes vision et texte : lire une étiquette et la classer, décrire automatiquement un défaut pour un rapport, rechercher des images dans une base par description.
Forces. Accès à des modèles fondationnels très puissants en quelques lignes de code. Hub Hugging Face : des milliers de modèles fine-tunés sur des domaines spécifiques (médical, satellite, industriel). Pipeline API simple. Fine-tuning avec Hugging Face Trainer ou PEFT (LoRA, QLoRA) pour adapter un modèle à votre domaine avec peu de données.
Limites. Les Vision Transformers sont plus lourds que les CNN pour une précision comparable sur des datasets petits. Temps d'inférence plus élevé que YOLO pour la détection temps réel. L'export vers des formats edge (TensorRT, ONNX quantifié) demande plus de travail. L'écosystème évolue vite, la compatibilité entre versions n'est pas toujours garantie.
8. Supervision de Roboflow, la plomberie du pipeline computer vision
Supervision est une librairie Python open source de Roboflow qui ne propose pas de modèles propres. Elle fournit des utilitaires de post-traitement agnostiques au modèle : annotation visuelle des résultats (bounding boxes, masques, keypoints), tracking d'objets entre frames (ByteTrack, SORT), comptage d'objets dans des zones définies (polygones, lignes), filtrage de détections par confiance ou région, et sauvegarde de résultats annotés.
Ce que ça couvre. Post-traitement des sorties de n'importe quel modèle (YOLO, SAM, Detectron2, Hugging Face). Construction rapide de pipelines complets avec tracking, comptage et visualisation. Intégration native avec les API Roboflow Universe pour charger des datasets annotés.
Pour qui. Équipes qui veulent éviter de réécrire la plomberie standard à chaque projet : affichage des résultats, tracking multi-objets, comptage par zone, enregistrement vidéo annoté. Applications de comptage (personnes, véhicules, pièces sur convoyeur) qui nécessitent du tracking entre frames.
Forces. Licence MIT, usage commercial libre. S'intègre avec YOLO en quelques lignes. Tracking ByteTrack intégré sans configuration complexe. API intuitive et bien documentée. Mise à jour active par l'équipe Roboflow.
Limites. Pas un framework de modèles : ne remplace pas YOLO ou SAM, ne fait que les compléter. Les capacités de tracking restent limitées aux cas standards (scènes peu denses, objets distincts). Pour des cas de tracking très exigeants (foules denses, occlusions fréquentes), des frameworks spécialisés comme StrongSORT ou OC-SORT offrent plus de paramétrage.
Tableau comparatif des librairies de computer vision
Comparatif : 8 librairies computer vision pour l'industrie et la PME
| Librairie | Tâches | Temps réel | Edge | Données requises | Licence |
|---|---|---|---|---|---|
| YOLO (Ultralytics) | Détection, segmentation, classification, pose | Oui | Oui (ONNX, TRT) | 200 à 500 images | AGPL-3.0 / com. |
| OpenCV | Prétraitement, flux vidéo, traitement classique | Oui | Oui | Aucune | Apache 2.0 |
| Detectron2 | Détection, segmentation instance et panoptique | Partiel | Difficile | 1 000 à 5 000 images | Apache 2.0 |
| MMDetection | Détection, segmentation (100+ architectures) | Selon archi | Complexe | 1 000 à 5 000 images | Apache 2.0 |
| timm | Classification uniquement | Non natif | ONNX possible | 100 à 500 images | Apache 2.0 |
| SAM / SAM 2 | Segmentation zero-shot, vidéo | Non | GPU requis | Aucune (zero-shot) | Apache 2.0 |
| HF Transformers | Classification, détection, vision-langage | Non | Difficile | Zero-shot ou fine-tuning | Apache 2.0 |
| Supervision | Post-traitement, tracking, comptage | Oui | Oui | Aucune (post-traitement) | MIT |
Comment choisir selon votre cas d'usage concret
Trois cas reviennent fréquemment dans les projets PME et industrie. Voici la combinaison recommandée pour chacun.
Contrôle qualité sur ligne de production. Le besoin est de détecter et localiser des défauts en temps réel sur un convoyeur ou une presse. Commencez par YOLOv8 ou YOLOv11 en mode détection avec des images collectées sur la ligne réelle. Si la nature exacte du défaut doit être mesurée (surface, forme, contour), combinez avec SAM pour la segmentation fine. OpenCV gère la capture caméra et le prétraitement. Supervision vous permet d'ajouter le comptage de défauts par lot sans réécrire le pipeline.
Comptage et surveillance périmétrique. Comptage de personnes, véhicules, palettes ou pièces dans une zone définie, avec tracking entre frames. YOLO pour la détection, Supervision avec ByteTrack pour le tracking, définition de zones d'intérêt avec les polygones Supervision. OpenCV pour la capture et l'enregistrement vidéo.
Tri automatique et reconnaissance de catégories. Classification d'images dans des catégories métier : tri de pièces par référence, reconnaissance de documents entrants par type, classification de lots par aspect visuel. timm avec un backbone EfficientNetV2 ou ConvNeXt est la solution la plus directe si les catégories sont fixes. Si les catégories évoluent souvent ou si vous avez très peu d'images, CLIP via Hugging Face Transformers permet une classification zero-shot ou few-shot.
Point de vue terrain
"Dans les projets computer vision que nous cadrons avec des industriels et des PME, le choix de la librairie est rarement le premier sujet. Ce qui détermine si un projet aboutit, c'est la qualité et la représentativité des images collectées en conditions réelles. Un modèle YOLO entraîné sur des images d'atelier avec l'éclairage et les angles réels surpassera toujours un modèle plus sophistiqué entraîné sur des images de labo. L'investissement en collecte et annotation de données vaut toujours plus que l'investissement en architecture."
Anas Rabhi, ingénieur IA et data scientist, fondateur de Tensoria
Pour les cas où votre besoin dépasse la détection standard et implique de l'analyse d'anomalie visuelle intégrée à un processus de production, notre page sur la vision par ordinateur et l'IA prédictive pour l'industrie décrit comment nous cadrons et déployons ces projets. Vous trouverez également des cas concrets dans notre article sur la détection d'anomalies et le contrôle qualité par vision IA en industrie.