Quelles données publiques peut-on collecter légalement sur des concurrents ?

Tout ce qui est accessible publiquement sur un site web est légalement collectible : pages produit, grilles tarifaires affichées, articles de blog, communiqués de presse, offres d'emploi, avis clients publics (Google, Trustpilot), contenus réseaux sociaux publics. En revanche, il est interdit de contourner des mécanismes de protection (login, CAPTCHA, robots.txt explicitement restrictif) ou de recollectes de données personnelles. La CNIL et le RGPD s'appliquent dès lors que des données personnelles sont impliquées.

Agent IA n8n pour automatiser un audit concurrentiel

Un directeur associé d'un cabinet de conseil en stratégie nous a soumis ce problème : "On fait des audits concurrentiels pour nos clients deux fois par an. Chaque fois, c'est trois semaines de travail pour un consultant junior. On voudrait produire la même chose en continu, automatiquement."

C'est précisément ce que permet un agent IA d'audit concurrentiel bien conçu. Pas une magie qui remplace les analystes, mais une infrastructure qui automatise la collecte, la structuration et une première couche d'analyse, pour que l'humain ne s'occupe plus que de l'essentiel : l'interprétation stratégique et la recommandation.

Chez Tensoria, nous avons construit et déployé ce type d'agent pour des équipes stratégie, des cabinets de conseil et des directions marketing. Dans cet article, nous détaillons l'architecture complète : stack technique, étapes du workflow, coûts réels, et comment en faire un livrable récurrent vendable. Si vous débutez avec n8n, commencez par notre guide n8n pour les PME avant de revenir ici.

Pourquoi l'audit concurrentiel "fait main" devient un problème

La veille concurrentielle manuelle souffre de trois défauts structurels que l'IA résout directement.

Le problème de la fréquence. Un audit traditionnel se réalise deux à quatre fois par an. Entre deux cycles, un concurrent peut lancer une nouvelle offre, réviser ses tarifs ou changer de positionnement. Vous l'apprenez avec six mois de retard. Dans des marchés qui bougent vite, c'est un luxe coûteux.

Le problème du volume. Un analyste senior peut surveiller sérieusement cinq à huit concurrents en parallèle. Au-delà, la qualité chute. Un agent IA surveille vingt concurrents avec la même rigueur, sans fatigue et sans oubli.

Le problème du format. Les données collectées manuellement finissent souvent dans des tableurs non standardisés que chaque consultant remplit à sa façon. Le résultat : impossible de comparer l'édition de mars avec celle de septembre. Un agent produit un livrable structuré identique à chaque cycle, dans le même format, avec la même profondeur.

Ce que l'automatisation concurrentielle via IA apporte : une surveillance continue, standardisée, et suffisamment structurée pour que l'analyste stratégique puisse se concentrer sur les insights plutôt que sur la collecte.

Ce que l'agent fait réellement

✓ Identifier automatiquement les concurrents à partir d'un nom d'entreprise
✓ Crawler les sites (pages produit, pricing, blog, landing pages) à intervalles réguliers
✓ Collecter les actualités et signaux faibles via des APIs de recherche
✓ Structurer une analyse positionnement, prix et SWOT via Claude
✓ Livrer un rapport mis à jour dans Google Docs ou Notion
✓ Alerter en temps réel sur Slack ou email en cas de changement significatif

Ce qu'un agent IA fait vraiment, et ce qu'il ne fait pas

Avant de construire quoi que ce soit, un cadrage honnête s'impose. Les posts LinkedIn sur ce sujet ont tendance à survendre.

Ce que l'agent fait bien

La collecte structurée à grande échelle. En deux heures, l'agent crawle vingt sites concurrents, extrait les pages produit, les grilles tarifaires, les derniers articles de blog et les offres d'emploi. Ce travail prendrait deux à trois jours à un consultant junior.

La veille d'actualité en temps réel. Via Perplexity API ou Tavily, l'agent interroge le web en continu et remonte les mentions, les levées de fonds, les communiqués de presse et les lancements produit des concurrents ciblés.

La structuration et la synthèse. Claude reçoit les données brutes et produit un document structuré : positionnement perçu, arguments de vente principaux, évolution des prix, points forts et faiblesses apparents. En dix minutes, là où un analyste prendrait deux heures.

Ce que l'agent ne fait pas

Il ne remplace pas l'intelligence terrain. Les conversations clients, les retours d'appels de vente, les rumeurs de marché, les signaux issus des réseaux professionnels : tout cela échappe à l'agent. Les données publiques sont une fraction de la réalité concurrentielle.

Il ne fait pas de jugement stratégique. L'agent peut identifier qu'un concurrent a réduit ses prix de 15 %. Il ne peut pas vous dire si c'est un signal de fragilité ou une offensive commerciale agressive. Cette lecture reste humaine.

Il peut se tromper. Les LLMs peuvent mal interpréter une page ambiguë ou extrapoler à partir de données incomplètes. Tout document destiné à un client ou à une prise de décision importante doit passer par une relecture humaine.

C'est exactement la distinction que nous faisons entre un agent IA et un simple chatbot : l'agent agit sur des données réelles, ce qui amplifie à la fois sa valeur et ses risques potentiels.

Architecture du workflow n8n

Le workflow complet s'articule en cinq étapes enchaînées. Voici comment elles s'articulent avant d'entrer dans le détail de chacune.

Étape	Outil	Sortie	Durée typique
1. Identification concurrents	Perplexity API + Claude	Liste structurée de 5 à 20 concurrents avec URLs	3 à 8 min
2. Crawl ciblé	Firecrawl ou Apify	Contenu structuré des pages clés	15 à 45 min
3. Actualités et signaux	Perplexity API ou Tavily	Événements récents sourcés	5 à 10 min
4. Analyse structurée	Claude (Anthropic)	SWOT, positionnement, écarts, prix	5 à 15 min
5. Livrable et alertes	Google Docs, Notion, Slack	Rapport mis à jour + notification	2 à 5 min

Le déclencheur peut être planifié (chaque lundi à 6h pour un briefing en début de semaine), déclenché manuellement (un consultant saisit le nom d'une entreprise cible dans un formulaire) ou déclenché par événement (une alerte Google Monitoring détecte un changement de page). Pour les architectures d'agents n8n en production, les patterns fiables que nous avons documentés s'appliquent pleinement ici.

Étape 1 : identification automatique des concurrents

Le workflow commence avec une seule entrée : le nom d'une entreprise cible (ou un secteur d'activité). À partir de là, l'agent doit constituer une liste de concurrents pertinents avec leurs URLs.

Comment ça fonctionne dans n8n. Un nœud Perplexity API reçoit un prompt structuré du type :

"Identifie les 10 principaux concurrents directs de [Nom entreprise] en France. Pour chaque concurrent, fournis le nom, le site web principal, et le positionnement marché en une phrase. Retourne uniquement les données au format JSON."

Perplexity répond avec une liste structurée et sourcée. Claude valide ensuite la liste et élimine les faux positifs (partenaires confondus avec des concurrents, entreprises hors périmètre géographique).

Pourquoi Perplexity plutôt qu'une simple recherche Google ? Perplexity interroge le web en temps réel et fournit des réponses sourcées avec les URLs exactes. Il identifie des concurrents récents, des entrants nouveaux sur le marché, que les bases de données statiques ne connaissent pas encore. L'API Perplexity est disponible avec des modèles adaptés à la recherche structurée.

Le résultat de cette étape : une liste JSON de 5 à 20 concurrents avec nom, URL principale, et description courte. Cette liste alimente l'étape suivante.

Piège à éviter

Ne laissez pas l'agent décider seul de la liste finale des concurrents à surveiller. Sur la première exécution, faites valider la liste par un humain avant de lancer le crawl. Une fois la liste validée, elle peut être stockée dans un nœud Google Sheets et réutilisée à chaque cycle sans re-validation.

Étape 2 : crawl ciblé des sites concurrents

C'est l'étape la plus technique et la plus coûteuse en temps de calcul. Pour chaque concurrent de la liste, l'agent va extraire le contenu des pages les plus stratégiques.

Quelles pages crawler en priorité. Toutes les pages ne se valent pas. L'ordre de priorité que nous appliquons :

Pages produit et services (positionnement, arguments de vente, fonctionnalités)
Page pricing ou tarifs (si publique, ce qui est souvent le cas en SaaS)
Page "À propos" et équipe (culture, taille, financement)
Les 5 derniers articles de blog (sujets prioritaires, angle éditorial)
Page carrières et offres d'emploi (signaux sur les axes de développement)

Firecrawl vs Apify : le bon choix selon le contexte. Firecrawl est plus simple à intégrer dans n8n (API REST directe) et produit du contenu propre en Markdown, prêt à être injecté dans un LLM. Apify est plus puissant pour les sites complexes (SPAs React, sites avec JavaScript intensif, e-commerce avec pagination) mais demande davantage de configuration. Pour 80 % des cas d'usage concurrentiels, Firecrawl suffit.

Dans n8n, le workflow utilise un nœud HTTP Request vers l'API Firecrawl pour chaque URL, avec les paramètres onlyMainContent: true et un format de retour Markdown. Le résultat est stocké temporairement dans des variables de workflow pour être transmis à l'étape d'analyse.

Gestion des sites protégés. Certains sites bloquent les scrapers (Cloudflare, rate limiting). L'agent doit gérer ces cas sans planter : délai entre les requêtes (1 à 3 secondes), rotation des User-Agents, et surtout une gestion d'erreur explicite qui signale les URLs inaccessibles au lieu de laisser l'agent tourner en boucle. Pour les considérations légales, nous scraperions uniquement les données publiquement accessibles, dans le respect du robots.txt et du RGPD.

Étape 3 : recherche d'actualités et signaux faibles

Le crawl des sites captures l'état statique d'un concurrent. Il faut compléter avec la dimension temporelle : que s'est-il passé ces 30 derniers jours ?

Ce que recherche l'agent à cette étape. Pour chaque concurrent, des requêtes structurées sont envoyées à Perplexity API (ou Tavily selon vos préférences) :

Levées de fonds ou rachats récents
Lancements de produits ou fonctionnalités annoncées
Recrutements clés (nouveau CTO, nouveau directeur commercial)
Articles de presse et mentions médias
Avis clients récents (Trustpilot, G2, Capterra)
Participations à des événements ou conférences

Tavily vs Perplexity API. Tavily est conçu spécifiquement pour alimenter des agents IA en données de recherche web. Il retourne des résultats sous forme structurée avec scores de pertinence, ce qui facilite le filtrage. Perplexity API est plus puissant pour les synthèses mais coûte plus cher à l'usage. En pratique, nous utilisons Tavily pour la collecte brute et Perplexity pour les questions d'interprétation plus complexes.

Ces signaux faibles sont souvent les données les plus précieuses du rapport. Un concurrent qui recrute massivement en développement produit prépare probablement un lancement. Un concurrent qui ne publie plus depuis six semaines traverse peut-être une période de difficulté interne.

Étape 4 : analyse structurée avec Claude

C'est l'étape centrale de valeur ajoutée. Claude reçoit l'ensemble des données collectées aux étapes 2 et 3, et produit un document structuré d'analyse.

Ce que Claude génère. Le prompt système définit précisément le livrable attendu :

Fiche de positionnement : proposition de valeur principale, segment cible, angle différenciant
Analyse tarifaire : structure de prix, niveau par rapport au marché, éventuelles promotions détectées
SWOT perçu : forces et faiblesses apparentes sur la base des données publiques
Écarts de fonctionnalités : ce que le concurrent propose que vous ne proposez pas, et inversement
Signaux d'alerte : changements récents à surveiller (nouveau produit, changement de pricing, actualité significative)
Score de maturité digitale : qualité du site, présence SEO, activité blog et réseaux sociaux

Pourquoi Claude plutôt qu'un autre modèle pour cette étape. L'analyse concurrentielle implique des documents longs (le contenu crawlé peut représenter 20 000 à 50 000 tokens), des raisonnements nuancés et une structuration précise du livrable. Claude Sonnet 4 gère très bien ces longues fenêtres de contexte et produit des sorties structurées fiables. Pour les analyses de routine avec moins de données, Claude Haiku suffit et réduit les coûts de 90 %.

La règle d'or du prompt pour l'analyse

Le prompt doit toujours demander à Claude de citer explicitement ses sources pour chaque affirmation factuelle. "D'après la page pricing de [concurrent] consultée le [date]..." est infiniment plus utile qu'une affirmation non sourcée. Cela permet une validation humaine rapide et évite les hallucinations non détectées.

Ajoutez également une instruction du type : "Si l'information n'est pas présente dans les données fournies, indique 'Non disponible dans les sources collectées' plutôt que d'extrapoler." Cette instruction réduit drastiquement les fausses informations dans le rapport final.

Étape 5 : livrable client dans Google Docs ou Notion

L'analyse de Claude doit se transformer en un document exploitable, partageable et archivé. C'est l'étape qui donne à ce workflow sa valeur de produit fini.

Option Google Docs. Via l'API Google Docs (nœud natif dans n8n), l'agent crée automatiquement un document dans un dossier Drive partagé. La structure du document suit un template prédéfini : page de garde avec date et périmètre, résumé exécutif (une page), fiches détaillées par concurrent, synthèse SWOT comparative, et une section "Signaux à surveiller" mise en avant.

Option Notion. Notion offre plus de flexibilité pour les équipes qui travaillent déjà dans cet outil. Chaque concurrent devient une entrée dans une base de données Notion, avec des propriétés structurées (score, date de mise à jour, niveau de menace perçu) et le rapport complet dans le corps de la page. L'avantage : la base de données permet de filtrer, trier et comparer les concurrents sur plusieurs axes.

Les alertes Slack ou email. En parallèle du rapport complet, l'agent envoie un résumé de deux à trois paragraphes sur Slack (ou par email) avec les nouveautés clés de la semaine. C'est ce résumé que la plupart des dirigeants lisent réellement. Le rapport complet sert d'archive de référence.

Cette architecture de livrable s'inscrit dans notre approche plus large de génération de rapports automatisés par IA, où le format de sortie est aussi important que la qualité de l'analyse.

Cas d'usage cabinet de conseil : transformer cet agent en livrable récurrent

C'est l'application la plus intéressante sur le plan commercial. Un cabinet de conseil en stratégie peut construire cet agent une fois et le monétiser auprès de nombreux clients différents.

Le modèle économique concret

Coût de production réel par client par mois :

APIs (Firecrawl + Perplexity + Claude) : 80 à 150 euros selon le volume
Hébergement n8n : 5 à 15 euros (mutualisable entre clients)
Supervision et maintenance : 30 à 60 minutes par mois
Total : 100 à 200 euros par client par mois

Prix de vente typique :

Rapport mensuel (10 concurrents, mise à jour mensuelle) : 800 à 1 500 euros
Rapport hebdomadaire avec alertes temps réel : 2 000 à 3 500 euros
Configuration initiale et paramétrage (one-shot) : 1 500 à 3 000 euros

La marge brute sur ce type de service dépasse souvent 80 %, ce qui en fait l'un des produits les plus rentables qu'un cabinet de conseil peut proposer en 2026.

Ce qui différencie ce service d'un rapport statique

La proposition de valeur ne repose pas sur "nous utilisons l'IA". Elle repose sur la fraîcheur et la régularité. Un concurrent lance une nouvelle offre le 15 du mois : votre client le sait le 16. Un concurrent change sa grille tarifaire : votre client le voit dans son rapport de la semaine suivante. C'est fondamentalement différent d'un audit réalisé deux fois par an.

Pour les entreprises qui cherchent à mesurer le retour sur investissement de ce type d'outil, notre article sur le ROI des projets IA propose une méthode concrète d'évaluation.

Comment présenter ce service à des clients

Deux angles fonctionnent bien selon notre expérience :

Pour les dirigeants PME : "Vous recevez chaque lundi matin un rapport de deux pages sur ce que font vos cinq principaux concurrents. Qui a changé ses prix, qui a lancé un nouveau produit, qui recrute. En cinq minutes de lecture, vous êtes au courant de tout ce qui a bougé."

Pour les équipes stratégie et marketing : "Nous automatisons le travail de veille qui mobilise actuellement 30 % du temps de vos analystes. Ils peuvent se concentrer sur l'interprétation et les recommandations. Le travail de collecte et de structuration est fait automatiquement."

Coûts réels de la stack et choix techniques

Voici les fourchettes réelles que nous observons, pour un agent surveillant 10 concurrents avec un cycle hebdomadaire.

Outil	Coût mensuel	Alternative
Firecrawl (scraping)	50 à 100 €	Apify (plus puissant, plus cher) ou ScrapingBee
Perplexity API	20 à 50 €	Tavily (moins cher, moins puissant) ou Exa.ai
Claude API (Anthropic)	20 à 80 €	GPT-4o (comparable) ou Mistral Large (moins cher)
n8n (hébergement)	24 à 50 €	Auto-hébergement à 5-15 €/mois si compétences techniques
Total	115 à 280 €/mois	Variable selon la fréquence et le nombre de concurrents

Pour des budgets plus contraints, un cycle mensuel (au lieu de hebdomadaire) divise les coûts d'API par quatre. Un cycle trimestriel revient à moins de 50 euros par trimestre. C'est le levier le plus efficace sur les coûts. Pour une estimation plus détaillée des budgets de projets n8n, notre article sur le coût d'un projet n8n en 2026 donne des repères complets.

Limites honnêtes à connaître avant de se lancer

Un article sérieux sur ce sujet ne peut pas faire l'impasse sur les limites. Elles sont réelles et conditionnent ce qu'on peut promettre aux clients ou aux équipes internes.

Les données publiques sont incomplètes par nature

Un concurrent peut publier des prix d'appel sur son site et pratiquer des tarifs très différents en négociation directe. Ses marges, sa structure de coûts, ses difficultés internes, ses décisions stratégiques non annoncées : tout cela reste invisible pour l'agent. La veille automatisée sur données publiques est un premier niveau d'information, pas une radiographie complète.

Les biais des LLMs sur l'analyse SWOT

Claude peut formuler une analyse SWOT cohérente et bien rédigée à partir de données insuffisantes. Le risque : une analyse qui "sonne juste" mais repose sur des extrapolations non vérifiées. Le garde-fou est simple : exiger dans le prompt que chaque point du SWOT soit explicitement relié à une donnée source identifiée. Si la donnée n'existe pas, le point est retiré de l'analyse.

La qualité du scraping varie selon les sites

Un site bien structuré avec du contenu statique se crawle très proprement. Un site React avec contenu chargé en JavaScript dynamique, un site protégé par Cloudflare, ou un site qui change fréquemment sa structure HTML : le scraping devient aléatoire. Dans nos déploiements, environ 15 à 20 % des URLs crawlées produisent des données dégradées à chaque cycle. L'agent doit signaler ces cas explicitement plutôt que de les ignorer silencieusement. C'est l'un des pièges de production que nous avons documentés dans notre retour d'expérience sur les agents IA n8n en production.

La maintenance est continue

Les sites concurrents changent leur structure. Les APIs ont des évolutions de version. Les prompts doivent être ajustés quand la qualité des sorties dérive. Comptez une à deux heures de supervision mensuelle minimum pour maintenir un agent de ce type en bon état de fonctionnement. C'est peu, mais ce n'est pas zéro.

Questions fréquentes

Non, pas entièrement. Un agent IA traite uniquement les données publiques accessibles en ligne. Il ne capte pas les signaux issus de réseaux humains, d'entretiens clients ou de sources confidentielles. En revanche, il automatise 70 à 80 % du travail de collecte et de structuration, ce qui libère l'analyste pour l'interprétation stratégique à forte valeur ajoutée.

La stack typique combine : n8n pour l'orchestration du workflow, Firecrawl ou Apify pour le scraping structuré des sites concurrents (pages produit, pricing, blog), Perplexity API ou Tavily pour la recherche d'actualités et de signaux faibles, Claude (Anthropic) pour l'analyse structurée et la génération du SWOT, et Google Docs ou Notion pour la livraison du rapport. Des alertes Slack ou email complètent le dispositif.

Pour un agent tournant hebdomadairement sur 5 à 10 concurrents, comptez entre 80 et 250 euros par mois : Firecrawl (50 à 100 euros selon le volume de pages crawlées), Perplexity API (20 à 50 euros), Claude API (20 à 80 euros selon la profondeur des analyses), hébergement n8n (24 à 50 euros). Les coûts varient fortement selon la fréquence de mise à jour et le nombre de concurrents surveillés.

La fiabilité dépend de la qualité des sources publiques. Le scraping de pages produit et de grilles tarifaires est très fiable si les sites sont bien structurés. Les synthèses d'actualités via Perplexity sont sourcées et vérifiables. En revanche, l'analyse SWOT générée par Claude reste une interprétation : elle doit être relue par un humain avant toute prise de décision stratégique. L'agent produit un premier niveau d'analyse solide, pas une vérité absolue.

Oui, c'est précisément l'un des modèles les plus rentables pour les cabinets de conseil en stratégie. Un rapport d'audit concurrentiel automatisé mensuel se facture typiquement entre 500 et 2 000 euros par mois selon la profondeur et le nombre de concurrents. Le coût de production réel tourne autour de 100 à 300 euros. La marge est significative, et le livrable se distingue des rapports statiques par sa fraîcheur et sa régularité.

Tout ce qui est accessible publiquement sur un site web est légalement collectible : pages produit, grilles tarifaires affichées, articles de blog, communiqués de presse, offres d'emploi, avis clients publics. En revanche, il est interdit de contourner des mécanismes de protection (login, CAPTCHA, robots.txt explicitement restrictif) ou de recollectes de données personnelles. La CNIL et le RGPD s'appliquent dès lors que des données personnelles sont impliquées.

Construire cet agent pour votre entreprise ou vos clients

Tensoria conçoit et déploie cet agent pour vous, clé en main.

30 minutes pour cadrer votre périmètre concurrentiel et estimer le budget.

Réserver un appel gratuit

Pour aller plus loin

Agents IA n8n en production : retour d'expérience terrain sur les pièges, coûts et patterns fiables pour des déploiements durables.
Automatisation n8n et IA pour les PME : les bases de l'orchestration de workflows avant de construire des agents.
Automatiser la génération de rapports avec l'IA : structurer des livrables clients récurrents à partir de workflows automatisés.
5 workflows n8n et IA pour les PME : d'autres cas d'usage concrets pour commencer avant d'aborder les agents complexes.
Budget d'un projet n8n en 2026 : estimez le coût complet d'un agent, de la conception à la maintenance.
Mesurer le ROI de vos projets IA : comment quantifier la valeur d'un agent de veille auprès de vos équipes ou de vos clients.
Agents IA vs chatbots : comprendre pourquoi un agent qui agit sur des données réelles est fondamentalement différent d'un simple assistant conversationnel.
Nos services d'automatisation : découvrir comment Tensoria accompagne les PME et cabinets de conseil sur ce type de projet.
Agent IA pour répondre aux appels d'offres : combiner audit concurrentiel et RAG sur propales pour automatiser la pré-rédaction des dossiers AO, de l'analyse du DCE à la génération du brouillon Word.