Tensoria Réserver un créneau
Parlons de votre projet : 07 82 80 51 40
Automatisation Par Anas R.

Agent IA n8n pour générer une fiche entreprise

Qualifier 50 entreprises avant une campagne de prospection ou une réunion stratégique : combien de temps ça prend dans votre équipe aujourd'hui ? Sur le terrain, la réponse est presque toujours la même. Entre le site web à lire, la recherche sur Societe.com, la chasse aux contacts LinkedIn et la synthèse à rédiger, un commercial expérimenté passe 15 à 45 minutes par entreprise. Pour 50 cibles, c'est une à deux journées entières, avant même d'avoir décroché un téléphone.

Chez Tensoria, nous avons construit un agent IA avec n8n qui prend une URL en entrée et produit, en moins de deux minutes, une fiche entreprise structurée et exploitable : secteur, offre, taille, dirigeants, données légales, contacts décisionnels et signaux d'achat synthétisés par Claude. Ce n'est pas un scraper basique. C'est un pipeline d'enrichissement en cinq étapes qui combine des données publiques, des API métier et un LLM pour raisonner sur ce qu'il a collecté.

Cet article décrit l'architecture complète, étape par étape, avec les outils, les choix techniques et les limites réelles. Il s'adresse aux équipes commerciales, aux cabinets de conseil et aux agences qui veulent qualifier en volume sans sacrifier la qualité d'analyse. Si vous n'avez jamais travaillé avec n8n, notre guide d'introduction à n8n et l'IA pour les PME pose les bases nécessaires avant de plonger dans cet article.

Le problème : la qualification manuelle d'entreprises est un gouffre de temps

Avant de vendre à une entreprise, il faut la comprendre. Son secteur, sa taille, ce qu'elle vend, à qui, avec quels signaux qui indiquent qu'elle pourrait être intéressée par votre offre. Ce travail de qualification est indispensable. Il est aussi chronophage, répétitif et peu valorisant pour les commerciaux ou consultants qui le font.

En pratique, une qualification correcte d'une cible B2B comprend :

  • La lecture du site web (page d'accueil, à propos, services ou produits)
  • La vérification des données légales : SIREN, effectif, chiffre d'affaires, dirigeant, forme juridique
  • La recherche des contacts décisionnels (DG, DAF, DSI, responsable achat selon le cas)
  • La synthèse en un format utilisable pour préparer un appel ou personnaliser un email

Ce travail est parfaitement adapté à une automatisation IA. Il suit un schéma prévisible, des sources identifiables, et le résultat attendu est toujours le même. C'est exactement la définition d'un processus automatisable avec un bon workflow et un LLM.

Ce que l'agent produit

En moins de 2 minutes par URL, l'agent génère une fiche structurée contenant : secteur d'activité, description de l'offre, taille estimée (effectif + CA), dirigeants, contacts décisionnels, ICP probable et deux à trois signaux d'achat contextuels.

Ce qu'on veut extraire : la structure type d'une fiche utile

Avant de construire l'agent, il faut définir précisément ce que la fiche doit contenir. Une fiche trop courte n'apporte rien. Une fiche trop longue ne se lit pas. En croisant les besoins d'une vingtaine de missions chez Tensoria, voici la structure qui revient systématiquement.

Bloc Données extraites Source principale
Identité légale SIREN, forme juridique, date de création, siège Pappers API
Taille et santé Effectif, chiffre d'affaires, résultat net, évolution Pappers API
Offre et positionnement Secteur, produits/services, cible client, différenciation Firecrawl + Claude
Dirigeants Nom, titre, ancienneté dans le poste Pappers API + site web
Contacts décisionnels Prénom, nom, poste, email pro, LinkedIn Apollo / Dropcontact
ICP et signaux Profil client idéal probable, 2-3 signaux d'achat contextuels Claude (synthèse)

Ce format est directement exploitable pour préparer un appel, écrire un email personnalisé ou alimenter une fiche CRM. Il peut être produit en JSON pour une intégration automatique, ou en texte structuré pour un usage humain direct.

Architecture du workflow n8n

Le workflow se compose de cinq étapes séquentielles. Chaque étape enrichit la fiche, et les données de chaque étape sont disponibles pour les suivantes. L'agent n'est pas ici un agent au sens autonome du terme : c'est un pipeline déterministe, où chaque nœud remplit une fonction précise. Ce choix est délibéré et expliqué dans la section sur les limites.

Stack technique

n8n (orchestration) + Firecrawl (crawl du site) + Pappers API (données légales françaises) + Apollo ou Dropcontact (contacts décisionnels) + Claude Sonnet (synthèse et raisonnement) + Airtable ou Google Sheets (stockage de la fiche)

Le déclencheur peut être de plusieurs natures : un webhook (vous envoyez une URL depuis votre CRM), un formulaire n8n (un commercial saisit une URL manuellement), ou un nœud Google Sheets (traitement en batch d'une liste d'URLs). L'ensemble du traitement est asynchrone : le commercial n'attend pas, il reçoit la fiche par email ou notification Slack quand elle est prête.

Étape 1 : crawl du site avec Firecrawl

La première étape consiste à lire le site web de l'entreprise et à en extraire le contenu texte utile. Un simple nœud HTTP Request vers le site ne suffit pas pour les sites modernes : le rendu JavaScript, les menus dynamiques et les sous-pages doivent être gérés. C'est le rôle de Firecrawl.

Pourquoi Firecrawl plutôt qu'un nœud HTTP classique ?

Firecrawl utilise un navigateur headless pour rendre la page comme un vrai navigateur. Il gère le JavaScript, les redirections et retourne le contenu en Markdown propre, sans les balises HTML. Ce format est nettement plus économique en tokens pour Claude, et beaucoup plus facile à analyser.

Dans n8n, l'intégration se fait via le nœud HTTP Request vers l'API Firecrawl :

  • Endpoint : https://api.firecrawl.dev/v1/scrape
  • Pages ciblées : la page d'accueil, /about, /services, /equipe ou /team
  • Format de sortie : Markdown (moins de tokens, meilleure lisibilité pour le LLM)
  • Option waitFor : 1 500 ms pour les sites à chargement lent

La stratégie de ciblage des pages est importante. On ne crawle pas tout le site (trop de bruit, trop de coût), mais les 3 à 5 pages qui contiennent l'essentiel : l'accueil pour l'accroche et le positionnement, la page "à propos" pour l'histoire et les valeurs, la page services/produits pour l'offre. Si une page n'existe pas (URL 404), le nœud le gère proprement avec un fallback sur la page d'accueil seule.

Ce qu'on récupère à cette étape

Un bloc de texte Markdown de 1 000 à 8 000 mots selon la richesse du site. Ce texte brut sera transmis à Claude à l'étape 4 pour en extraire les informations structurées.

Étape 2 : enrichissement légal avec Pappers

Le contenu du site donne l'image que l'entreprise veut donner d'elle-même. Les données légales donnent les faits : taille réelle, santé financière, qui dirige vraiment. Ces deux sources sont complémentaires.

Pourquoi Pappers plutôt que Societe.com ?

Pappers est l'API de référence pour les données légales des entreprises françaises. Elle agrège les données du Registre du Commerce, du BODACC et des greffes. Son avantage sur Societe.com : elle dispose d'une API officielle, bien documentée, avec une offre gratuite utilisable en production (100 appels par jour). Pour des volumes plus importants, les plans payants sont très abordables.

L'appel API dans n8n se fait avec le nom de l'entreprise ou, mieux, son nom de domaine. Pappers retourne en JSON :

  • SIREN et SIRET du siège
  • Forme juridique et capital social
  • Date de création
  • Code NAF et libellé d'activité
  • Effectif déclaré (tranche)
  • Chiffre d'affaires et résultat net (dernier exercice déposé)
  • Dirigeants : nom, prénom, qualité, date de prise de fonction
  • Établissements secondaires

Un nœud Set dans n8n restructure ces données au format attendu par la fiche finale, en gérant les cas où certains champs sont absents (société qui ne dépose pas ses comptes, données manquantes, etc.).

Astuce d'implémentation

Pour trouver le SIREN à partir d'un nom de domaine, utilisez l'endpoint de recherche Pappers avec le paramètre q (nom de l'entreprise extrait du domaine). Dans 80 % des cas, la première occurrence est la bonne. Pour les 20 % restants (noms génériques ou homonymes), Claude peut aider à choisir la bonne entité en comparant avec le contenu du site crawlé.

Étape 3 : extraction des contacts décisionnels

Connaître l'entreprise ne suffit pas. Il faut savoir à qui parler. Cette étape est la plus sensible sur le plan RGPD et la plus variable en termes de résultats.

Apollo ou Dropcontact : lequel choisir ?

Apollo.io dispose d'une base mondiale de plus de 275 millions de contacts professionnels. Il excelle sur les entreprises internationales et les profils anglophones. Son API permet de chercher des contacts par domaine, titre de poste et autres filtres.

Dropcontact est une alternative française, conforme RGPD by design, spécialisée dans la vérification et l'enrichissement d'emails professionnels. Elle fonctionne particulièrement bien sur le tissu PME français, avec une vérification en temps réel de la délivrabilité des adresses.

En pratique, nous utilisons les deux en cascade dans le workflow : Apollo en premier pour le volume, Dropcontact en vérification si Apollo ne retourne pas d'email valide. Le nœud n8n appelle l'API Apollo avec le domaine de l'entreprise et les titres de postes cibles (DG, CEO, DAF, DSI, Directeur Commercial) et retourne les 3 à 5 contacts les plus pertinents avec leur email et profil LinkedIn.

Pour les entreprises qui ne sont pas référencées dans Apollo (TPE, professions libérales, structures très locales), le workflow tombe en fallback sur les noms de dirigeants obtenus depuis Pappers, et Dropcontact tente de construire l'email professionnel par déduction à partir du prénom, nom et domaine.

Étape 4 : synthèse intelligente avec Claude

C'est l'étape qui fait la différence entre un simple scraper et un véritable agent d'analyse. Claude reçoit l'ensemble des données collectées aux étapes précédentes et produit une synthèse structurée et raisonnée.

Le prompt de synthèse

Le prompt est la clé de la qualité de sortie. Il doit être précis sur le format attendu, le niveau d'analyse demandé et les règles à respecter. Voici les instructions principales que nous utilisons :

  • Description de l'offre : en 2 à 3 phrases maximum, ce que l'entreprise vend, à qui, et ce qui la différencie selon son propre discours
  • ICP probable : le profil de client idéal de cette entreprise, en inférant depuis son offre et ses contenus (pas uniquement ce qu'elle déclare)
  • Signaux d'achat : 2 à 3 éléments contextuels qui indiquent une potentielle appétence pour votre offre (recrutement actif, nouvelles pages services, mention de transformation digitale, etc.)
  • Score de maturité : une estimation de la maturité digitale et décisionnelle de l'entreprise sur une échelle simple (faible, moyenne, élevée)
  • Commentaire de qualification : une phrase libre sur les points d'attention ou les opportunités spécifiques

Claude utilise le modèle claude-sonnet-4-20250514 pour cette synthèse. C'est le bon compromis entre qualité d'analyse et coût par appel. Les versions Haiku suffisent pour la classification simple, mais la richesse du raisonnement requis ici justifie Sonnet.

Exemple de sortie Claude

Offre : Cabinet de conseil en organisation spécialisé PME industrielles. Propose des diagnostics de performance opérationnelle et des plans de transformation sur 6 à 18 mois. Se différencie par une approche terrain (consultants ex-directeurs d'usine).

ICP probable : PME industrielles 50-250 salariés, direction générale en phase de structuration ou de passage de cap. Secteurs : métallurgie, plasturgie, agroalimentaire.

Signaux : Page "Recrutement" avec 3 postes ouverts (croissance), nouvelle offre "Performance durable" ajoutée récemment au catalogue, mention d'une démarche ISO 9001 en cours.

Étape 5 : sortie structurée vers Airtable, CRM ou JSON

La fiche produite doit atterrir quelque part d'utilisable. n8n permet de router la sortie vers plusieurs destinations selon le contexte.

Les destinations les plus fréquentes

Airtable est notre recommandation par défaut pour les équipes sans CRM structuré. Le nœud Airtable de n8n crée ou met à jour une fiche avec tous les champs remplis. L'interface Airtable permet ensuite de filtrer, trier et annoter les fiches facilement. Pour une équipe de 3 à 5 commerciaux, c'est souvent suffisant.

Google Sheets est l'option la plus légère. Idéale pour un usage ponctuel ou pour partager les fiches avec des parties prenantes qui n'ont pas accès à un CRM. Le nœud Spreadsheet de n8n ajoute une ligne par entreprise avec toutes les colonnes.

HubSpot, Salesforce, Pipedrive via les nœuds natifs n8n pour les équipes qui ont déjà un CRM. L'agent crée ou enrichit une fiche entreprise existante, en évitant les doublons via une vérification par domaine ou SIREN.

JSON brut via webhook pour les équipes techniques qui veulent intégrer les fiches dans leur propre outil ou pipeline de données. Le workflow expose un endpoint qui retourne la fiche au format JSON structuré.

Un nœud Send Email ou une notification Slack peut être ajouté pour alerter le commercial concerné dès que sa fiche est prête. En pratique, c'est l'ergonomie qui décide de l'adoption : si la fiche arrive dans l'outil que le commercial utilise déjà, le taux d'adoption est de 90 %. Si elle arrive dans un nouvel outil, il descend à 40 %.

Cas d'usage concrets : trois profils, trois façons d'utiliser l'agent

Commercial qui prépare sa semaine de prospection

Chaque lundi matin, le commercial dépose 20 à 30 URLs dans un Google Sheet partagé. Le workflow se déclenche automatiquement (cron hebdomadaire), traite chaque URL et remplit les fiches dans HubSpot avant 9h. Le commercial arrive avec ses fiches qualifiées, peut trier par score de maturité ou par secteur, et commence ses appels avec un contexte réel sur chaque cible.

Gain observé sur un cas client en cabinet de conseil à Toulouse : passage de 8 à 25 appels qualifiés par semaine sur le même temps disponible. Le ratio de prise de rendez-vous est passé de 4 % à 9 % grâce à la personnalisation rendue possible par la fiche.

Cabinet de conseil qui qualifie ses cibles avant une réponse à appel d'offres

Avant de répondre à un appel d'offres ou de proposer une mission, les consultants doivent comprendre l'entreprise cliente en profondeur. Dans les cabinets, ce travail de desk research prend 2 à 4 heures par dossier et mobilise souvent des juniors.

L'agent génère en 2 minutes une première couche d'information (légal, offre, dirigeants, positionnement) que le consultant enrichit ensuite avec sa connaissance sectorielle. Le travail de desk research passe de 4 heures à 45 minutes. L'énergie est concentrée sur l'analyse à valeur ajoutée, pas sur la collecte.

Agence web ou marketing qui évalue ses prospects entrants

Quand un formulaire de contact est soumis sur le site de l'agence, le workflow se déclenche automatiquement avec l'URL de l'entreprise du prospect (récupérée depuis l'email ou saisie dans le formulaire). En moins de 2 minutes, le commercial reçoit sur Slack une fiche de qualification : taille de l'entreprise, site actuel (analyse Firecrawl), budget probable, et recommandation d'angle d'accroche.

Cela permet de prioriser les leads entrants avant même le premier appel. Un prospect PME de 80 salariés avec un site de 2018 et un chiffre d'affaires en croissance n'a pas le même potentiel qu'une micro-entreprise d'un salarié. L'agent le signale immédiatement.

Limites à connaître avant de déployer

Ce workflow est puissant. Il a aussi des limites réelles, et les ignorer serait vous rendre un mauvais service.

Sites en JavaScript pur sans contenu accessible

Firecrawl gère le rendu JavaScript, mais certains sites chargent leurs données uniquement après une interaction utilisateur (scroll infini, boutons cliqués). Dans ces cas, le contenu retourné est minimal. Le workflow le détecte (moins de 200 mots retournés) et signale la donnée comme incomplète dans la fiche. Environ 5 à 8 % des sites cibles sont concernés.

Fraîcheur des données financières

Pappers agrège les comptes déposés au greffe. Le délai légal de dépôt est de 6 mois après la clôture de l'exercice. En pratique, beaucoup de sociétés déposent avec 9 à 18 mois de retard. Les données financières que vous voyez peuvent donc avoir 2 ans. Pour une analyse de tendance, c'est insuffisant. Pour une qualification de premier niveau (l'entreprise est-elle viable ? a-t-elle une taille minimale ?), c'est généralement suffisant.

Contacts non trouvés ou emails invalides

Apollo et Dropcontact ne couvrent pas toutes les entreprises françaises. Les TPE et les structures très locales (artisans, professions libérales, petites associations) sont souvent absentes ou peu renseignées. Dans ces cas, l'agent retourne les dirigeants Pappers mais sans email vérifié. Le taux de couverture est de 70 à 85 % sur des PME de plus de 10 salariés, et descend à 40 à 60 % sous ce seuil.

Raisonnement Claude sur des données incomplètes

Si les données d'entrée sont maigres (site pauvre, pas de page "à propos", données Pappers limitées), Claude synthétise ce qu'il a. Il ne hallucine pas sur des données métier si le prompt est bien cadré, mais la qualité de la fiche reflète directement la richesse des sources. Nous ajoutons systématiquement un champ "score de complétude des données" dans la fiche pour alerter l'utilisateur sur la fiabilité de la synthèse.

Règle de bon sens

Cet agent accélère la qualification, il ne la remplace pas. Les fiches produites sont un point de départ, pas une vérité absolue. Un commercial qui relit une fiche en 2 minutes et la complète par son intuition terrain reste indispensable. L'objectif est de lui économiser les 30 minutes de collecte, pas de remplacer son jugement.

Questions fréquentes

Entre 45 secondes et 2 minutes par entreprise selon la richesse du site web cible et la latence des API. Le crawl Firecrawl prend 10 à 30 secondes, l'appel Pappers est quasi instantané, et la synthèse Claude ajoute 5 à 15 secondes. À titre de comparaison, un commercial qui fait le même travail manuellement passe entre 15 et 45 minutes par entreprise.
L'agent traite uniquement des données publiques : contenu de sites web accessibles, registre du commerce (Pappers), annuaires professionnels. Les données personnelles de contacts issues d'Apollo ou Dropcontact doivent être utilisées dans le respect du RGPD et de la directive ePrivacy. En B2B, la prospection sur intérêt légitime est généralement admise, mais un avis juridique adapté à votre secteur est recommandé si vous constituez des bases de prospects à grande échelle.
Firecrawl gère le rendu JavaScript grâce à un navigateur headless intégré. Cela couvre la grande majorité des sites modernes. Les cas problématiques sont les sites protégés par un Captcha, les espaces clients nécessitant une authentification, ou les applications très dynamiques qui chargent leurs données uniquement après interaction utilisateur. Dans ces cas, Firecrawl retourne ce qu'il peut, et Claude le signale explicitement dans la fiche produite.
Oui. Dans n8n, il suffit d'ajouter un nœud de déclenchement qui lit un Google Sheet ou un fichier CSV, puis de connecter chaque ligne au workflow via un nœud Split In Batches. Pour éviter le rate limiting des APIs, un délai de 2 à 3 secondes entre chaque exécution est recommandé. 200 entreprises peuvent être traitées en 10 à 15 minutes de façon entièrement automatique.
Pappers agrège les données officielles du Registre du Commerce et du BODACC. Le SIREN, les dirigeants et la forme juridique sont très fiables. En revanche, l'effectif et le chiffre d'affaires peuvent avoir 12 à 18 mois de décalage, car ils dépendent du dépôt des comptes annuels. Pour les sociétés qui déposent en retard ou ne déposent pas (cas fréquent chez les SAS à associé unique), ces données seront absentes ou obsolètes.
Pour 500 fiches par mois, comptez entre 30 et 80 euros d'API (Firecrawl, Pappers, Claude, Apollo/Dropcontact). Auxquels s'ajoutent l'hébergement n8n (24 à 60 euros/mois en cloud) et le développement initial (3 à 8 jours selon la complexité de l'intégration CRM cible). Le ROI est généralement atteint dès le premier mois pour une équipe de 2 commerciaux ou plus.

Vous voulez déployer cet agent ?

Parlons de vos cibles, vos outils et votre CRM en 30 minutes.

Nous cadrons ensemble le workflow adapté à votre contexte et estimons le gain réel pour votre équipe.

Réserver un échange gratuit

Pour aller plus loin

Anas Rabhi, data scientist spécialisé en IA générative
Anas Rabhi Data Scientist & Fondateur de Tensoria

Je suis data scientist spécialisé en IA générative. J'aide les entreprises à économiser du temps grâce à des solutions d'IA sur mesure, adaptées à leur métier. Automatisation de tâches répétitives, assistants internes, traitement intelligent de documents : je conçois des outils qui s'intègrent dans vos processus existants et produisent des résultats concrets.