Tensoria Réserver un créneau
Parlons de votre projet : 07 82 80 51 40
Automatisation Par Anas R.

Agent IA n8n pour analyser vos appels commerciaux

Votre équipe commerciale utilise Modjo ou Gong depuis quelques mois. Les appels sont enregistrés, transcrits, résumés automatiquement. Et pourtant, les sales managers continuent de ne pas lire les comptes-rendus. Les objections les plus fréquentes ne remontent pas dans le CRM. Le budget évoqué par le prospect en appel ne se retrouve nulle part dans HubSpot.

Ce n'est pas un problème de discipline. C'est un problème d'architecture. Les features natives de Modjo et Gong produisent des résumés texte, pas des données structurées exploitables dans votre stack commerciale. Il manque le chaînon entre l'intelligence conversationnelle et l'action : mise à jour automatique du CRM, alerte Slack pour les appels prioritaires, capitalisation des meilleures pratiques pour le coaching.

Chez Tensoria, nous avons construit ce chaînon pour des équipes commerciales de PME et d'ETI. L'agent n8n que décrit cet article reçoit chaque transcript Modjo ou Gong, l'analyse avec Claude, extrait les données structurées pertinentes, met à jour le CRM et alerte les managers sur les appels qui méritent attention. Sans que personne n'ait à lire un compte-rendu.

Voici l'architecture complète, étape par étape, avec les coûts réels, le prompt d'extraction et les conditions pour que ça fonctionne en production. Si vous débutez avec n8n, notre guide n8n et IA pour les PME pose les fondamentaux avant de se lancer dans ce type d'agent.

Ce que couvre cet article

  • ✓ Pourquoi les features natives Modjo et Gong ne suffisent pas
  • ✓ Architecture complète du workflow n8n en 6 étapes
  • ✓ Le prompt Claude pour extraction structurée (objections, budget, next steps, scoring)
  • ✓ Mise à jour automatique CRM et alertes Slack
  • ✓ Capitalisation coaching dans Airtable
  • ✓ Cas concret PME : avant et après en chiffres
  • ✓ Coût réel par appel analysé et conditions de réussite

La frustration réelle : Modjo enregistre, personne ne lit

Les outils de conversation intelligence ont explosé ces trois dernières années. Modjo, Gong, Chorus, Aircall Analytics : la promesse est la même. Enregistrer 100 % des appels, les transcrire, les analyser, en extraire les signaux qui font gagner ou perdre les deals.

La réalité opérationnelle, c'est une autre histoire. Sur les équipes commerciales que nous accompagnons, le taux de lecture des comptes-rendus automatiques tourne autour de 15 à 25 %. Les managers consultent les résumés pour les gros comptes ou quand un deal décroche. Pour les 80 % d'appels restants, l'intelligence conversationnelle dort dans une interface que personne n'ouvre.

Les raisons sont prévisibles :

  • Le résumé n'est pas actionnable. Il décrit ce qui s'est dit, mais ne dit pas quoi faire ensuite. Le commercial doit encore décider lui-même des next steps.
  • Les données ne remontent pas dans le CRM. Le budget évoqué, le décideur identifié, l'objection principale : tout reste dans l'interface Modjo. Le CRM reste vide ou mis à jour manuellement, avec délai et perte d'information.
  • Aucune priorisation automatique. Tous les appels ont le même statut dans Modjo. Un manager n'a pas de signal pour savoir lesquels sont urgents à écouter.
  • Le coaching est artisanal. Identifier les bonnes pratiques des top performers et les partager demande un travail manuel de sélection et d'annotation que personne ne fait de façon systématique.

La question centrale

Ce n'est pas "comment convaincre l'équipe de lire les comptes-rendus". C'est "comment transformer automatiquement l'enregistrement en données actionnées dans votre stack, sans intervention humaine".

Ce qu'un agent IA dédié fait de plus que les features natives

Modjo et Gong sont excellents pour ce qu'ils font nativement : transcrire, résumer, identifier les thèmes abordés, mesurer le talk ratio. Là où ils s'arrêtent, c'est à la couche de données structurées métier et d'intégration dans votre stack commerciale.

Un agent n8n construit sur mesure ajoute ces couches :

Capacité Features natives Modjo/Gong Agent n8n + Claude
Résumé de l'appel Oui (texte libre) Oui (structuré selon vos champs)
Extraction budget mentionné Partiel (détection de mots-clés) Oui (valeur extraite et formatée)
Identification des décideurs Non Oui (noms, rôles, implications)
Extraction des objections Partiel (tags génériques) Oui (catégorisées et verbatim)
Scoring probabilité closing Non Oui (0 à 10 avec justification)
Mise à jour CRM automatique Limitée (intégrations natives) Oui (champs custom, n'importe quel CRM)
Alerte Slack manager Non (notifications génériques) Oui (uniquement appels prioritaires)
Base coaching structurée Non Oui (Airtable bonnes/mauvaises pratiques)

L'enjeu n'est pas de remplacer Modjo ou Gong : ces outils font très bien la couche de capture et de transcription. L'enjeu est de brancher un agent IA en aval, qui transforme le transcript en données structurées actionnées dans votre stack. Si vous vous interrogez sur le bon niveau d'automatisation pour votre équipe, notre article sur les agents IA n8n en production détaille les patterns fiables et les limites à anticiper. Pour comprendre quand un workflow déterministe suffit et quand un agent autonome devient nécessaire, notre grille de décision workflow vs agent IA dans n8n, quand utiliser quoi pose les fondations d'architecture utiles avant ce type de déploiement.

Architecture du workflow n8n en 6 étapes

Voici la structure complète de l'agent que nous déployons. Elle est conçue pour être progressive : vous pouvez mettre en production les 3 premières étapes en une semaine et ajouter les suivantes selon votre maturité.

Étape Outil Sortie
1. Déclenchement Webhook Modjo / Gong API / Aircall Transcript brut + métadonnées appel
2. Extraction structurée Claude Sonnet (Anthropic API) JSON : objections, budget, décideurs, next steps, timing
3. Scoring Claude (second appel ou même appel) Score 0-10, qualité appel, probabilité closing
4. Mise à jour CRM HubSpot / Pipedrive / Salesforce Champs custom remplis automatiquement
5. Alerte Slack Slack (nœud natif n8n) Message manager si score > seuil
6. Capitalisation coaching Airtable ou Notion Fiche bonnes/mauvaises pratiques

Étape 1 : récupérer les transcripts depuis Modjo ou Gong

C'est le point d'entrée du workflow. Deux modes de fonctionnement selon l'outil que vous utilisez.

Webhook Modjo : la voie directe

Modjo permet de configurer un webhook sortant qui se déclenche à chaque fin d'appel. Dans l'interface Modjo, sous Paramètres > Intégrations > Webhooks, vous définissez l'URL de votre instance n8n (https://votre-n8n.com/webhook/modjo-call-ended) et les événements à envoyer. Le payload contient le transcript formaté, les métadonnées de l'appel (durée, date, commercial associé, contact CRM si le mapping est configuré) et l'URL d'enregistrement.

Dans n8n, un nœud Webhook configuré en POST reçoit ce payload. Un nœud Set extrait ensuite les champs utiles : transcript, call_duration, rep_name, contact_email, deal_id si disponible. Ces données alimentent les étapes suivantes.

API polling pour Gong

Gong n'offre pas de webhook natif aussi simple. L'approche recommandée est un polling toutes les 15 à 30 minutes via l'API Gong. Dans n8n, un nœud Schedule Trigger déclenche un appel à l'endpoint GET /v2/calls avec un filtre sur les appels créés dans les dernières 30 minutes. Pour chaque nouvel appel, un second appel à GET /v2/calls/{id}/transcript récupère le transcript.

Ce double appel API a un coût en termes de rate limiting : Gong limite à 3 appels par seconde sur son API. En pratique, pour une équipe de 5 à 10 commerciaux, le polling toutes les 30 minutes reste largement dans les limites.

Alternative low-cost : Whisper pour les appels téléphoniques

Si votre équipe utilise Aircall sans module de transcription avancé, ou si vous voulez transcrire des appels depuis un enregistreur basique, Whisper d'OpenAI est une alternative économique. Le fichier audio de l'appel est récupéré (via Aircall webhook ou upload manuel), envoyé à l'API Whisper via un nœud HTTP Request dans n8n, et retourne un transcript texte pour environ 0,006 euro par minute d'audio. Un appel de 30 minutes coûte donc 0,18 euro à transcrire, sans abonnement Modjo ou Gong nécessaire.

Whisper supporte nativement le français avec une bonne précision sur les appels commerciaux standards. Sur les appels téléphoniques avec compression audio, prévoyez un taux d'erreur de 5 à 8 % sur les noms propres et les chiffres.

Étape 2 : extraction structurée avec Claude

C'est le cœur de l'agent. Claude reçoit le transcript brut et retourne un objet JSON structuré avec exactement les champs dont votre équipe a besoin. La différence avec un résumé texte libre : les données sont directement injectables dans votre CRM sans parsing supplémentaire.

Le prompt d'extraction (version production)

Voici le prompt que nous utilisons en production. Il est conçu pour retourner un JSON valide directement parseable par n8n :

Tu es un analyste commercial expert. Tu analyses des transcripts d'appels de vente B2B.

TRANSCRIPT DE L'APPEL :
"""

"""

MÉTADONNÉES :
- Commercial : 
- Durée :  minutes
- Prospect : , 

INSTRUCTIONS :
Analyse ce transcript et retourne UNIQUEMENT un objet JSON valide avec la structure suivante.
Si une information n'est pas mentionnée dans le transcript, utilise null.
Ne retourne rien d'autre que le JSON.

{
  "resume_executif": "2 à 3 phrases maximum résumant l'appel",
  "objections": [
    {
      "type": "prix | timing | interne | technique | statu_quo | autre",
      "verbatim": "Citation exacte du prospect",
      "traitee": true | false
    }
  ],
  "budget": {
    "montant_mentionne": null | "valeur exacte mentionnée",
    "fourchette": null | "bas | moyen | haut",
    "contexte": null | "description du contexte budgétaire"
  },
  "decideurs": [
    {
      "nom": null | "prénom nom",
      "role": null | "rôle dans la décision",
      "present_appel": true | false
    }
  ],
  "next_steps": [
    {
      "action": "description de l'action",
      "responsable": "commercial | prospect | les deux",
      "echeance": null | "délai ou date mentionnée"
    }
  ],
  "timing_decision": {
    "horizon": null | "court | moyen | long",
    "detail": null | "délai explicite mentionné"
  },
  "signaux_positifs": ["liste des signaux d'intérêt fort détectés"],
  "signaux_negatifs": ["liste des signaux de faible engagement ou de blocage"],
  "tonalite_generale": "très positif | positif | neutre | négatif | très négatif"
}

Dans n8n, le nœud Anthropic (ou HTTP Request vers l'API Claude) envoie ce prompt avec le transcript injecté dans . La réponse est parsée avec le nœud JSON Parse de n8n. Si Claude retourne un JSON mal formé (rare mais possible sur des transcripts très longs), un nœud de gestion d'erreur tente une seconde extraction simplifiée sur les champs prioritaires uniquement.

Choisir le bon modèle Claude pour cet usage

Pour l'extraction structurée, Claude Sonnet est le bon équilibre entre précision et coût. Sur des transcripts de 30 minutes (environ 5 000 tokens), le coût est de 0,015 à 0,025 euro par appel pour l'entrée, et 0,005 à 0,008 euro pour la sortie JSON. En pratique, comptez 0,03 à 0,05 euro par appel analysé.

Pour une équipe de 5 commerciaux faisant 4 appels par jour (400 appels par mois), le coût API Claude mensuel est de 12 à 20 euros. C'est négligeable par rapport à la valeur de l'information structurée produite.

Astuce technique

Pour les transcripts très longs (appels de plus de 60 minutes, soit plus de 10 000 tokens), découpez le transcript en segments de 8 000 tokens avec un chevauchement de 500 tokens. Lancez l'extraction sur chaque segment, puis un second appel Claude consolide les JSONs partiels en un JSON final. Cela réduit le coût par appel et améliore la précision sur les longs transcripts.

Étape 3 : scoring de la qualité d'appel et de la probabilité de closing

Le scoring est la donnée la plus attendue par les managers. Elle répond à deux questions distinctes : "cet appel a-t-il été bien conduit ?" et "ce deal va-t-il se conclure ?".

Score qualité d'appel (coaching)

Ce score évalue la performance du commercial sur l'appel, indépendamment de la réaction du prospect. Il peut être intégré directement dans le prompt d'extraction ou dans un second appel Claude dédié. Les critères que nous utilisons :

  • Découverte (0 à 3 points) : le commercial a-t-il posé des questions ouvertes sur les enjeux, le budget, le processus de décision ?
  • Écoute active (0 à 2 points) : le talk ratio dépasse-t-il 60 % côté commercial (signal négatif) ? Y a-t-il des reformulations des propos du prospect ?
  • Traitement des objections (0 à 2 points) : les objections identifiées ont-elles été adressées ou esquivées ?
  • Next steps concrets (0 à 2 points) : l'appel se termine avec des actions définies, datées et acceptées par les deux parties ?
  • Pertinence de la proposition (0 à 1 point) : la solution présentée répond-elle aux enjeux énoncés par le prospect ?

Score probabilité de closing

Ce score évalue le deal, pas le commercial. Il est plus volatile et plus dépendant de la qualité du transcript. Voici l'instruction supplémentaire à ajouter au prompt :

"scoring": {
  "qualite_appel": {
    "note": 0-10,
    "points_forts": ["max 3 éléments"],
    "points_amelioration": ["max 3 éléments"]
  },
  "probabilite_closing": {
    "score": 0-10,
    "justification": "2 à 3 phrases expliquant le score",
    "signaux_determinants": ["les 2 ou 3 éléments qui ont le plus pesé dans le score"]
  }
}

Un score de probabilité de closing calculé par Claude doit être traité comme un indicateur d'orientation, pas comme une prévision. Sa valeur réelle vient de la comparaison dans le temps : si les appels avec un score supérieur à 7 se concluent effectivement dans les 60 jours, le modèle est calibré. Si ce n'est pas le cas, les critères de scoring doivent être ajustés. Pour l'évaluation rigoureuse de ce type de modèle, notre article sur le pilotage des LLM en entreprise donne un cadre applicable.

Étape 4 : mise à jour automatique du CRM

C'est là que l'agent crée la valeur la plus immédiate pour l'équipe commerciale. Le JSON extrait par Claude est utilisé pour remplir les champs du deal dans votre CRM. Aucune saisie manuelle, aucun délai.

Mapper le JSON vers les champs HubSpot

Dans n8n, le nœud HubSpot natif permet de mettre à jour une propriété deal avec une simple configuration. Pour les champs custom que vous avez créés dans HubSpot (objection principale, budget mentionné, prochaine étape validée, score closing), le mapping se fait via la propriété interne HubSpot.

Un exemple de mapping concret :

  • budget.montant_mentionne → champ HubSpot budget_mentionne_appel
  • objections[0].type → champ HubSpot objection_principale
  • next_steps[0].action → note HubSpot ou propriété prochaine_etape
  • scoring.probabilite_closing.score → champ HubSpot score_ia_closing
  • timing_decision.horizon → champ HubSpot horizon_decision

Pour identifier le bon deal à mettre à jour, n8n utilise le contact_email ou le deal_id transmis par Modjo dans le webhook. Si le deal n'existe pas encore (premier appel avec un prospect non encore enregistré), un nœud conditionnel crée automatiquement le deal avec les champs disponibles.

Pipedrive et Salesforce

La logique est identique. Pipedrive dispose d'un nœud natif n8n. Salesforce utilise le nœud Salesforce ou une requête HTTP vers l'API REST Salesforce (endpoint PATCH /sobjects/Opportunity/{id}). Le mapping des champs est différent mais la structure du workflow reste la même.

Pour une vue d'ensemble des patterns d'intégration CRM dans n8n, notre article sur l'agent IA de qualification de leads couvre des cas de mapping proches.

Étape 5 : notification Slack pour les appels prioritaires

Tous les appels ne méritent pas l'attention immédiate du manager. L'agent doit filtrer et n'alerter que sur les situations qui justifient une réaction rapide.

Définir les seuils d'alerte

Les conditions qui déclenchent une notification Slack dans les workflows que nous déployons :

  • Score probabilité closing supérieur à 7 : deal chaud, le manager doit être informé pour adapter le suivi ou proposer son aide
  • Objection non traitée sur le prix avec budget élevé mentionné : signal d'un deal à risque que le commercial n'a pas adressé
  • Décideur identifié non présent à l'appel : signal que l'appel suivant doit inclure la bonne personne
  • Score qualité appel inférieur à 4 : appel qui mérite un debrief coaching
  • Next step avec échéance très proche (moins de 48 heures) : action urgente pour le commercial

Format du message Slack

Le message Slack doit être lisible en 30 secondes. Le manager ne doit pas avoir à ouvrir l'appel Modjo pour comprendre l'essentiel. Un format efficace :

*Appel prioritaire* : [Commercial] avec [Prospect] - [Entreprise]
Score closing : 8/10 | Durée : 28 min

*Résumé* : [resume_executif]

*Objection principale* : [objection.type] — "[verbatim]"
*Budget mentionné* : [budget.montant_mentionne]
*Prochain pas* : [next_steps[0].action] — [echeance]

:warning: Raison de l'alerte : Score > 7, décision sous 2 semaines
[Lien vers l'appel Modjo]

Dans n8n, le nœud Slack permet de formater ce message avec du Markdown Slack (gras avec *, listes, blocs). Le lien vers l'appel Modjo est extrait du payload initial du webhook.

Étape 6 : capitalisation pour le coaching

C'est la couche la plus souvent négligée, et pourtant la plus structurante sur le long terme. Un top performer dans une équipe de 8 commerciaux a des patterns de conduite d'appel distincts. L'agent peut les identifier automatiquement et les rendre accessibles à toute l'équipe.

La base Airtable de bonnes pratiques

Pour chaque appel avec un score qualité supérieur à 8, l'agent enregistre une fiche dans Airtable avec les champs suivants :

  • Contexte : secteur du prospect, taille, stade du deal
  • Bonne pratique identifiée : extrait du transcript et analyse Claude de ce qui a bien fonctionné
  • Type d'objection traitée : catégorie + verbatim de la réponse du commercial
  • Commercial : pour identifier les patterns par profil
  • Score appel et score closing : pour corréler pratiques et résultats

Pour les appels avec un score inférieur à 4, l'agent enregistre une fiche "point d'amélioration" avec la même structure, utilisable en session de coaching individuel.

Pourquoi Airtable plutôt que Notion ?

Airtable permet de filtrer et d'agréger les fiches par type d'objection, par commercial, par secteur. Un manager peut en 2 minutes retrouver "tous les appels avec une objection prix traitée avec succès dans le secteur tech, Q1 2026". Notion est plus adapté si vous voulez une base wiki narrative plutôt qu'une base de données filtrable. Les deux ont un nœud natif dans n8n.

Pour comprendre comment structurer une base de capitalisation des connaissances commerciales sur la durée, notre article sur les agents RAG sur données d'entreprise propose des patterns d'architecture pertinents.

Cas concret PME : avant et après en chiffres

Voici les résultats observés sur le déploiement de cet agent chez un de nos clients : une PME toulousaine de 12 personnes dans le conseil RH, avec une équipe de 4 commerciaux faisant en moyenne 6 appels par jour.

Situation avant le déploiement

  • Modjo actif depuis 6 mois. Taux de lecture des comptes-rendus : 18 %.
  • CRM (Pipedrive) mis à jour 1 à 2 fois par semaine en batch, avec une perte estimée de 30 % des informations capturées en appel.
  • Zéro processus de coaching structuré sur les appels. Sessions de coaching basées sur le ressenti du manager, non sur des données.
  • Aucune priorisation des deals : tous les appels ont le même statut après traitement.

Résultats à 60 jours de déploiement

  • 100 % des appels analysés automatiquement, sans action de l'équipe.
  • Pipedrive mis à jour dans les 5 minutes après chaque appel, avec 7 champs custom remplis systématiquement.
  • Gain estimé de 45 minutes par commercial par jour sur la saisie CRM et la rédaction de comptes-rendus (mesuré sur 4 semaines avant/après).
  • 12 alertes Slack prioritaires générées sur les 60 jours pour 4 deals à fort potentiel et 8 situations d'appels à risque. Taux de pertinence validé par le manager : 10 sur 12 étaient actionnables.
  • Base coaching : 34 fiches de bonnes pratiques et 28 fiches d'amélioration générées automatiquement. Utilisées dans 2 sessions de coaching collectives.
  • Taux de conversion pipeline du mois 2 vs mois 0 : +11 points. Lien de causalité difficile à isoler, mais le manager attribue une partie à la meilleure visibilité sur les deals chauds.

Le vrai gain

Le gain le plus concret n'est pas le score de closing (qui reste imparfait). C'est la discipline de saisie CRM : quand c'est automatique, le CRM reflète enfin la réalité du pipeline. Les managers peuvent faire des revues de pipeline fondées sur des données réelles, pas sur ce que les commerciaux ont bien voulu saisir.

Coût total du workflow et ROI

Voici le détail des coûts mensuels pour une équipe de 5 commerciaux faisant en moyenne 4 appels par jour (environ 400 appels par mois) :

Composant Coût mensuel Note
n8n Cloud ou auto-hébergement 24 à 50 euros Auto-hébergé recommandé si volume élevé
Claude Sonnet API (400 appels) 12 à 20 euros 0,03 à 0,05 euro par appel de 30 min
Modjo ou Gong (si pas déjà abonné) 400 à 1 200 euros Souvent déjà en place — coût non imputable à l'agent
Whisper (alternative sans Modjo/Gong) 70 à 120 euros Pour 400 appels de 30 min en moyenne
Airtable (coaching base) 20 euros Plan Team, suffisant jusqu'à 50 000 enregistrements
Total agent (hors Modjo/Gong) 56 à 90 euros/mois Hors mise en place initiale

Le coût de mise en place initiale (construction du workflow, calibration du prompt, tests en conditions réelles, formation de l'équipe) représente entre 5 et 10 jours de travail. Selon que vous le faites en interne ou avec un accompagnement comme Tensoria, comptez entre 2 500 et 6 000 euros.

Pour mesurer le ROI de façon rigoureuse, notre cadre de calcul du ROI des projets IA propose une méthode applicable à ce type de workflow. Pour les coûts de déploiement n8n en détail, notre article sur le budget d'un projet n8n en 2026 est la référence.

Limites et conditions de réussite

Cet agent ne fonctionne pas dans tous les contextes. Ces limites sont celles que nous observons en production, pas des hypothèses théoriques.

La qualité du transcript est la variable critique

Un transcript mal formé (fort accent, bruit de fond, coupures réseau, participants multiples sans identification du locuteur) produit une extraction structurée peu fiable. Claude hallucine des données ou retourne des champs null pour des informations qui étaient pourtant dans l'appel, mal transcrites.

En pratique : les transcripts Modjo et Gong sur les appels visio (Teams, Google Meet, Zoom) sont fiables à 90 à 95 %. Sur les appels téléphoniques classiques, tombez plutôt à 80 à 85 %. Planifiez un contrôle qualité sur les 50 premiers appels avant de considérer le workflow comme stable.

Le prompt doit être calibré sur vos appels réels

Le prompt fourni dans cet article est un point de départ, pas une solution prête à l'emploi. Chaque équipe commerciale a un vocabulaire, des objections types, et une structure d'appel qui lui sont propres. La calibration du prompt sur 20 à 30 appels réels (en comparant extraction Claude vs lecture humaine) prend 2 à 3 semaines mais est indispensable pour atteindre une fiabilité production.

Sur les objections notamment, les catégories génériques (prix, timing, interne) ne correspondent pas toujours aux objections spécifiques de votre marché. Ajoutez des catégories propres à votre secteur dans le prompt.

Le contexte sectoriel affecte la pertinence du scoring

Un score de closing calibré pour des cycles de vente de 30 jours n'est pas applicable à des cycles de 6 mois sur des comptes grands groupes. Le prompt de scoring doit intégrer le contexte de votre cycle de vente typique, les critères de qualification propres à votre marché, et vos stages de pipeline réels. Sans ce contexte, le score est générique et peu actionnable.

L'adoption dépend de la confiance de l'équipe dans les données

Le principal risque opérationnel n'est pas technique. C'est que les commerciaux cessent de faire confiance aux données CRM parce qu'elles ont été mises à jour automatiquement de façon incorrecte. Il est impératif de communiquer clairement que les champs remplis par l'agent sont des extractions IA, pas des données certifiées, et de laisser aux commerciaux la possibilité de les corriger facilement. Un champ "vérifié par le commercial" dans votre CRM résout ce problème.

Pour les projets d'automatisation à forte visibilité dans l'équipe commerciale, la démarche de mise en production progressive que nous décrivons dans notre retour sur les agents IA n8n en production réduit significativement ce risque d'adoption.

Questions fréquentes

Oui. L'architecture n8n est agnostique de l'outil d'enregistrement. Aircall et Gong proposent tous deux des webhooks ou des API REST pour récupérer les transcripts après chaque appel. La logique n8n reste identique : réception du transcript, envoi à Claude pour extraction structurée, mise à jour CRM. Seul le nœud de déclenchement change selon l'outil. Si vous n'avez ni Modjo ni Gong, Whisper d'OpenAI transcrit directement un fichier audio en texte pour environ 0,006 euro par minute.
Pour un appel de 30 minutes, le transcript représente environ 4 000 à 6 000 tokens. Avec Claude Sonnet, le coût est d'environ 0,018 à 0,027 euro par appel pour l'entrée, plus 0,005 à 0,008 euro pour la sortie structurée (JSON d'extraction). En pratique, comptez entre 0,03 et 0,05 euro par appel analysé. Pour une équipe de 5 commerciaux faisant 4 appels par jour, le coût API LLM mensuel est de 15 à 30 euros. C'est l'ordre de grandeur réel.
Les résumés natifs de Modjo sont généralistes : ils résument la conversation mais ne produisent pas de données structurées exploitables dans votre CRM ou votre stack métier. Un agent n8n sur mesure extrait exactement les champs dont votre équipe a besoin (budget, décideurs, objections spécifiques, probabilité de closing selon vos critères), les pousse dans les champs custom de votre CRM, déclenche des alertes Slack ciblées, et alimente une base de coaching Airtable. Modjo donne un résumé, l'agent donne une donnée structurée et actionnée.
Oui, c'est la variable la plus critique. Un transcript bien formé (avec identification du locuteur, ponctuation correcte, faibles erreurs de reconnaissance) produit une extraction structurée fiable. Un transcript de mauvaise qualité (accent prononcé, bruit de fond, appel téléphonique basse qualité) génère des hallucinations ou des champs vides. En pratique, les transcripts Modjo et Gong sont de bonne qualité sur les appels visio. Sur les appels téléphoniques, le taux d'erreur monte à 5 à 10 %, ce qui nécessite un post-traitement de nettoyage avant d'envoyer à Claude.
Claude Sonnet gère nativement le français, l'anglais, l'espagnol et une quinzaine d'autres langues. Si votre équipe fait des appels dans plusieurs langues, il suffit d'ajouter une instruction dans le prompt pour que Claude détecte la langue du transcript et réponde dans cette même langue. Whisper transcrit également en multilingue. L'architecture fonctionne sans modification pour des équipes commerciales internationales.
Avec un accompagnement, entre 5 et 10 jours de travail effectif pour un premier pilote complet : 1 à 2 jours pour la connexion Modjo ou Gong et la récupération des transcripts, 2 jours pour le prompt d'extraction Claude et les tests de qualité, 2 jours pour la mise à jour CRM et les alertes Slack, 1 à 3 jours pour le coaching Airtable et les dashboards. La calibration du prompt sur des appels réels prend ensuite 2 à 3 semaines supplémentaires avant d'atteindre une fiabilité production.

Passer à l'action

Vous voulez brancher cet agent sur vos appels Modjo ou Gong ?

Nous cadrons l'architecture avec vous, construisons le workflow n8n et calibrons le prompt d'extraction sur vos appels réels.

Réserver un audit gratuit

Pour aller plus loin

Anas Rabhi, data scientist spécialisé en IA générative
Anas Rabhi Data Scientist & Fondateur de Tensoria

Je suis data scientist spécialisé en IA générative. J'aide les entreprises à économiser du temps grâce à des solutions d'IA sur mesure, adaptées à leur métier. Automatisation de tâches répétitives, assistants internes, traitement intelligent de documents : je conçois des outils qui s'intègrent dans vos processus existants et produisent des résultats concrets.