Crawl de site et analyse du maillage interne

Crawlez votre site pour détecter la cannibalisation de contenu, découvrir les liens internes manquants et cartographier vos clusters thématiques. Conçu pour la visibilité AI.

Curieux de savoir si l'IA mentionne votre marque ?

Lancez un scan gratuit et voyez où vous en êtes sur ChatGPT.

Scan IA gratuit

Points clés

  • Mentionable crawle votre site et extrait le contenu, les headings, le schema markup et tous les liens internes et externes de chaque page.
  • Le détecteur de cannibalisation identifie les pages en compétition sur les mêmes sujets, avec des niveaux de sévérité (élevé, moyen, potentiel) pour prioriser les fusions ou réécritures.
  • Les suggestions de liens manquants montrent exactement quelles pages devraient se lier entre elles, avec des ancres recommandées, basées sur l'analyse sémantique de votre contenu.
  • Les limites de crawl évoluent selon le plan : 500 pages en Starter, et 1 000 pages en Growth, Pro et Agency.
  • Mentionable vérifie votre robots.txt pour les règles des crawlers AI (GPTBot, Gemini, Claude) et détecte si vous avez un fichier llms.txt.

Vous trackez votre visibilité AI sur 5 LLMs. Vous créez du contenu. Mais vous avez ce doute persistant : est-ce que votre site est vraiment structuré d'une façon qui aide les LLMs à comprendre votre expertise ?

Peut-être que vous avez trois articles de blog qui ciblent le même sujet sans le savoir. Peut-être que votre meilleur contenu vit dans une page orpheline avec zéro lien interne qui pointe vers elle. Peut-être que vous bloquez le crawler de ChatGPT dans votre robots.txt sans le réaliser. Ce sont le genre de problèmes qu'on ne voit pas en regardant les pages une par une. Vous avez besoin de voir l'ensemble.

Ce que le crawl de site fait

Mentionable crawle votre site en entier, en partant de votre page d'accueil et en suivant chaque lien interne. Pour chaque page, il extrait :

  • Contenu et structure : titre, meta description, H1, hiérarchie complète des headings, nombre de mots et le contenu de la page
  • Schema markup : chaque bloc JSON-LD trouvé sur la page, avec identification du type
  • Liens : tous les liens internes (où ils mènent, quelle ancre ils utilisent) et tous les liens externes (où vous envoyez du trafic)
  • Signaux techniques : tags canoniques, directives robots, tags hreflang, données Open Graph

Mais la vraie valeur n'est pas l'extraction brute. C'est ce qui se passe après.

Détection de cannibalisation

Une fois chaque page crawlée et analysée, Mentionable génère des embeddings sémantiques pour votre contenu et les compare. Quand deux pages couvrent des sujets très similaires, elles sont signalées comme paire de cannibalisation.

Chaque paire reçoit un niveau de sévérité :

  • Élevé : ces pages sont très probablement en compétition sur les mêmes requêtes et sèment la confusion chez les LLMs sur laquelle représente votre expertise
  • Moyen : chevauchement significatif qui pourrait diluer votre autorité sur le sujet
  • Potentiel : assez de similarité pour surveiller, mais potentiellement intentionnel (comme une page produit et un article de blog associé)

Pour chaque paire, vous voyez les deux pages côte à côte avec leurs scores de similarité. Ça rend la décision facile : les fusionner, les différencier, ou rediriger l'une vers l'autre.

Pourquoi c'est important pour la visibilité AI ? Quand un LLM essaie de comprendre votre expertise sur un sujet et trouve trois pages similaires, il doit en choisir une. Il pourrait choisir la mauvaise. Ou pire, il pourrait conclure qu'aucune n'est assez autoritaire comparée à un concurrent qui a une seule page définitive sur ce sujet.

Liens internes manquants

Les liens internes, c'est comme ça que les moteurs de recherche et les LLMs découvrent les relations entre vos pages. Si votre "guide ultime de l'email marketing" ne lie pas vers votre article "astuces de délivrabilité email", c'est une opportunité manquée.

Après avoir crawlé votre site, Mentionable analyse le contenu de chaque page et identifie les pages qui couvrent des sujets liés mais ne se lient pas entre elles. Pour chaque suggestion, vous obtenez :

  • La page source (où le lien devrait être ajouté)
  • La page cible (où le lien devrait pointer)
  • L'ancre suggérée basée sur le contenu de la page cible

Les suggestions sont classées par pertinence de contenu, donc les liens les plus impactants apparaissent en premier. Vous obtenez jusqu'à 100 suggestions par crawl.

Clusters thématiques

Mentionable regroupe vos pages en clusters sémantiques en utilisant des embeddings et le clustering DBSCAN. Ça vous donne une carte visuelle de comment votre contenu s'organise par thématique.

Vous pourriez découvrir que vous avez 12 pages sur la "gestion de projet" mais seulement 2 sur le "suivi du temps", alors que les deux sujets comptent autant pour votre activité. Ou vous pourriez trouver que des pages que vous pensiez sur des sujets différents se retrouvent dans le même cluster, révélant un chevauchement caché.

Les clusters thématiques vous aident aussi à planifier votre stratégie de contenu. Les trous dans votre carte de clusters pointent vers des sujets où vous avez besoin de plus de contenu. Les clusters denses suggèrent des domaines où vous êtes déjà fort et pourriez vouloir consolider.

Accessibilité aux crawlers AI

Après avoir crawlé votre site, Mentionable vérifie trois choses :

Analyse du robots.txt : bloquez-vous des crawlers AI ? Beaucoup de propriétaires de sites ne réalisent pas que leur robots.txt bloque GPTBot, Google-Extended, ClaudeBot ou d'autres crawlers AI. Si vous les bloquez, les LLMs ne peuvent pas accéder à votre contenu le plus récent pour informer leurs recommandations.

Détection du llms.txt : avez-vous un fichier llms.txt ? Ce standard émergent aide les LLMs à comprendre la structure de votre site et à trouver votre contenu le plus important. Mentionable vérifie s'il existe et ce qu'il contient.

Couverture du sitemap : quel pourcentage de vos pages crawlées apparaît dans votre sitemap ? Un faible pourcentage de couverture signifie qu'une partie de votre contenu n'est pas explicitement partagée avec les crawlers.

Limites de crawl par plan

Plan Prix Pages max par crawl
Starter 39 EUR/mois 500 pages
Growth 79 EUR/mois 1 000 pages
Pro 149 EUR/mois 1 000 pages
Agency 300 EUR/mois 1 000 pages

Un crawl par mois par projet. Pour la plupart des solopreneurs et petits sites, 500 pages couvre le contenu essentiel. Les sites plus grands avec des centaines de pages bénéficient des plans Growth, Pro ou Agency.

Comment le pipeline de crawl fonctionne

Quand vous lancez un crawl, Mentionable exécute un pipeline asynchrone en 11 étapes :

  1. Initialise le crawl et commence à récupérer les pages
  2. Extrait le contenu, les headings, le schema et les liens de chaque page
  3. Stocke toutes les données de pages et relations de liens
  4. Scanne votre robots.txt, llms.txt et sitemap
  5. Génère des embeddings sémantiques pour tout le contenu
  6. Résout les cibles de liens internes et calcule les métriques de liens
  7. Regroupe les pages en clusters thématiques
  8. Détecte les paires de cannibalisation
  9. Génère les suggestions de liens manquants

Vous pouvez suivre la progression en temps réel depuis le dashboard de crawl. Chaque étape affiche un indicateur de progression pour que vous sachiez où en est l'analyse.

À qui ça profite le plus

Les solopreneurs qui publient du contenu depuis des mois ou des années découvrent souvent des problèmes de cannibalisation qu'ils ne soupçonnaient pas. Trois articles de blog qui ciblent tous "meilleures pratiques de facturation" ? Ça dilue votre autorité au lieu de la construire.

Les consultants peuvent utiliser les résultats de crawl pour montrer à leurs clients les problèmes structurels qui freinent leur visibilité AI. Un rapport montrant 15 paires de cannibalisation et 40 liens internes manquants, c'est concret et actionnable.

Les sites riches en contenu avec 100+ pages tirent le plus de valeur du clustering et de la détection de liens manquants. Plus vous avez de contenu, plus c'est difficile de maintenir une structure de maillage interne cohérente manuellement.

Essayez par vous-même

Démarrez votre essai gratuit de 7 jours et lancez votre premier crawl de site. Découvrez comment votre contenu se regroupe, où la cannibalisation freine votre autorité, et quels liens internes vous manquent. Sans carte bancaire.

Articles liés

  • Opportunités de contenu - transformez les insights de crawl en briefs de contenu ciblés.
  • Agent chat AI - posez des questions sur vos résultats de crawl directement dans le chat.
  • Tracking multi-LLM - suivez si les améliorations structurelles changent votre visibilité AI.

Questions fréquentes

Qu'est-ce que le crawl de site Mentionable analyse ?
Le crawl de site Mentionable extrait le contenu, la structure des headings, le schema markup (JSON-LD), les meta tags, les URLs canoniques et tous les liens internes et externes de chaque page. Après le crawl, il exécute une analyse sémantique pour détecter la cannibalisation de contenu, suggérer des liens internes manquants et cartographier votre site en clusters thématiques.
Combien de pages Mentionable peut-il crawler ?
Les limites de pages dépendent de votre plan Mentionable : Starter crawle jusqu'à 500 pages, et Growth, Pro et Agency crawlent jusqu'à 1 000 pages. Le crawler démarre depuis votre page d'accueil et suit les liens internes automatiquement.
Qu'est-ce que la cannibalisation de contenu et comment Mentionable la détecte-t-il ?
La cannibalisation de contenu survient quand deux pages ou plus de votre site ciblent le même sujet ou les mêmes mots-clés, forçant les moteurs de recherche et les LLMs à choisir entre elles. Mentionable utilise des embeddings sémantiques pour comparer le contenu des pages et signale les paires avec une forte similarité. Chaque paire reçoit un niveau de sévérité : élevé, moyen ou potentiel.
Comment fonctionnent les suggestions de liens manquants ?
Après avoir crawlé votre site et analysé le contenu de chaque page, Mentionable identifie les pages qui couvrent des sujets liés mais ne se lient pas entre elles. Il suggère des liens internes spécifiques avec des ancres recommandées, classés par pertinence de contenu. Vous obtenez jusqu'à 100 suggestions par crawl.
Mentionable vérifie-t-il si mon site bloque les crawlers AI ?
Oui. Après le crawl, Mentionable lit votre fichier robots.txt et vérifie si vous bloquez les crawlers AI comme GPTBot (ChatGPT), Google-Extended (Gemini), ClaudeBot ou d'autres. Il détecte aussi si vous avez un fichier llms.txt, qui aide les LLMs à comprendre votre site.
À quelle fréquence puis-je lancer un crawl de site ?
Vous pouvez lancer un crawl par mois par projet. Cette limite existe parce que le crawl est intensif en ressources et le pipeline d'analyse implique plusieurs étapes de traitement AI. Lancer un crawl après des changements importants de contenu ou de structure de votre site donne les résultats les plus utiles.
En quoi c'est différent de Screaming Frog ou de l'audit de site Ahrefs ?
Les crawlers traditionnels se concentrent sur les liens cassés, les tags manquants et les erreurs techniques. Le crawl Mentionable ajoute une analyse spécifique à l'AI : clustering sémantique de votre contenu par thématiques, détection de cannibalisation par embeddings (pas seulement par patterns d'URL), suggestions de liens internes manquants basées sur la pertinence du contenu, et vérification de l'accessibilité aux crawlers AI. C'est conçu pour ceux qui optimisent leur site pour la visibilité LLM, pas seulement pour Google.

Prêt à vérifier votre visibilité IA ?

Découvrez si ChatGPT vous mentionnent sur les requêtes qui génèrent vraiment des ventes. Sans carte bancaire.

Continuer la lecture