Vous trackez votre visibilité AI sur 5 LLMs. Vous créez du contenu. Mais vous avez ce doute persistant : est-ce que votre site est vraiment structuré d'une façon qui aide les LLMs à comprendre votre expertise ?
Peut-être que vous avez trois articles de blog qui ciblent le même sujet sans le savoir. Peut-être que votre meilleur contenu vit dans une page orpheline avec zéro lien interne qui pointe vers elle. Peut-être que vous bloquez le crawler de ChatGPT dans votre robots.txt sans le réaliser. Ce sont le genre de problèmes qu'on ne voit pas en regardant les pages une par une. Vous avez besoin de voir l'ensemble.
Ce que le crawl de site fait
Mentionable crawle votre site en entier, en partant de votre page d'accueil et en suivant chaque lien interne. Pour chaque page, il extrait :
- Contenu et structure : titre, meta description, H1, hiérarchie complète des headings, nombre de mots et le contenu de la page
- Schema markup : chaque bloc JSON-LD trouvé sur la page, avec identification du type
- Liens : tous les liens internes (où ils mènent, quelle ancre ils utilisent) et tous les liens externes (où vous envoyez du trafic)
- Signaux techniques : tags canoniques, directives robots, tags hreflang, données Open Graph
Mais la vraie valeur n'est pas l'extraction brute. C'est ce qui se passe après.
Détection de cannibalisation
Une fois chaque page crawlée et analysée, Mentionable génère des embeddings sémantiques pour votre contenu et les compare. Quand deux pages couvrent des sujets très similaires, elles sont signalées comme paire de cannibalisation.
Chaque paire reçoit un niveau de sévérité :
- Élevé : ces pages sont très probablement en compétition sur les mêmes requêtes et sèment la confusion chez les LLMs sur laquelle représente votre expertise
- Moyen : chevauchement significatif qui pourrait diluer votre autorité sur le sujet
- Potentiel : assez de similarité pour surveiller, mais potentiellement intentionnel (comme une page produit et un article de blog associé)
Pour chaque paire, vous voyez les deux pages côte à côte avec leurs scores de similarité. Ça rend la décision facile : les fusionner, les différencier, ou rediriger l'une vers l'autre.
Pourquoi c'est important pour la visibilité AI ? Quand un LLM essaie de comprendre votre expertise sur un sujet et trouve trois pages similaires, il doit en choisir une. Il pourrait choisir la mauvaise. Ou pire, il pourrait conclure qu'aucune n'est assez autoritaire comparée à un concurrent qui a une seule page définitive sur ce sujet.
Liens internes manquants
Les liens internes, c'est comme ça que les moteurs de recherche et les LLMs découvrent les relations entre vos pages. Si votre "guide ultime de l'email marketing" ne lie pas vers votre article "astuces de délivrabilité email", c'est une opportunité manquée.
Après avoir crawlé votre site, Mentionable analyse le contenu de chaque page et identifie les pages qui couvrent des sujets liés mais ne se lient pas entre elles. Pour chaque suggestion, vous obtenez :
- La page source (où le lien devrait être ajouté)
- La page cible (où le lien devrait pointer)
- L'ancre suggérée basée sur le contenu de la page cible
Les suggestions sont classées par pertinence de contenu, donc les liens les plus impactants apparaissent en premier. Vous obtenez jusqu'à 100 suggestions par crawl.
Clusters thématiques
Mentionable regroupe vos pages en clusters sémantiques en utilisant des embeddings et le clustering DBSCAN. Ça vous donne une carte visuelle de comment votre contenu s'organise par thématique.
Vous pourriez découvrir que vous avez 12 pages sur la "gestion de projet" mais seulement 2 sur le "suivi du temps", alors que les deux sujets comptent autant pour votre activité. Ou vous pourriez trouver que des pages que vous pensiez sur des sujets différents se retrouvent dans le même cluster, révélant un chevauchement caché.
Les clusters thématiques vous aident aussi à planifier votre stratégie de contenu. Les trous dans votre carte de clusters pointent vers des sujets où vous avez besoin de plus de contenu. Les clusters denses suggèrent des domaines où vous êtes déjà fort et pourriez vouloir consolider.
Accessibilité aux crawlers AI
Après avoir crawlé votre site, Mentionable vérifie trois choses :
Analyse du robots.txt : bloquez-vous des crawlers AI ? Beaucoup de propriétaires de sites ne réalisent pas que leur robots.txt bloque GPTBot, Google-Extended, ClaudeBot ou d'autres crawlers AI. Si vous les bloquez, les LLMs ne peuvent pas accéder à votre contenu le plus récent pour informer leurs recommandations.
Détection du llms.txt : avez-vous un fichier llms.txt ? Ce standard émergent aide les LLMs à comprendre la structure de votre site et à trouver votre contenu le plus important. Mentionable vérifie s'il existe et ce qu'il contient.
Couverture du sitemap : quel pourcentage de vos pages crawlées apparaît dans votre sitemap ? Un faible pourcentage de couverture signifie qu'une partie de votre contenu n'est pas explicitement partagée avec les crawlers.
Limites de crawl par plan
| Plan | Prix | Pages max par crawl |
|---|---|---|
| Starter | 39 EUR/mois | 500 pages |
| Growth | 79 EUR/mois | 1 000 pages |
| Pro | 149 EUR/mois | 1 000 pages |
| Agency | 300 EUR/mois | 1 000 pages |
Un crawl par mois par projet. Pour la plupart des solopreneurs et petits sites, 500 pages couvre le contenu essentiel. Les sites plus grands avec des centaines de pages bénéficient des plans Growth, Pro ou Agency.
Comment le pipeline de crawl fonctionne
Quand vous lancez un crawl, Mentionable exécute un pipeline asynchrone en 11 étapes :
- Initialise le crawl et commence à récupérer les pages
- Extrait le contenu, les headings, le schema et les liens de chaque page
- Stocke toutes les données de pages et relations de liens
- Scanne votre robots.txt, llms.txt et sitemap
- Génère des embeddings sémantiques pour tout le contenu
- Résout les cibles de liens internes et calcule les métriques de liens
- Regroupe les pages en clusters thématiques
- Détecte les paires de cannibalisation
- Génère les suggestions de liens manquants
Vous pouvez suivre la progression en temps réel depuis le dashboard de crawl. Chaque étape affiche un indicateur de progression pour que vous sachiez où en est l'analyse.
À qui ça profite le plus
Les solopreneurs qui publient du contenu depuis des mois ou des années découvrent souvent des problèmes de cannibalisation qu'ils ne soupçonnaient pas. Trois articles de blog qui ciblent tous "meilleures pratiques de facturation" ? Ça dilue votre autorité au lieu de la construire.
Les consultants peuvent utiliser les résultats de crawl pour montrer à leurs clients les problèmes structurels qui freinent leur visibilité AI. Un rapport montrant 15 paires de cannibalisation et 40 liens internes manquants, c'est concret et actionnable.
Les sites riches en contenu avec 100+ pages tirent le plus de valeur du clustering et de la détection de liens manquants. Plus vous avez de contenu, plus c'est difficile de maintenir une structure de maillage interne cohérente manuellement.
Essayez par vous-même
Démarrez votre essai gratuit de 7 jours et lancez votre premier crawl de site. Découvrez comment votre contenu se regroupe, où la cannibalisation freine votre autorité, et quels liens internes vous manquent. Sans carte bancaire.
Articles liés
- Opportunités de contenu - transformez les insights de crawl en briefs de contenu ciblés.
- Agent chat AI - posez des questions sur vos résultats de crawl directement dans le chat.
- Tracking multi-LLM - suivez si les améliorations structurelles changent votre visibilité AI.