Indexation sur Google

4 juillet 2023, par Didier Sampaolo

L’ensemble des pages qu’un moteur de recherche peut présenter à un internaute lorsqu’il fait une recherche s’appelle son index. Pour tenir cet index à jour, les moteurs utilisent des robots, les crawlers, dont le plus connu est sans conteste GoogleBot.

Une fois que le robot a téléchargé le contenu de votre page, une étape d’analyse permet au moteur de choisir si, oui ou non, elle mérite d’être conservée sans son immense base de données. Cette décision d’indexer votre page n’est pas sans conséquences : le moteur va devoir analyser les mots-clés auxquels correpond votre contenu, enregistrer la page dans son immense base de données, et y revenir régulièrement pour tenir son index à jour.

Il y a des années, il suffisait qu’une page soit publiée pour qu’elle soit indexée, mais cette époque est bel et bien révolue. Aujourd’hui, le moteur fait la fine bouche, et de nombreux contenus passent à la trappe, parfois pour des raisons difficiles à comprendre. Google, pour ne citer qu’eux, ne communiquent pas de chiffres précis sur le nombre de documents qu’ils indexent, mais on imagine que ça se porte quelque part autour de 10^12 documents (mille millards). J’imagine mal le coût que ça peut représenter, mais je comprends que le moteur a un énorme enjeu financier et technique à ne pas indexer de pages inutiles. Le problème, comme souvent avec Google, c’est qu’on n’a pas vraiment de définition de ce que serait une page « utile ».

Surveiller l’indexation de vos pages

Côté moteurs, OK. Mais côté webmaster, le suivi de l’indexation de vos pages devrait être une des premières actions SEO à mener : une page qui n’est pas indexée n’a techniquement aucune chance d’attirer du trafic. Il faut donc traquer ces pages refusées par les moteurs, comprendre le problème, et y remédier. Dans la pratique, on ne vise pas 100% de pages indexées, mais c’est vers cet objectif qu’il faut tendre.

Idéalement, vous devriez tester toutes les pages de votre site. Pour commencer (ou si votre site est énorme), faites un échantillon avec les pages les plus importantes (accueil, présentation des produits, pages de vente, etc).

Il y a plusieurs méthodes :

  • Opérateur site: : utilisez l’opérateur « site:votre-url » sur Google (sans guillemets). Attention, l’opérateur renvoie les pages dont les URLs contiennent celle que vous lui passez en paramètre, et il est parfois capricieux
  • Vérification directe : tapez directement votre URL complète sur Google pour voir si elle apparaît dans les résultats
  • Trafic : vérifiez, par exemple dans la Search Console ou dans un outil de statistiques de trafic comme Analytics/Piwik/Matomo, si l’URL en question vous apporte du trafic. Si oui, elle est forcément indexée. Si non, elle est « inactive », mais peut quand même être présente dans l’index !
  • Déléguer : Utilisez un outil externe comme IsIndexed.com, qui combine les méthodes 1 et 2 ci-dessus, et permet d’automatiser le process même pour un grand nombre d’URLs.
  • SiteDojo.com : Quand vous ajoutez un site à votre Dashboard, on le crawle, comme le ferait un moteur de recherche. Grâce à une API (une pont entre deux systèmes informatiques), on importe les données de la Search Console, pour trouver les pages inactives (qui n’ont obtenu ni impression, ni click dans Google, pendant une période d’un mois). On vérifie ensuite si chacune de ces pages est indexée, et on vous fournit la liste de toutes vos pages qui ne le sont pas.

Faire indexer mes pages

Une fois que vous avez une liste des pages de votre site qui ne sont pas indexées, il est temps d’essayer de « deviner » ce qui cloche chez elles.

Il y a deux raisons techniques qui peuvent faire qu’une page n’est pas indexée. Soit : – elle n’est pas crawlée : les moteurs ne l’ont pas (encore) découverte – elle est crawlée mais pas indexée : quelque chose sur la page ou dans son environnement direct incite les moteurs à ne pas lui accorder d’importance.

Pour savoir dans quelle catégorie se place une page, il faudra passer par une analyse de logs. Les logs, ce sont les journaux d’activité de votre serveur, qui stockent la totalité des actions menées sur votre site : visites par des humains, mais aussi passages des robots de crawl.

Étoffer le contenu

Si votre contenu est court (thin content) et fait qu’effleurer la surface de votre sujet, il demande à être étoffé. Ne brodez pas n’importe quoi, essayez d’ajouter un paragraphe ou deux pour clarifier votre propos, ou donner un nouvel éclairage. N’hésitez pas à ajouter des images, des infographies, voire des vidéos, qui illustrent et complètent votre propos.

Il est possible aussi que vous ayez plusieurs pages sur des sujets trop proches, ce qui incite Google à n’en garder qu’une. Dans ce cas, il peut être utile de regrouper le contenu de ces pages sur une de celles qui sont déjà indexées (n’oubliez pas de rediriger proprement les URLs des pages fermées vers celle qui reste). On peut détecter cette situation grâce à un rapport de cannibalisation : plusieurs URLs sont affichées par Google pour un même mot-clé. Généralement, quand une URL se positionne, les autres ont tendance à disparaître, comme si Google essayait chaque page à tour de rôle pour voir laquelle mettre en avant. Le SEO, c’est avant tout l’art et la manière de lever les doutes du moteur : aidez-le dans son choix.

Améliorer la popularité

Il est possible que Google considère un « seuil de popularité » en-dessous duquel il refuse la page. Renforcez votre maillage interne en ajoutant des liens vers la page à indexer, depuis d’autres pages de votre site sémantiquement proches, et/ou trouvez quelques backlinks (liens externes, depuis des sites tiers) pour renforcer la popularité de votre page. Partagez-la sur les réseaux sociaux : si ça n’a jamais été confirmé comme un critère de positionnement, c’est très probablement un signal positif.

Forcer l’indexation

Des méthodes permettent aussi de forcer l’indexation d’une page, via la Search Console de Google ou en utilisant des outils externes. Généralement, ces outils sont efficaces mais la page peut ne pas rester indexée (ce qui démontre que Google n’en veut vraiment pas) et ils sont à utiliser qu’en dernier recours, puisqu’ils agissent plus comme un cache-misère que comme une vraie solution. Ceci dit, quand votre page vaut le coup mais que Google a décidé d’être borné, ça fera l’affaire.

Par quoi commencer ?

Si vous devez prioriser, commencez par les pages qui ciblent les mots-clés qui seraient les plus aptes à convertir (générer des ventes). Loïc conseille de prendre sous votre aile les pages les plus hautes dans l’arborescence de votre site (les plus proches de la home), qui pourront à leur tour faire indexer leurs pages filles (celles vers lesquelles elles font des liens – on revient à une histoire de PageRank interne).