Mais qui est Googlebot, ce crawler de Google qui scanne les sites web ?

Publié le : 26 juin 202314 mins de lecture

Le nom suggère immédiatement quelque chose de sympa et en fait même l’image coordonnée confirme ce sentiment : surtout, cependant, Googlebot est le logiciel d’araignée fondamental avec lequel Google est capable de scanner les pages de sites Web publics, en suivant les liens qui partent d’une page et le connecter à d’autres sur le Net et ainsi sélectionner les ressources qui méritent d’entrer dans l’ index des moteurs de recherche . En bref, ce petit robot est à la base de tout le processus d’exploration et d’indexation de Google, dont dérive le système de classification, et ce n’est donc pas un hasard si l’équipe du moteur de recherche a accordé plus d’attention au sujet : essayons de découvrir tout ce que vous devez savoir sur Googlebot , le crawler qui a pour tâche de scanner le Web rechercher des sites et du contenu au nom de Big G.

Qu’est-ce que Googlebot ?

Alors aujourd’hui prenons du recul par rapport aux problématiques liées aux pratiques d’optimisation et essayons d’expliquer brièvement ce qu’est Googlebot et comment il fonctionne , mais surtout parce qu’il est important pour un site de savoir comment Google nous regarde – en un mot, parce que avoir des connaissances Comprendre le fonctionnement de l’exploration et de l’indexation des moteurs de recherche peut nous aider à comprendre, à prévenir ou à résoudre les problèmes techniques de référencement et à garantir que les pages du site sont correctement accessibles aux robots.

Le dernier point de départ dans l’ordre chronologique pour approfondir le sujet provient de la mise à jour du guide officiel de Google sur Googlebot , mais le crawler avait auparavant fait l’objet d’un épisode de SEO Mythbusting, la série YouTube créée par Martin Splitt qui, poussé par le les demandes de nombreux webmasters et développeurs et par la question précise de Suz Hinton (Cloud Developer Advocate chez Microsoft, invitée de l’occasion), n’ont cessé de préciser certaines fonctionnalités de ce logiciel.

A cette occasion, Splitt a fourni une définition claire et simple de Googlebot , qui est essentiellement un programme remplissant trois fonctions : la première est le crawling , l’analyse approfondie du Web à la recherche de pages et de contenus ; le deuxième est d’indexer ces ressources et le troisième est le « ranking », qui pourtant « ne fait plus Googlebot », précise mieux.

En pratique, le bot prend du contenu sur Internet, essaie de comprendre le sujet du contenu et quels « matériaux » peuvent être proposés aux utilisateurs à la recherche de « ces choses », et détermine finalement laquelle des ressources précédemment indexées est en fait la meilleure pour cette requête spécifique à ce moment particulier.

Que fait Googlebot et à quoi ça sert ?

Voulant aller plus loin, Googlebot est un logiciel spécial, communément appelé spider, crawler ou simplement bot, qui analyse le Web en suivant les liens qu’il trouve dans les pages pour trouver et lire du contenu nouveau ou mis à jour et suggérer ce qui devrait être ‘Index, la bibliothèque d’inventaire en constante expansion à partir de laquelle Google extrait directement les résultats de recherche en ligne.

Ce logiciel permet à Google de compiler plus d’ 1 million de Go d’informations en une fraction de seconde , et donc derrière son apparence mignonne – l’image officielle de Googlebot met en scène un mignon petit robot au look vif et vaguement similaire à Wall-E, prêt à embarquer dans une quête pour trouver et indexer des connaissances dans tous les coins encore inconnus du Web – il y a une machine puissante qui parcourt le Web et ajoute constamment des pages à son index.

Plus précisément, Googlebot est le nom générique de deux types de crawlers différents : un crawler de bureau qui simule un utilisateur utilisant un appareil de bureau et un crawler mobile qui simule un utilisateur utilisant un appareil mobile. Parfois, notre site est visité par les deux versions de Googlebot (et au cas où nous pourrions identifier le sous-type de Googlebot en examinant la chaîne de l’agent utilisateur dans la requête), mais si notre site a déjà été converti en mobile-first sur Google, la plupart des requêtes d’exploration de Googlebot sont effectuées à l’aide du robot d’exploration mobile, tandis qu’une petite partie est effectuée avec le robot d’exploration de bureau, et vice versa pour les sites qui n’ont pas encore été convertis (comme l’explique Google, en fait, le robot d’exploration minoritaire ne fait qu’explorer URL déjà explorées par le crawler majoritaire).

De plus, encore une fois, techniquement, Googlebot pour ordinateur et Googlebot pour mobile partagent le même jeton de produit (jeton d’agent utilisateur) dans le fichier robots.txt , nous ne pouvons donc pas cibler de manière sélective Googlebot pour smartphone ou Googlebot pour ordinateur à l’aide du fichier robots .txt.

Combien de fois Googlebot passe ?

Googlebot a été conçu pour fonctionner simultanément sur des milliers d’ordinateurs afin d’améliorer les performances et de suivre le rythme de la croissance du Web.

Normalement, il accède à la plupart des sites pas plus d’une fois toutes les quelques secondes. Dans certains cas et pour de courtes périodes, cette fréquence pourrait être légèrement supérieure.

Il analyse également les ordinateurs physiquement proches des sites qu’il pourrait explorer pour réduire l’utilisation de la bande passante.

Par conséquent, vos journaux peuvent enregistrer des visites Google à partir de différents ordinateurs, tous avec l’agent utilisateur Googlebot, mais avec des adresses IP différentes. Habituellement, l’adresse IP de Googlebot a la classe c suivante : 66.249 .

N’oubliez pas que l’objectif de Googlebot est de récupérer autant de pages que possible de votre site tout en évitant de surcharger votre serveur Web.

Si votre serveur est lent et ne peut pas suivre les requêtes d’exploration de Google, vous pouvez limiter la vitesse d’exploration maximale via les paramètres du site Google Search Console .

Comment empêcher Googlebot de visiter votre site ?

Il est très difficile de garder secret un serveur Web en ne postant pas de liens vers celui-ci.

Par exemple, dès qu’un utilisateur suit un lien de votre serveur « secret » vers un autre serveur, votre URL « secrète » peut apparaître dans la balise de référence et être stockée et publiée dans le fichier journal par l’autre serveur.

De même, il existe de nombreux liens obsolètes et inaccessibles sur le Web. Lorsqu’une personne publie un mauvais lien vers votre site ou ne met pas à jour les liens pour refléter les modifications apportées à votre serveur, Googlebot essaie d’explorer ce mauvais lien depuis votre site.

Si vous souhaitez empêcher Googlebot d’explorer le contenu de votre site, vous disposez des options suivantes :

  1. fichier robots.txt ;
  2. balises meta Robots ;
  3. en-tête http X-Robots-Tag ;
  4. fichiers de serveur Web protégés par mot de passe.

Gardez toujours à l’esprit la différence entre :

  1. empêcher Googlebot d’explorer une page ;
  2. empêcher Googlebot d’indexer une page ;
  3. bloquer complètement les robots d’exploration et les utilisateurs d’accéder à une page.

Ce sont des choses très différentes qui, si elles ne sont pas gérées correctement par un consultant expert en référencement , peuvent causer de graves dommages au trafic organique du site .

Les autres bots de Google

Google utilise des robots d’exploration et des récupérations (des outils comme un navigateur qui demandent une seule URL à la demande d’un utilisateur) pour effectuer des actions pour ses produits, soit automatiquement, soit déclenchées à la demande d’un utilisateur. Googlebot n’est que le crawler principal de Google, mais ce n’est pas le seul et en effet il existe plusieurs robots, qui ont des tâches spécifiques et qui peuvent être inclus dans trois grandes catégories, comme expliqué dans la nouvelle version du document officiel de Mountain View , mise à jour fin avril 2023 :

  • Les robots d’exploration courants , y compris le Googlebot, qui sont utilisés pour créer les index de recherche de Google, effectuer d’autres explorations spécifiques aux produits et à des fins d’analyse. Comme particularité, ils respectent toujours les règles du fichier robots.txt, ont le masque DNS inversé « crawl-***-***-***-***.googlebot.com ou geo-crawl-* **- ***-***-***.geo. googlebot.com » et la liste des plages d’adresses IP se trouve dans le fichier spécifique googlebot.json.
  • Crawlers spéciaux – Crawlers qui exécutent des fonctions spécifiques, utilisés par des produits spécifiques lorsqu’il existe un accord entre le site exploré et le produit concernant le processus d’exploration, et qui peuvent ou non être conformes aux règles de robots.txt. Par exemple, AdSense et AdsBot surveillent la qualité des annonces, tandis que Mobile Apps Android surveille les applications Android, Googlebot-Image surveille les images, Googlebot-Video surveille les vidéos et Googlebot-News surveille les actualités. Leur masque DNS inversé est « rate-limited-proxy-***-***-***-***.google.com » et la liste des plages d’adresses IP se trouve dans le fichier special-crawlers.json (et est différente de ceux des crawlers communs).
  • Récupérateurs déclenchés par l’utilisateur – Outils et fonctionnalités du produit où l’utilisateur final déclenche une récupération , comme Google Site Verifier qui agit à la demande d’un utilisateur. Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent les règles robots.txt. Leur masque DNS inversé est « ***-***-***-***.gae.googleusercontent.com » et la liste des plages IP se trouve dans le fichier user-triggered-fetchers.json .

Les caractéristiques techniques de Googlebot : une araignée persistante et ultra rapide

À partir de mai 2019 , pour le robot d’exploration Big G, il y a eu une innovation technique fondamentale : pour assurer la prise en charge des dernières fonctionnalités des plateformes Web, en fait, Googlebot est devenu évolutif et mis à jour en permanence, équipé d’un moteur capable de gérer de manière cohérente la dernière version. de Chromium lors du rendu des pages Web pour la recherche.

Selon Google, cette fonctionnalité était la « demande numéro un » des participants à l’événement et des communautés de médias sociaux concernant les implémentations à apporter au bot , et donc l’équipe californienne s’est concentrée sur la possibilité de faire en sorte que GoogleBot soit toujours mis à jour avec la dernière version de Chromium. , poursuivant des années de travail sur l’architecture profonde de Chromium, optimisant les couches, intégrant et faisant fonctionner le rendu de recherche, etc.

Concrètement, depuis ce moment Googlebot est devenu capable de supporter plus d’un millier de nouvelles fonctionnalités , comme notamment ES6 et les nouvelles fonctionnalités JavaScript, IntersectionObserver pour le lazy-loading et l’API Web Components v1. De Google, ils invitent ensuite les webmasters et les développeurs à vérifier si le site effectue le transpiling ou utilise polyfill spécifiquement pour GoogleBot et, le cas échéant, à évaluer s’il est toujours nécessaire à la lumière du nouveau moteur, soulignant également qu’il existe encore certaines limitations , notamment pour les JavaScript.

En particulier, dans ces cas, Google a encore besoin de crawler et de restituer JavaScript en deux phases : d’abord GoogleBot scanne la page, puis répète l’opération pour la restituer graphiquement (traduction littérale de rendre ) de manière complète.

Classement sur Google et Googlebot, quelle est la relation ?

Pour en revenir à la vidéo de Splitt (et surtout à l’évocation du positionnement), le développeur avocat de l’équipe Google Search Relations explique mieux le concept de Googlebot et de classement, précisant que l’activité de classement sur Google est informée par Googlebot, mais ce n’est pas le cas partie par Googlebot.

Cela signifie donc que lors de la  phase d’indexation  le programme s’assure que le contenu scanné est utile pour le moteur de recherche et son algorithme de positionnement, qui utilise, comme nous l’avons dit à plusieurs reprises, des  critères spécifiques pour classer les pages , les fameux 200  Ranking Factors .

Un exemple pour comprendre la relation : La recherche comme bibliothèque

La similitude précitée avec une  bibliothèque est donc utile , dans laquelle le gestionnaire « doit établir quel est le contenu des différents livres afin de donner les bonnes réponses aux personnes qui demandent à les emprunter. Pour ce faire, consultez le catalogue de tous les volumes présents et lisez l’index des livres individuels ».

Le catalogue est donc l’index Google créé grâce  aux crawls Googlebot , puis « quelqu’un d’autre » utilise ces informations pour prendre des décisions éclairées et présenter aux utilisateurs le contenu qu’ils demandent (le livre qu’ils veulent lire, pour continuer l’analogie fournie).

Lorsqu’une personne demande au bibliothécaire « quel est le meilleur livre pour apprendre à faire des tartes aux pommes très rapidement », ce dernier doit pouvoir répondre adéquatement en étudiant les index des sujets des différents livres qui parlent de cuisine, mais  il  sait aussi lesquels sont les plus populaires. Ainsi, dans l’environnement Web, nous avons l’index fourni par Googlebot et la « deuxième partie », la classification, qui est basée sur un système sophistiqué qui étudie l’interaction entre les  contenus  présents pour décider quels « livres » recommander à ceux qui demandent pour information.

Plan du site