Budget Crawl : pourquoi est-il si important en SEO ? Explication 

Gestion du budget d'exploration pour les sites volumineux, c'est quoi ? Définition SEO

Backlinks, balises, CMS, longue traîne, maillage interne / externe, SERP, Sitemap… en SEO, les termes techniques sont nombreux. Certains sont assez faciles à comprendre, quand d’autres sont un peu plus compliqués et parfois négligés (à tort). C’est le cas du Crawl Budget.

Deux mots pour désigner une notion importante en référencement naturel puisqu’il s’agit du nombre de pages d’un site Internet explorées par jour par les robots d’un moteur de recherche (Google étant le parfait exemple). Dès lors, il est indispensable d’en tenir compte dans une stratégie SEO, et de bien comprendre son fonctionnement, et ses conséquences.

Sans oublier les évolutions de Google. La dernière en date a été révélée par Gary Illyes, analyste de Google qui a pour mission en 2024 de trouver des solutions pour réduire le crawl et la consommation de données. L’objectif à terme étant de favoriser la qualité plutôt que la quantité.

Mais avant de s’intéresser à cette volonté d’affinage du processus de crawl de Google, il faut :

  • définir le Crawl Budget ;
  • expliquer son importance en SEO ;
  • présenter ses facteurs d’influence ;
  • lister les outils disponibles pour suivre sa progression.

Un vaste programme à découvrir dès maintenant dans cet article !

Qu’est-ce que le « Crawl Budget » ?

Le Budget (de) Crawl ou Budget d'exploration (Crawl Budget en anglais)

Le Crawl Budget peut se définir en quelques mots : il s’agit du nombre de pages explorées par les robots de Google (les « Googlebots ») sur un site en un temps donné. Cette étape est incontournable pour être :

  • indexé dans les résultats du moteur de recherche et donc, référencé ;
  • plus visible sur Internet.

Elle est réalisée de manière automatique, par des robots qui parcourent Internet, et explorent les différentes pages des sites. Ils peuvent le faire de 3 façons :

  • à partir des données des sitemaps ;
  • depuis un répertoire d’URL connues ;
  • en allant de lien en lien.

Après le passage d’un robot, les pages crawlées sont indexées. Elles deviennent visibles aux yeux de tous les internautes, qui peuvent y accéder depuis un moteur de recherche.

En revanche, de nombreuses données étant mobilisées sur un serveur lors du passage d’un robot, il existe un taux limite de crawl (Crawl Rate Limit en anglais). Le but étant d’éviter la surcharge du serveur d’un site, qui pourrait nuire à l’expérience utilisateur. Il est également possible de faire une demande de crawl (Crawl Demand),à la suite d’un ajout de page ou de modifications apportées à un site afin qu’elles soient prises en compte par les robots.

Un critère important pour le référencement naturel

Pour positionner des sites dans les SERP (pages de résultat de recherche), Google analyse notamment les données enregistrées par ses robots lorsqu’ils explorent des sites. Le Crawl Budget a donc un impact sur le référencement naturel des pages d’un site Internet. S’il est insuffisant, l’actualisation du contenu d’un site et l’ajout de nouvelles pages sont indexés tardivement par les robots. Par conséquent, les résultats se font attendre car leur positionnement est moins bon, et il peut arriver que des pages peu explorées ne soient pas indexées.

L’importance d’un Crawl Budget bien géré (ni excessif, ni insuffisant) en SEO peut donc se résumer en 3 points :

  • une meilleure visibilité d’un site dans les SERP grâce à l’exploration de nouvelles pages et donc, leur indexation ;
  • une indexation rapide des mises à jour d’un site (ajout ou modification de contenu par exemple) pour permettre aux internautes de trouver des informations récentes sur un site lors d’une recherche ;
  • un maintien des performances d’un site grâce à l’exploration suffisante d’un site par les robots.

C’est pourquoi il faut connaître les critères qui déterminent le Crawl Budget, et les outils utiles pour suivre la progression de l’indexation des pages. 

La fréquence de crawl des robots d’indexation

Pour déterminer la fréquence d’exploration d’un site (Crawl Bugdet), plusieurs critères sont pris en compte par Google. Les plus fréquents sont :

  • le temps de chargement du site : plus il est lent, moins le taux d’exploration est élevé ;
  • le nombre de pages : plus elles sont nombreuses, plus le Crawl Budget doit être élevé afin qu’elles soient toutes explorées et indexées ;
  • les crawlers traps (ou pièges à crawl), qui désignent des problèmes de structure d’un site et freinent le travail des robots (exemple : de nombreuses URL non pertinentes) ;
  • le fréquence d’actualisation d’un site, qui doit être régulière pour inciter les robots à venir explorer ses pages ;
  • les redirections excessives et erreurs, qui font perdre du temps aux robots ;
  • les nombreux chargements de scripts JavaScript ;
  • le contenu dupliqué interne et de faible qualité ;
  • la structure de navigation qui doit être claire pour simplifier le travail des robots et favoriser une exploration efficace ;
  • la popularité d’un site : un site avec de nombreux liens entrants de qualité est mieux considéré par les robots, et donc plus souvent parcouru.

Ces critères influencent donc de deux façons le Crawl Budget d’un site :

  • soit ils le ralentissent ;
  • soit ils l’améliorent.

Dès lors, il est important de les travailler en priorité pour éviter des pénalités en SEO.

Comment optimiser le Crawl Budget d’un site ?

Les critères cités précédemment constituent une bonne base de travail pour avoir un meilleur Crawl Budget. Pour l’optimiser et veiller à la performance SEO d’un site, plusieurs actions peuvent être réalisées, dont :

  • améliorer la vitesse de chargement des pages d’un site (changer la solution d’hébergement, optimiser les capacités d’affichage en utilisant un CDN ou en compressant des médias par exemple) ;
  • supprimer les pages inutiles, le contenu dupliqué en interne et les liens erronés ;
  • bloquer dans le fichier robots.txt les pages qui ne doivent pas être indexées ;
  • réécrire les URL pour qu’elles soient claires, cohérentes, et revoir le maillage interne ;
  • utiliser un sitemap pour faciliter la navigation des robots sur votre site ;
  • publier régulièrement du contenu de qualité ;
  • éviter les pages d’erreur 404 ;
  • créer des backlinks de qualité.

Ces différentes actions sont donc des axes d’optimisation à travailler en priorité, pour répondre aux critères d’exploration des Googlebots.

Quels sont les meilleurs outils pour suivre l’exploration d’un site par les robots de Google ?

Pour optimiser le Crawl Budget d’un site et sa performance SEO, outre les actions précédentes à mettre en place, il faut suivre sa progression. C’est une étape clé pour l’évaluer et tenter de comprendre le comportement des robots de Google sur un site. Pour cela, quelques outils sont disponibles en ligne, que nos experts connaissent bien :

  • Google Search Console, qui indique le nombre de pages explorées par les Googlebots sur un site, les pages ayant des erreurs et celles qui sont exclues de l’indexation, ainsi que la fréquence d’exploration ;
  • SEMrush, qui aide à surveiller les erreurs de crawl, les problèmes de contenu dupliqué et de structure ;
  • DeepCrawl, qui fournit une analysée détaillée d’un site avec des rapports sur les erreurs de crawl, les problèmes de structure et de performance d’un site ;
  • Screaming Frog, qui permet de parcourir un site à la manière d’un moteur de recherche et aide à mieux comprendre ce que les robots voient lors de leur exploration.

Crawler moins mais mieux, le nouvel objectif de Google

En mars 2024, une mise à jour d’un algorithme de Google a été déployée : Core Update. Son objectif est d’améliorer la qualité des résultats de recherche en favorisant le contenu utile. A cet effet, Google a édicté de nouvelles politiques anti-spam et une fois encore, cette mise à jour a entraîné bien des questions de la part des experts SEO. Ils sont ainsi nombreux à se demander quelles seront les prochaines actions de Google sur le référencement naturel des sites. Début avril, Gary Illyes, un analyste du géant du web, leur a fourni un élément de réponse.

En effet, il a publié un message sur le réseau social LinkedIn expliquant sa mission pour 2024 : « trouver un moyen de crawler encore moins, et de consommer moins ». Cette publication répond à un post sur un fil Reddit indiquant, selon son auteur, que « Google crawle moins que les années précédentes ».

Or, d’après Gary Illyes, ce n’est pas le cas. Les explorations des Googlebots sont toujours aussi fréquentes, « mais la planification est devenue plus intelligente et nous nous concentrons davantage sur les URL qui sont plus susceptibles de mériter d’être explorées ». Néanmoins, il reconnaît qu’ils devraient moins crawler, et consommer moins de données. Il est donc à la recherche d’une solution efficace pour « réduire l’exploration sans sacrifier sa qualité ».

Mais ce n’est pas la seule information concernant le Crawl Budget qui a été révélée récemment. Gary Illyes a également précisé en mars dernier que la demande de recherche détermine les limites de crawl. En d’autres termes, la qualité du contenu d’un site serait un critère important de décision pour le crawl. Cela permet à Google de s’adapter aux tendances de recherche des internautes et de mieux indexer les contenus pertinents.

Mi-mars 2024, d’autres experts travaillant chez Google ont aussi expliqué qu’il n’existait pas de budget de crawl fixe. Tout dépend des sites. Du cas par cas en somme, mais on sait qu’il existe des moyens pour bénéficier d’un budget crawl plus élevé :

  • mettre en ligne des contenus de qualité, avec une valeur ajoutée, correspondant à l’intention de recherche des internautes, et actualiser des anciens contenus avec des données récentes ;
  • améliorer un site en tenant compte des critères cités précédemment (temps de chargement, structure, maillage …etc.).

Pour Google, cette volonté de faciliter le crawl des robots est aussi un moyen de réduire sa consommation de données, améliorer la qualité de son indexation, et diminuer son empreinte numérique.

Dès lors, pour bien comprendre la position de Google et les intérêts du Crawl Budget, il faut retenir que :

  • il n’y a pas de budget fixe à l’indexation d’un site selon les experts Google ;
  • la production de contenus de qualité est indispensable ;
  • un site doit être optimisé avant tout pour fournir une bonne expérience utilisateur, et non pour manipuler un quota de crawl.

Chez Powertrafic, le Crawl Budget est une notion bien connue de nos experts SEO. Nous pouvons donc vous aider à :

  • améliorer votre site internet pour répondre aux exigences de Google ;
  • proposer des contenus utiles et pertinents aux internautes ;
  • mieux positionner votre site dans les SERP.

Alors si vous êtes intéressé ou si vous avez des questions sur le sujet, n’hésitez pas à nous contacter !

Facebook
Twitter
LinkedIn