Google ne prendra plus en compte plusieurs déclarations dans le robots.txt

Google est le moteur de recherche qui possède plus de 90% des parts du marché mondial (Source : StatCounter). C’est donc un acteur indispensable pour les entreprises qui souhaitent gagner en visibilité dans les résultats de recherche. Le géant du web, qui fait partie des GAFAM, ne cesse de mettre à jour GoogleBot – son robot d’indexation. Une nouveauté arrivera le 1er septembre 2019 : le robot ne prendra plus en compte certaines déclarations du robots.txt. Votre agence de SEO vous en dit plus sur cette nouvelle mise à jour.  

Quelles sont ces déclarations qui ne seront plus prises en compte ? 

C’est en 1994 que Martijn Koster, ingénieur en logiciel et webmaster, a créé un standard initial suite à l’invasion de robot d’indexation sur son site. Après la collaboration avec d’autres webmasters, le REP – pour Robots Exclusion Protocol  est développé et adopté par les moteurs de recherche dans le but d’aider les propriétaires de site web.  

On peut retrouver, parmi les déclarations qui ont été mises en place, le crawl-delay, noindex et nofollow. Ce sont ces dernières qui ne seront plus comptabilisées par le GoogleBot.  

Pourquoi Google ne les comptabilisera plus ? 

Google donne la possibilité aux webmasters de ne pas indexer certaines pages, notamment grâce à la déclaration noindex dans le fichier robots.txt – qui recense les zones du site qui peuvent être indexées. Elle fait partie des composants principaux du Web, et cela depuis 25 ans. Cependant, elle, et les autres déclarations ciblées par cette mise à jour, n’est pas devenue un standard d’Internet et n’a jamais été mis à jour.  

Dans l’objectif d’aider les propriétaires de site Internet et les développeurs, Google souhaite un standard officiel pour son REP, ainsi que créer des règles d’exploration que suivront les robots d’indexation.  

Comme le mentionne Google dans son billet de blog sur cette nouveauté, les déclarations présentes dans le robots.txt ne possédaient pas de documentations et ne correspondaient pas au standard initial créé par Martijn Koster. Google a alors pris la décision de ne plus comptabiliser les codes qui traitent des règles non prises en charge et non publiées. 


Les alternatives pour désindexer des pages 

Même si Google ne prendra plus en compte les déclarations citées précédemment, des solutions existent afin de continuer à désindexer des pages web. Parmi ces dernières, vous pourrez donc : 

  • Déclarer noindex dans les balises méta robots. La déclaration sera prise en charge dans les en-têtes de réponse HTTP et en HTML. 
  • Ajouter les codes de statut HTTP 404 et 410. Ils signifient que la page n’existe pas, et par conséquent suppriment les URL de l’index de Google après avoir été analysées. 
  • Mettre un mot-de-passe pour accéder à une page. Ce dernier la masquera des index de Google. 
  • Déclarer Disallow dans le fichier robots.txt. Cette déclaration permet de bloquer l’exploration de la page par les robots car les moteurs de recherche n’ont pas connaissance de celle-ci. 
  • Utiliser la console de recherche de suppression d’URL. Cette dernière sert à supprimer facilement et temporairement une URL des résultats de recherche de Google. 

Que retenir ?  

À partir du 1er septembre prochain, le GoogleBot ne prendra plus en compte les déclarations crawl-delay, noindex et nofollow. En effet, celles-ci ne possèdent pas de documentation et ne correspondent pas à un standard, ce que veut changer le géant d’Internet. 

N’hésitez pas à nous contacter si vous souhaitez que l’on vous accompagne dans tous vos projets SEO.