Les bugs des robots d'indexation

Cette page est disponible en deux variantes

Thème clair

[Thème sombre]

Sur cette page, j'ai recensé quelques-uns des bugs ou plus exactement « anomalies » de fonctionnement des robots.

La plupart de ces comportements sont en effet très probablement intentionnellement programmés, mais ils sont toutefois de nature à créer une charge inutile sur le serveur hébergeant le site visité, ou d'autres effets indésirables tel que l'exploration de ressources n'étant pas censées être accédées par les robots.

Pour chacun de ces problèmes vous en trouverez la description, une liste des robots affectés et l'éventuel contournement que vous pouvez mettre en place. Ce n'est bien sûr pas une liste complète, mais j'ai recensé ici les dingueries majeures.

🐞 Le robot accède (ou tente d'accéder) à un URL d'exemple

Si vous insérez dans le corps du texte de votre page un URL complet, servant d'exemple pour illustrer votre propos, alors les robots vont essayer d'y accéder. Que ce soit interne à votre site ou non, et que cela corresponde à une véritable page ou non.

Par exemple si vous écrivez :
« Votre balise canonique doit inclure le protocole, comme ceci : https://www.theraphit.com/revue/rev34.html »
Alors la page ciblée par cet URL sera visitée. C'est bien sûr absurde, notamment si vous illustrez vos propos en utilisant un domaine « générique » n'existant pas, tel que 'domaine.tld'. Ce bug ce produit même si vous insérez un exemple de lien en HTML :
« Vous pouvez utiliser le nofollow comme ceci : <a href="https://www.theraphit.com/revue/explic.html rel="nofollow">Explications sur <i>La Revue</i></a> (page non référencée) »
D'ailleurs, si la tentative d'accès renvoie un code 404 au robot, ne pas croire qu'il va abandonner... Et même si vous retirez par suite le lien d'exemple de la page en question, ne pas croire qu'il va renoncer...

Affectés : Googlebot, Ahrefsbot et les « rogue » bots d'IA.
Contournement : les robots peuvent être très idiots et vous ne pouvez pas les en empêcher... Néanmoins si l'URL présent sur votre page n'est pas complet ni un lien d'exemple avec <a href="..."> tout en étant parfaitement lisible par des humains - en écrivant par exemple seulement theraphit.com/downloads - alors le robot ne tente pas d'y accéder.

🐞 Le robot visite les liens figurant dans une partie de votre page qui a été incluse dans un commentaire HTML

C'est plus ou moins le cousin du précédent. Si vous avez commenté des parties de vos pages, avec la balise HTML , et que celles-ci incluaient des liens hypertexte, alors les pages cibles peuvent tout de même être explorées.

Affectés : essentiellement les bots d'IA qui ne se déclarent pas pour pouvoir aspirer « discrètement » du contenu...
Contournement : si vous avez passé en commentaire des liens « morts » ou ceux pointant vers des pages que vous retravaillez et qui ne doivent pas être visitées dans l'intervalle, vous allez devoir les rendre inaccessibles par un moyen supplémentaire, par exemple en insérant un caractère '*' quelque part dans l'URL, car celui-ci ne peut jamais se trouver dans un nom de domaine ou de fichier. Il sera ensuite aisé, au moment où vous rétablirez votre lien, de repérer ce caractère et de le supprimer au même moment.

🐞 Exploration de chemins alternatifs à répétition

Le robot cherche à accéder à de multiples reprises aux même pages via des chemins équivalents, par exemple /revue/rev34.html ou /../revue/rev34.html ou encore /../../revue/rev34.html en considérant que ce sont des pages différentes. J'y ai dédié une section de l'article n° 38 avec des exemples de logs issus de mon serveur.

Affectés : IbouBot et Barkrowler, deux robots appartenant à la même société française, Babbar.
Contournement : ne pas utiliser de chemins relatifs sur votre site devrait logiquement régler le problème, mais vous ne devriez jamais avoir à adapter la rédaction de votre HTML à des bots trivialement buggés et codés avec les pieds. On apprend dès le premier mois d'études en informatique que /fichier.html et /../fichier.html sont trivialement le même fichier. Donc le réel contournement, c'est de bannir ces merdes via votre robots.txt ou de filtrer les blocs d'adresses IP qui les hébergent (217.113.194.0/23 et 217.113.196.0/24) via votre firewall.

🐞 Indexation de pages malgré le blocage par robots.txt

Celui-là est assez magnifique ! Vous allez me demander « comment c'est possible ? » et vous allez voir que c'est subtil.

Cela se pose tout particulièrement avec les liens situés sur la page principale de votre domaine, laquelle est toujours considéré de plus grande importance par les robots. Si un lien sur cet accueil pointe par exemple vers le répertoire /private/ alors que ce répertoire est interdit d'exploration, la page cible risque d'être indexée. On parle bien ici de lien hypertexte, de type <a href="/private/">accédez à la partie privée</a> et non de l'insertion d'une image ou autre élément (ce qui ne pose pas de problème).

C'est assez ubuesque puisque le moteur de recherche va alors indexer une « page vide ».

A noter que si vous bloquez ultérieurement par robots.txt des sous-répertoires contenant des pages déjà indexés, alors vous ferez face à la même situation, mais cette fois-ci ce n'est pas un bug. Pour désindexer proprement une page, il faut que le répertoire où figure celle-ci soit autorisé à l'exploration.

Affectés : Bingbot.
Contournement : si vous placez des liens vers des pages ne devant pas être indexées depuis l'accueil de votre site, je vous conseille donc d'utiliser une balise <meta name="robots" content="noindex" /> plutôt que d'ajouter le sous-répertoire où elles se trouvent en Disallow: via votre robots.txt. Cela peut aussi éviter que le robot ne se « bloque » sur l'exploration du reste de votre site à cause de ce problème. Généralement il vaut mieux n'utiliser l'interdiction complète d'accès à sous-répertoire via robots.txt lorsque celui-ci ne contient que des images, des fichiers à télécharger ou des scripts. Au contraire du nofollow, le noindex est très bien interprété - sauf par les robots d'IA, mais eux ne respectent rien de toute façon.

🐞 L'ignorance cordiale du 'nofollow' lorsque associé au 'noindex'

Il y a deux manières d'utiliser le mot clé nofollow.

Soit en l'ajoutant directement à un lien hypertexte comme ceci :
<a href="rev20a.html" rel="nofollow">Page secrète</a>
Soit via la balise d'en-tête destinée aux robots comme cela :
<meta name="robots" content="nofollow" />
Les documentations de Google mentionnent explicitement que le nofollow n'est qu'une indication, et qu'il n'interdit en aucun cas l'exploration de la page cible comme expliqué sur la page principale de cet article. Cependant, s'il y a une combinaison de noindex et de nofollow dans une même balise <meta>, la page est normalement marquée comme étant à ignorer en ce qui concerne l'indexation.

A partir de là, il n'y a aucune raison pour un robot de tenter d'explorer plus avant, en toute logique l'humain ayant écrit la page ne souhaite pas que les liens figurant dans la page ne soient explorés, pas plus que les pages cibles ne doivent être indexées. Dans l'idée d'économiser du quota d'indexation, aucun lien ne devrait être suivi dans ce cas.

Affectés : Ahrefsbot et les bots d'IA (ça devient une habitude...)
Contournement : si les pages cibles à ne pas explorer sont situées dans un répertoire privé, il est éventuellement possible de le bloquer via le fichier robots.txt, mais c'est à utiliser avec prudence (cf. bug précédent).

En cas d'ajout d'un bug supplémentaire à cette liste, cela sera indiqué sur la page des nouveautés.

Une grosse dinguerie botesque dont je n'ai pas parlé ? N'hésitez pas à me suggérer des modifications en m'écrivant !

La Revue de TheRaphit.com

Nombre de visiteurs
depuis le 13 mai 1997.

[Accueil] [C'est quoi ?]

TheRaphit's Web Site - La dernière homepage du Web

[(Tout)² Evangelion]

Webzine : La Revue

[Manga Pink Zone] [Mathématiques]

[Nouveautés] [Téléchargements] [FAQ illustrée]

Site créé le 16 janvier 1997
©1997-2026 by TheRaphit
www.theraphit.com