|
Les bugs des robots d'indexation
Cette page est disponible en deux variantes
Thème clair
[Thème sombre]
Sur cette page, j'ai recensé quelques-uns des bugs ou plus exactement
« anomalies » de fonctionnement des robots.
La plupart de ces comportements sont en effet très probablement intentionnellement
programmés, mais ils sont toutefois de nature à créer une charge inutile sur
le serveur hébergeant le site visité, ou d'autres effets indésirables tel
que l'exploration de ressources n'étant pas censées être accédées par les robots.
Pour chacun de ces problèmes vous en trouverez la description, une liste des robots
affectés et l'éventuel contournement que vous pouvez mettre en place. Ce n'est
bien sûr pas une liste complète, mais j'ai recensé ici les dingueries majeures.
🐞 Le robot accède (ou tente d'accéder) à un URL d'exemple
Si vous insérez dans le corps du texte de votre page un URL complet, servant d'exemple
pour illustrer votre propos, alors les robots vont essayer d'y accéder. Que ce
soit interne à votre site ou non, et que cela corresponde à une véritable page ou non.
Par exemple si vous écrivez :
« Votre balise canonique doit inclure le protocole, comme ceci :
https://www.theraphit.com/revue/rev34.html »
Alors la page ciblée par cet URL sera visitée. C'est bien sûr absurde, notamment si vous
illustrez vos propos en utilisant un domaine « générique » n'existant pas,
tel que 'domaine.tld'. Ce bug ce produit même si vous insérez
un exemple de lien en HTML :
« Vous pouvez utiliser le nofollow comme ceci :
<a href="https://www.theraphit.com/revue/explic.html rel="nofollow">Explications sur <i>La Revue</i></a> (page non référencée) »
D'ailleurs, si la tentative d'accès renvoie un code 404 au robot, ne pas croire qu'il
va abandonner... Et même si vous retirez par suite le lien d'exemple de la page
en question, ne pas croire qu'il va renoncer...
-
Affectés : Googlebot, Ahrefsbot et les « rogue » bots d'IA.
-
Contournement : les robots peuvent être très idiots et vous ne pouvez
pas les en empêcher... Néanmoins si votre lien d'exemple
n'est pas un URL complet, tout en étant lisible par des humains
(du genre :
theraphit.com/downloads) alors le robot ne tente
pas d'y accéder.
🐞 Le robot visite les liens figurant dans une partie de votre
page qui a été incluse dans un commentaire HTML
C'est plus ou moins le cousin du précédent. Si vous avez commenté des parties de vos
pages, avec la balise HTML <!-- ... -->, et que celles-ci incluaient
des liens hypertexte, alors les pages cibles peuvent tout de même être explorées.
-
Affectés : essentiellement les bots d'IA qui ne se déclarent pas pour pouvoir
aspirer « discrètement » du contenu...
-
Contournement : si vous avez passé en commentaire des liens
« morts » ou ceux pointant vers des pages que vous retravaillez et qui
ne doivent pas être visitées dans l'intervalle, vous allez devoir les rendre
inaccessibles par un moyen supplémentaire, par exemple en insérant un caractère
'*' quelque part dans l'URL, car celui-ci ne peut jamais se trouver dans un
nom de domaine ou de fichier. Il sera ensuite aisé, au moment où vous rétablirez
votre lien, de repérer ce caractère et de le supprimer au même moment.
🐞 Exploration de chemins alternatifs à répétition
Le robot cherche à accéder à de multiples reprises aux même pages via des chemins
équivalents, par exemple /revue/rev34.html ou
/../revue/rev34.html ou encore /../../revue/rev34.html
en considérant que ce sont des pages différentes.
-
Affectés : un seul à ma connaissance, le fameux IbouBot dont je parle
dans l'article n° 38.
-
Contournement : ne pas utiliser de chemins relatifs sur votre site devrait
logiquement régler le problème, mais vous ne devriez jamais avoir à adapter
la rédaction de votre HTML à des bots trivialement buggés et codés avec les pieds.
On apprend dès le premier mois d'études en informatique que
/fichier.html
et /../fichier.html sont trivialement le même fichier.
Donc le réel contournement, c'est de bannir cette merde via
votre robots.txt ou de filtrer le bloc d'adresses IP qui
l'héberge (217.113.196.0/24).
🐞 Indexation de pages malgré le blocage par robots.txt
Celui-là est assez magnifique ! Vous allez me demander
« comment c'est possible ? » et vous allez voir que
c'est subtil.
Cela se pose tout particulièrement avec les liens situés sur la page principale
de votre domaine, laquelle est toujours considéré de plus grande importance
par les robots. Si un lien sur cet accueil pointe par exemple vers le
répertoire /private/ alors que ce répertoire est interdit d'exploration,
la page cible risque d'être indexée. On parle bien ici de lien hypertexte,
de type <a href="/private/">accédez à la partie privée</a>
et non de l'insertion d'une image ou autre élément (ce qui ne pose pas de problème).
C'est assez ubuesque puisque le moteur de recherche va alors indexer une
« page vide ».
A noter que si vous bloquez ultérieurement par robots.txt des
sous-répertoires contenant des pages déjà indexés, alors vous ferez face à
la même situation, mais cette fois-ci ce n'est pas un bug. Pour désindexer
proprement une page, il faut que le répertoire où figure celle-ci soit
autorisé à l'exploration.
-
Affectés : Bingbot.
-
Contournement : si vous placez des liens vers des pages ne devant pas être
indexées depuis l'accueil de votre site, je vous conseille donc d'utiliser
une balise
<meta name="robots" content="noindex" /> plutôt
que d'ajouter le sous-répertoire où elles se trouvent en Disallow: via votre
robots.txt. Cela peut aussi éviter que le robot ne se
« bloque » sur l'exploration du reste de votre site à cause
de ce problème. Généralement il vaut mieux n'utiliser l'interdiction complète d'accès
à sous-répertoire via robots.txt lorsque celui-ci
ne contient que des images, des fichiers à télécharger ou des scripts. Au contraire
du nofollow, le noindex est très bien interprété - sauf
par les robots d'IA, mais eux ne respectent rien de toute façon.
🐞 L'ignorance cordiale du 'nofollow' lorsque associé au 'noindex'
Il y a deux manières d'utiliser le mot clé nofollow.
Soit en l'ajoutant directement à un lien hypertexte comme ceci :
<a href="page-non-indexee.html" rel="nofollow">Page privée</a>
Soit via la balise d'en-tête destinée aux robots comme cela :
<meta name="robots" content="nofollow" />
Les documentations de Google mentionnent explicitement que le nofollow
n'est qu'une indication, et qu'il n'interdit en aucun cas l'exploration de la page cible
comme expliqué sur la page principale de cet article. Cependant,
s'il y a une combinaison de noindex et de nofollow dans
une même balise <meta>, la page est normalement marquée
comme étant à ignorer en ce qui concerne l'indexation.
A partir de là, il n'y a aucune raison pour un robot de tenter d'explorer plus avant,
en toute logique l'humain ayant écrit la page ne souhaite pas que les liens
figurant dans la page ne soient explorés, pas plus que les pages cibles
ne doivent être indexées. Dans l'idée d'économiser du quota d'indexation,
aucun lien ne devrait être suivi dans ce cas.
-
Affectés : Ahrefsbot et les bots d'IA (ça devient une habitude...)
-
Contournement : si les pages cibles à ne pas explorer sont situées dans
un répertoire privé, il est éventuellement possible de le bloquer via le fichier
robots.txt, mais c'est à utiliser avec prudence (cf. bug précédent).
En cas d'ajout d'un bug supplémentaire à cette liste, cela sera indiqué sur la page des
nouveautés.
Une grosse dinguerie botesque dont je n'ai pas parlé ?
N'hésitez pas à me suggérer des modifications
en m'écrivant !
La Revue de TheRaphit.com
![[Compteur]](https://webcounter.theraphit.com/scripts/Count.cgi?dd=B&ft=1&df=revue.dat)
Nombre de visiteurs
depuis le 13 mai 1997.
[Accueil]
[C'est quoi ?]
TheRaphit's Web Site - La dernière homepage du Web
[(Tout)2 Evangelion]
Webzine : La Revue
[Manga Pink Zone]
[Mathématiques]
[Nouveautés]
[Zone de téléchargement]
Site créé le 16 janvier 1997
©1997-2026 by TheRaphit
www.theraphit.com
|