Statistiques d'accès au site

Avec un mode d'emploi pour mettre en place les mêmes sur le vôtre !

[ D'autres guides UNIX / Linux sont disponibles sur le site ]




[Graphique principal d'accès à www.theraphit.com]

Résumé annuel de la fréquentation du site






Les statistiques sont de retour !

J'ai remis en place un outil d'analyse de la fréquentation du site, en l'occurence il s'agit de Webalizer (lien Wikipédia). C'est le programme que j'utilisais déjà pour la version 2003 du site, l'outil d'origine (Statsbot) lui étant mort et enterré depuis la fin du 20ème siècle.

Bon ce n'est pas pour ça que c'est plus récent, Webalizer date de presque 10 ans désormais et le projet a l'air tout aussi mort que la plupart des liens de mon site. Il est néanmoins encore présent dans les distributions UNIX modernes, est particulièrement léger et simple à configurer, et capable de lire les logs d'un serveur Web moderne.

Et comme j'me fous pas d'vot' gueule, je vais profiter de cette page pour vous expliquer comment le mettre en place pour votre site avec une configuration de base.

Si vous devez mettre en place des statistiques pour un site véritablement visité, pas comme le mien en gros, je vous recommande plutôt de partir sur un outil plus moderne comme AWStats.


TL;DR : accédez directement aux statistiques du site.

Le Webalizer de baz


Webalizer est particulièrement commode à utiliser : un unique fichier de configuration, une génération du rapport en une unique ligne de commmande, avec une possibilité de mise à jour des statistiques à la fréquence que vous souhaitez, sans que cela ne nécessite d'intervenir sur les logs du serveur.

Les pré-requis sont les suivants :
  • Votre serveur Web fonctionne sous une version d'UNIX récente, il y a un package de Webalizer pour à peu près tous les systèmes : Linux, Solaris, FreeBSD, NetBSD, ...
  • Vous disposez de l'accès root au serveur.
  • Votre logiciel serveur HTTP utilise un format de log CLF. Ca devrait, vu que ça date (comme Omar) du NSCA HTTPd et c'est toujours d'actualité avec Apache bien entendu, mais aussi avec Lighttpd que j'utilise.
La version utilisée sur le site est la 2.23, que l'on retrouve sur tous les systèmes récents.




Le fichier de configuration


Vous le retrouverez sous /etc/webalizer.conf ou /usr/local/etc/webalizer.conf, sachant qu'il est possible de le passer en paramètre au programme, quoi qu'il en soit.

Il y a un fichier d'exemple livré avec le programme qui est plutôt bien fait, avec tous les commentaires nécessaires pour comprendre les différentes options. Alors je vais me contenter d'insister sur ce qui est le plus important, et que vous devez au minimum configurer.
  • LogFile : définit l'emplacement du journal d'accès à votre site, tel qu'enregistré par le serveur HTTP. Il s'agit d'un chemin UNIX absolu.
  • OutputDir : chemin absolu sur le serveur ou vous souhaitez que le programme produise les pages HTML et les images du rapport. Cela doit donc correspondre à un répertoire accessible via le serveur HTTP.
  • ReportTitle et HostName : permettent de personnaliser le titre de la page d'accueil du rapport.
  • UseHTTPS : les pages Web du rapport vont comporter des liens vers vos URL, vous pouvez préciser ici si vous souhaitez que ces liens soient en http:// ou https://. A noter que les liens internes entre les dfférentes pages du rapport sont relatifs, et donc conserveront le scheme HTTP.
  • DNSChildren : paramètre important ! Si vous laissez la configuration par défaut à 0, aucune résolution DNS inverse des adresses IP(v6) qui ont accédé à votre serveur ne seront faites. Cela peut être un choix néanmoins.
  • IndexAlias : si vous utilisez autre chose que index.html comme page Web par défaut d'un répertoire, vous pouvez le préciser au programme ici.
  • HideReferrer : il est indispensable ici de préciser au moins le nom de domaine principal de votre site, car sans cela le résumé des referrers ne sera pas vraiment exploitable.
  • HideURL : permet de ne pas tenir compte des accès aux URL qu'il ne serait pas pertinents de faire figurer dans le rapport, par exemple toutes vos images partagées, vos logos et autres inserts. Si vous rendez public l'accès au rapport, vous devez aussi indiquer ici vos URL privés, car sans cela ils pourraient être divulgués. Les chemins indiqués sont relatifs, donc le '/' correspond à la racine de votre site.
  • IgnoreSite : permet d'ignorer complètement les visites depuis certaines adresses IP, et cela tient compte de la résolution DNS. Cela peut servir pour ne pas afficher vos propres accès à votre site.
Une fois le fichier de configuration prêt, il suffit simplement d'exécuter le programme en entrant webalizer à la ligne de commande, en root. Vous pouvez ajouter quelques paramètres tels que -c, permettant de spécifier un autre fichier de configuration, ou -q pour supprimer ce qu'écrit le programme sur la sortie standard (utile avec cron).

La résolution DNS pourrait prendre un peu de temps (plusieurs minutes) lors de la première exécution du programme. Ne vous inquiétez pas, il est juste conçu pour ne pas « labourer » vos résolveurs DNS. ;) Une fois que le programme a construit son fichier de cache DNS, les exécutions suivantes sont plus rapides.

Le programme a été conçu dans l'idée que les logs du serveur HTTP que vous analysez ne sont pas purgés à une fréquence inférieure à un mois dans sa configuration de base. Si vous purgez vos journaux plus fréquemment car votre site est très visité, il vous faudra vous plonger un peu plus profondément dans la configuration du programme pour activer les fonctions incrémentales. Néanmoins, comme je l'ai écrit en introduction, ce n'est peut-être pas l'outil le plus adapté en un tel cas.

Page générée le 07 mai 2025 avec Vi IMproved 9.1 ;D
TheRaphit's Web Site - La dernière homepage du Web


[(Tout)2 Evangelion] [Webzine : La Revue] [Pink Zone 2025] [Mathématiques]

[Nouveautés] [Zone de téléchargement]


Site créé le 16 janvier 1997
©1997-2025 by TheRaphit

www.theraphit.com