|
Statistiques d'accès au site
Avec un mode d'emploi pour mettre en place
les mêmes sur le vôtre !
[ D'autres guides UNIX / Linux sont disponibles
sur le site ]
Résumé annuel de la fréquentation du site
Les statistiques sont de retour !
J'ai remis en place un outil d'analyse de la fréquentation du site, en l'occurence
il s'agit de
Webalizer (lien
Wikipédia). C'est le programme que j'utilisais déjà pour la version 2003 du site,
l'outil d'origine (Statsbot) lui étant mort et enterré depuis la fin du
20ème siècle.
Bon ce n'est pas pour ça que c'est plus récent, Webalizer date de presque 10 ans
désormais et le projet a l'air tout aussi mort que la plupart des liens de mon
site. Il est néanmoins encore présent dans les distributions UNIX modernes,
est particulièrement léger et simple à configurer, et capable de lire les
logs d'un serveur Web moderne.
Et comme j'me fous pas d'vot' gueule, je vais profiter de cette page pour vous
expliquer comment le mettre en place pour votre
site avec une configuration de base.
Si vous devez mettre en place des statistiques pour un site véritablement visité,
pas comme le mien en gros, je vous recommande plutôt de partir sur un outil
plus moderne comme AWStats.
TL;DR : accédez directement aux
statistiques du site.
Le Webalizer de baz
Webalizer
est particulièrement commode à utiliser : un unique fichier de configuration,
une génération du rapport en une unique ligne de commmande, avec une possibilité
de mise à jour des statistiques à la fréquence que vous souhaitez, sans que cela
ne nécessite d'intervenir sur les logs du serveur.
Les pré-requis sont les suivants :
-
Votre serveur Web fonctionne sous une version d'UNIX récente, il y a un package
de Webalizer pour à peu près tous les systèmes : Linux, Solaris, FreeBSD, NetBSD, ...
-
Vous disposez de l'accès root au serveur.
-
Votre logiciel serveur HTTP utilise un format de log CLF. Ca devrait, vu que ça date
(comme Omar) du NSCA HTTPd et c'est toujours d'actualité avec
Apache bien entendu,
mais aussi avec Lighttpd que
j'utilise.
La version utilisée sur le site est la 2.23, que l'on retrouve sur tous les
systèmes récents.
Le fichier de configuration
Vous le retrouverez sous /etc/webalizer.conf ou
/usr/local/etc/webalizer.conf , sachant qu'il est possible de
le passer en paramètre au programme, quoi qu'il en soit.
Il y a un fichier d'exemple livré avec le programme qui est plutôt bien
fait, avec tous les commentaires nécessaires pour comprendre les différentes
options. Alors je vais me contenter d'insister sur ce qui est le plus important,
et que vous devez au minimum configurer.
-
LogFile : définit l'emplacement du journal d'accès à votre site, tel
qu'enregistré par le serveur HTTP. Il s'agit d'un chemin UNIX absolu.
-
OutputDir : chemin absolu sur le serveur ou vous souhaitez que
le programme produise les pages HTML et les images du rapport. Cela doit donc
correspondre à un répertoire accessible via le serveur HTTP.
-
ReportTitle et HostName : permettent de personnaliser
le titre de la page d'accueil du rapport.
-
UseHTTPS : les pages Web du rapport vont comporter des liens vers
vos URL, vous pouvez préciser ici si vous souhaitez que ces liens soient en
http:// ou https:// . A noter que les liens internes
entre les dfférentes pages du rapport sont relatifs, et donc conserveront
le scheme HTTP.
-
DNSChildren : paramètre important ! Si vous
laissez la configuration par défaut à 0, aucune résolution DNS inverse des
adresses IP(v6) qui ont accédé à votre serveur ne seront faites. Cela peut être
un choix néanmoins.
-
IndexAlias : si vous utilisez autre chose que index.html comme
page Web par défaut d'un répertoire, vous pouvez le préciser au programme ici.
-
HideReferrer : il est indispensable ici de préciser au moins le nom
de domaine principal de votre site, car sans cela le résumé des referrers
ne sera pas vraiment exploitable.
-
HideURL : permet de ne pas tenir compte des accès aux URL qu'il ne serait
pas pertinents de faire figurer dans le rapport, par exemple toutes vos images
partagées, vos logos et autres inserts. Si vous rendez public l'accès au rapport,
vous devez aussi indiquer ici vos URL privés, car sans cela ils
pourraient être divulgués. Les chemins indiqués sont relatifs,
donc le '/' correspond à la racine de votre site.
-
IgnoreSite : permet d'ignorer complètement les visites depuis
certaines adresses IP, et cela tient compte de la résolution DNS. Cela peut servir
pour ne pas afficher vos propres accès à votre site.
Une fois le fichier de configuration prêt, il suffit simplement d'exécuter le
programme en entrant webalizer à la ligne de commande, en root.
Vous pouvez ajouter quelques paramètres tels que -c , permettant
de spécifier un autre fichier de configuration, ou -q pour
supprimer ce qu'écrit le programme sur la sortie standard (utile avec cron ).
La résolution DNS pourrait prendre un peu de temps (plusieurs minutes) lors
de la première exécution du programme. Ne vous inquiétez pas, il est juste
conçu pour ne pas « labourer » vos résolveurs DNS. ;) Une fois
que le programme a construit son fichier de cache DNS, les exécutions suivantes
sont plus rapides.
Le programme a été conçu dans l'idée que les logs du serveur HTTP que
vous analysez ne sont pas purgés à une fréquence inférieure à un mois
dans sa configuration de base. Si vous purgez vos journaux plus fréquemment
car votre site est très visité, il vous faudra vous plonger un peu plus
profondément dans la configuration du programme pour activer les fonctions
incrémentales. Néanmoins, comme je l'ai écrit en introduction, ce n'est
peut-être pas l'outil le plus adapté en un tel cas.
Page générée le 07 mai 2025 avec Vi IMproved 9.1 ;D
TheRaphit's Web Site - La dernière homepage du Web
[(Tout)2 Evangelion]
[Webzine : La Revue]
[Pink Zone 2025]
[Mathématiques]
[Nouveautés]
[Zone de téléchargement]
Site créé le 16 janvier 1997
©1997-2025 by TheRaphit
www.theraphit.com
|