Semalt.com : le site référent qui pourrit vos données Google Analytics

18/09/2014
Outils de tracking

Formidable ! Vous constatez une augmentation du trafic en provenance des sites référents sur les sites que vous gérez ? Vous remarquez que cette forte hausse de trafic est due à un site nommé « Semalt.com » dans Google Analytics. Attention : Semalt est en réalité un robot qui parcourt tous les sites du web pour recueillir des informations qui seront utilisées pour les projets de l’outil d’analyse Semalt.

Si vous ne souhaitez plus que Semalt apparaisse dans vos rapports d’analyse de l’audience de vos sites, il est nécessaire de mettre en place un système de blocage ou de filtre, notamment via Google Analytics, pour que le trafic en provenance de cet outil d’analyse ne soit plus pris en compte.

Qu’est-ce que Semalt.com ?

« Semalt crawler » est le robot technique de l’outil d’analyse pour webmaster Semalt.com. Le robot visite les sites web et rassemble des données statistiques en simulant le comportement d’utilisateurs réels : une IP unique, un navigateur, une résolution d’affichage… Les informations recueillies sont ensuite utilisées pour les « projets » de Semalt.com.

Semalt.com est omniprésent dans les statistiques de trafic de nombreux sites web, ce qui peut être très perturbant pour l’analyse du trafic. Le passage fréquent de ce robot non désiré fausse les statistiques en augmentant parfois considérablement le nombre des visites générées par les sites référents et le taux de rebond. En effet, chaque passage du robot est assimilé à un nouvel utilisateur dont le taux de rebond est de 100% et la durée moyenne des visites est égale à 00:00:00 min.

En bref, étant donné que Semalt n’est pas un visiteur mais un robot parcourant des sites au hasard sur le web pour recueillir des données, il fausse les statistiques. Autant le bloquer !

Comment supprimer Semalt.com de vos sites référents ?

Il existe de nombreuses solutions pour supprimer le site « Semalt.com » des sites référents : soit en le bloquant, soit en le filtrant ; mais la première chose à faire est très certainement de se retirer du projet Semalt en allant sur leur site. Voici comment faire

1ère solution : se retirer du projet Semalt via leur site

Pour cela, il suffit de se rendre sur cette page : http://semalt.com/project_crawler.php et d’ajouter votre site dans le formulaire, puis cliquer sur « Remove ». Normalement, cette procédure permet d’éliminer votre site de la liste des ressources web que le robot visite et ainsi empêcher ses prochaines visites intempestives.

Semalt : Project Crawler

Avantage : La procédure est simple et rapide. Il suffit d’ajouter la liste de vos sites web dans le champ prévu à cet effet (un site par ligne) et les sites renseignés seront éliminés de la base de l’outil au maximum 30 minutes après l’envoi du formulaire.

Inconvénient : Cette méthode n’est pas rétroactive, et on ne sait pas ce qu’ils peuvent faire d’un retour « manuel » (sans parano aucune…)

2ème solution : bloquer le site « Semalt.com » via le fichier .htaccess

Il est possible de bloquer le robot Semalt pour l’empêcher de visiter votre site directement via le fichier .htaccess. Ce fichier est généralement inclus sur les sites dont le serveur web utilise Apache (autrement dit la plupart d’entre eux). Ce fichier permet de contrôler le comportement des visiteurs sur le site comme le fait de permettre l’accès au site et de gérer les redirections.

Pour bloquer les futures visites de Semalt, il suffit d’inclure le code suivant dans le fichier .htaccess :

 

# block visitors referred from semalt.com
 RewriteEngine on
 RewriteCond %{HTTP_REFERER} semalt\.com [NC]
 RewriteRule .* - [F]

Avantage : La procédure est simple et rapide. Il suffit d’avoir un accès FTP et d’avoir les droits administrateur pour pouvoir éditer le fichier .htaccess qui se trouve à la racine du site.

Inconvénient : Cette méthode n’est pas rétroactive.

3ème solution : créer un filtre dans Analytics pour bloquer le site

Il est possible de créer un filtre dans Analytics pour filtrer les visites provenant du robot de Semalt. Pour cela, une fois connecté à Analytics il faut aller dans l’onglet « Admin », puis dans « Compte » et sélectionner « Tous les filtres ». Puis il suffit de choisir « Filtre personnalisé », de lui donner un nom et d’exclure tous les sites référents contenant le terme « semalt.com », comme ci-dessous :

Filtre Google Analytics

Une fois le filtre créé, dans la partie « Appliquer le filtre aux vues », il faut sélectionner le site auquel ce filtre doit être appliqué et cliquer sur « Ajouter » : le site change alors de côté et apparaît dans la colonne de droite « Vue sélectionnées ».

Inconvénient : Cette méthode n’est pas rétroactive. Le filtre n’est actif qu’à partir du moment où il a été créé (il garde donc dans son historique les visites générées par Semalt avant la création de ce filtre).

4ème solution : créer un segment avancé dans Analytics pour bloquer le site

Il est aussi possible de créer un segment avancé sur Google Analytics pour ne pas prendre en compte le trafic issu de Semalt.  Pour créer un segment avancé dans Analytics, il suffit de cliquer sur « +Ajouter un segment » à droite de « Toutes les sessions » tout en haut de votre tableau de bord.

Selon vos besoins, vous pouvez créer un segment avancé « Tout le trafic hors Semalt.com » :

Tout le trafic hors Semalt

Ou bien « Tous les sites référents sans Semalt.com » :

Sites référents hors Semalt Ainsi, on a exclu toutes les visites issues de la source de trafic « semalt.com » des sites référents du site. En sélectionnant ce segment avancé et en allant dans l’onglet « Tous les sites référents » dans la colonne de gauche d’Analytics, vous aurez la liste de tous vos sites référents à l’exception de ceux contenant le terme « semalt.com » (ex : semalt.semalt.com, 20.semalt.com, 59.semalt.com…)

Avantage : c’est la seule méthode « rétroactive », puisqu’elle filtre tant que le segment avancé est actif, sans limite dans le temps

Inconvénient : Cela ne raye pas définitivement de la liste des référents ce trafic absolument pas pertinent.

Vous l’aurez compris, aucune méthode n’est parfaite et elles sont en réalité complémentaires. En ce qui nous concerne, la méthode du .htaccess paraît être la plus indiquée dans la mesure où elle bloque l’accès au site concerné directement, mais les autres peuvent être des solutions alternatives adéquates si vous avez la main sur Google Analytics et plus difficilement sur le .htacess.

Mais pourquoi est-il si méchant ?

Edit Morgan : On peut noter au passage que c’est une sale méthode de linkbaiting, puisque pour en parler on est bien obligé de faire un lien (en nofollow pour la peine) 😉 Et on ne parle pas de toutes les personnes qui suivent de près leurs statistiques d’audience, allant ensuite sur le site pour savoir ce que c’est, avec une probabilité faible mais non nulle de tester l’outil…