Qu’est ce que le SPAM de sites référents de vos rapports Google Analytics.

Vous avez surement observé sur vos rapports GA une recrudescences des visites dans le canal Sites référents (Referral). Pardonnez moi pour la fausse joie mais il ne s’agit pas de gentils webmasters plein de bonnes volontés ayant décidé de faire des supers liens vers votre site. La vérité est ailleurs !

Pourquoi est-il important de bloquer le Referral SPAM dans Google Analytics ?

La réalité est beaucoup moins glorieuse puisqu’il s’agit de SPAM. En effet, vous avez peut être constaté qu’il s’agissait de sites n’ayant strictement rien à voir avec le votre comme 4Webmasters.org, semalt.com ou darodar.com.

Cela fait quelques années que nous pouvions les observer mais ces derniers représentaient un nombre négligeable de visites. Le problème c’est que depuis début Mai la part de visites que représente ces SPAMs s’est accrue considérablement passant sur certains sites que je gère à 30% voir 70% du trafic.

Vous comprenez tout de suite les difficultés d’analyse que cela peut provoquer.

Si vous souhaitez continuer à tirer le meilleur de vos rapports analytiques il est important de bloquer ces visites dès que vous les identifiez. Dans cette série de trois articles je vais vous expliquer comment identifier et bloquer le spam de sites référents sur Google Analytics en seulement 3 étapes.

Qu’est ce que le SPAM de sites référents ou Referrer SPAM ?

On l’appel Spam de sites référents car à l’origine nous pouvions l’observer presque exclusivement dans le canal sites référents de vos rapports GA.

Pour rappel, “un site référent est pour l’outil de web analyse Google Analytics un site ayant fourni un ou plusieurs visiteurs au site dont on analyse l’audience. Les visites venant du site référent se font à partir de liens externes qu’il propose et qui pointent vers le site dont l’audience est mesurée.” (définitions webmarketing)

“Aujourd’hui, ce site référent peut être redirigé vers n’importe quoi et certains vont le paramétrer pour afficher une page qu’ils souhaitent promouvoir par exemple. Ensuite ils vont automatiser la requête grâce à un script (ou bot) avec l’intention d’être visible dans les rapports et logs du site. C’est ce que l’on appelle le SPAM de sites référents “- Matt Cutts

Pourquoi viennent-ils spammer votre compte Google Analytics ?

Comme vous, je me suis posé la question et, comme vous, j’ai tapé l’un des ces nom de domaines dans ma barre d’adresse. Voila ce qu’ils cherchent. Ils jouent sur la curiosité des webmasters pour générer du trafic.

Ces spammer utilisent des bots (robots) pour visiter des milliers de site chaque jours donc vous pouvez imaginer le trafic qu’ils se procurent par ce biais.

L’objectif final lui peut être divers parfois il s’agit de promouvoir une page ou un outil d’analytiques / audit comme le fait semalt. D’autre fois, ils vous redirigerons après vous avoir collé un cookie vers un site e-commerce qui leur reversera une commission si quelqu’un effectue un achat.

Comment fonctionne les différents types de SPAM de sites référents ?

Les spammers utilisent principalement deux techniques : Le Ghost SPAM ou visite fantôme et le Crawler Referrer SPAM ou Spam au robot d’indexation.

le Crawler Referrer SPAM ou Spam au robot d’indexation.

Par exemple : semalt.com, buttons-for-website.com, best-seo-offer.com

Les robots d’indexations comme le Google bot sont utilisés habituellement pour crawler les sites internet (naviguer et indexer les sites internet) de façon à ce que vous puissiez les trouver lors de vos recherches.

Le fonctionnement est le même pour le Spam au robot d’indexation mais l’objectif est différent. Ils ont aussi tendance à ignorer toutes les règles comme celles du robots.txt qui sont supposés empêcher aux spiders de visiter et d’indexer certaines pages.

La particularité de ce SPAM c’est que, contrairement aux visites fantômes que nous allons voir par la suite, ils accèdent réellement à votre site internet et peuvent par conséquent être bloqué directement via votre fichier .htaccess.

Le Ghost SPAM ou visite fantôme

Par example: 4webmaster.com, darodar.com, hulfingtonpost.com

Ils représentent, et plus particulièrement depuis début Mai, la majorité du SPAM. On les appelles Ghost (fantômes ) car ils n’accèdent jamais à votre site sur aucune page mais frappe directement votre Google Analytics.

Ils exploitent le protocole de mesure qui est normalement utilisé par les développeurs pour envoyer des données directement aux serveurs de GA. Cette fonctionnalité disponible depuis longtemps mais peu documenté permet à ceux qui souhaitent de regrouper un maximum d’informations issues d’univers différents dans Google Analytics. Or, certaines personnes mal intentionnées ont trouvées le moyen de le détourner.

En obtenant simplement votre ID Analytics, ils sont capable d’injecter des sites référents, noms d’hôtes, des mots clefs et autre.

protocole de mesure Referrer Spam Google Analytics

Peu importe la plateforme utilisée WordPress, Joomla, Drupal, Prestashop ou Magento ou autres CMS  la seule façon d’arrêter ces Ghosts SPAM sera d’utiliser des filtres sur Google Analytics.

Pas la peine d’essayer de les bloquer via le .htaccess ou un plugin. Le .htaccess est un fichier de configuration qui permet de contrôler qui peut accéder à votre site. Or, comme nous l’avons vu précédemment, ces derniers n’accèdent jamais à votre site.

Découvrir Comment bloquer le Referrer SPAM ou Spam de sites référents dans Google Analytics ?

Découvrir Comment retirer le SPAM de l’historique Google Analytics ?

6 réponses
  1. Jeux Précommande
    Jeux Précommande dit :

    en somme ce sont des visites factices qui ne viennent pas sur notre site web, il faut créer des filtres sur Analytics afin d’obtenir de bonnes statistiques. Je connaissais pas du tout la notion de Ghosts Spam, merci encore pour ton article.

    Répondre
  2. Cédric Guérin
    Cédric Guérin dit :

    Il semblerait que la meilleure solution soit en réalité d’utiliser un segment Google Analytics, et ce pour trois raisons majeures :
    – on ne perd pas les données (ce qui est le cas lorsqu’on utilise un blocage par .htaccess ou un filtre GA)
    – on peut facilement déployer sur tous les sites
    – on peut l’utiliser de manière rétroactive.

    Ce dernier point est pour moi le plus important, car il permet de donner au client des données réellement comparables.

    Répondre
    • Lucas DAYMIER
      Lucas DAYMIER dit :

      Cédric, Merci pour ton commentaire.

      Je l’ai édité car j’aborde l’utilisation des segments ici et je n’ai donc pas forcément besoin de ce complément.

      Je te laisse ton lien perso 😉 mais si tu souhaites réellement discuter sache que je ne suis pas tout à fait d’accord avec ton message.

      Cela ne me dérange aucunement de perdre les données des crawler SPAM et ceux-ci doivent être clairement ciblés pour être bloqué via .Htaccess donc peu de risque de faire une bêtise …

      Enfin pour ce qui est des filtres GA, il suffit de les appliquer uniquement sur une nouvelle vue et de conserver une vue “données brutes”.

      L’avantage c’est qu’aujourd’hui mon segment ne me sert que pour les données historiques.

      Répondre
  3. Cédric
    Cédric dit :

    Au temps pour moi, je n’avais pas vu ton article sur l’utilisation des segments 😉

    Je comprends ton point de vue et effectivement les filtres doivent bien sûr être appliqués à une nouvelle vue afin de conserver les données brutes. Mais je reste d’avis que cela ne permet pas de comparer les données avec une période antérieure … tout du moins pas facilement, pas dans un rapport ou un tableau de bord personnalisé par exemple. Sans compter le temps passé à maintenir le tout. Sur un site, deux sites, trois sites OK. Mais je dois avoir 70 sites sur mon compte Google Analytics, ce serait trop chronophage d’aller modifier les filtres GA + les .htaccess de chacun et qui plus est de les mettre à jour.

    Répondre
    • Lucas DAYMIER
      Lucas DAYMIER dit :

      Je comprends et je suis conscient que c’est moins simple à “industrialiser” mais c’est aussi plus clair pour les clients.

      Combien se sont retrouvé déçu, dégoutté quand je leur ai annoncé que les statistiques qu’ils constataient sur Analytics étaient à 50% fausses ?
      Et combien sont capable de gérer l’utilisation des segments ?

      Ensuite pour le Ghost SPAM le filtre google est assez efficace on le lance une fois et après on y touche plus.
      C’est les crawler qui sont plus gênant car il en arrive des nouveaux chaque jours. Il est donc nécessaire de mettre régulièrement à jour le “segment” et/ou le .Htaccess. Heureusement que le copié/collé fonctionne.

      Je suis aussi entrain de chercher des REGEX qui permettent de bloquer toutes les déclinaisons de sites référents du genre site25\.social-buttons\.com, site37\.social-buttons\.com, site31\.social-buttons\.com, site23\.social-buttons\.com en une ligne et qui permette de bloquer les sites utilisant notre id Analytics dans le NDD comme editors\.choice49XXX429\.hulfingtonpost\.com

      ça va simplifier déjà pas mal les copié/collé d’un htaccess à l’autre

      Répondre

Répondre

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *