On parle souvent du scrap de data comme d’une solution miracle, mais on parle moins des impacts sur les sites web qui sont scrapés, de l’impact sur leur SEO, du risque de duplicate content… et plus généralement des moyens de s’en prémunir. Nous allons parler de ces 2 aspects dans cet article.

Le scraping web : la solution miracle pour booster votre CA ?

Quand on entend parler de growth hacking, le terme « scraping » revient souvent dans la bouche des marketeurs en quête d’automatisation et de croissance rapide. Cette technique, qui consiste à aspirer des quantités de données importantes en provenance d’Internet, permet à des entreprises de gagner du temps et de développer leurs ventes… en se servant des informations accessibles en ligne.

Prenons l’exemple d’une entreprise qui souhaite scraper Leboncoin : il est possible de récupérer les annonces, c’est-à-dire le titre, le prix et le descriptif des annonces d’une catégorie immobilier par exemple. Cela permet à une agence immobilière de prospecter les propriétaires qui vendent en direct, afin de leur proposer leurs services.

Si cette stratégie est aujourd’hui de plus en plus adoptée, elle est cependant sujette à de nombreuses interrogations. Outre les questions juridiques soulevées par le sujet, il existe de nombreuses sociétés qui veulent se protéger du scrap : pour les entreprises qui investissent beaucoup d’argent dans la création de contenu pour alimenter leur propre site web, par exemple, ces dernières ne veulent pas forcément que quelqu’un d’autre puisse aspirer ces informations et les utiliser ou les détourner. Il faut savoir également qu’une alternative existe, si vous ne souhaitez pas scraper les données, vous pouvez vous tourner vers l’open data : il s’agit de fichiers en libre accès, souvent proposés par des entités gouvernementales ou des organismes publics,

Faisons le point sur les données collectées via le scraping, et les solutions qui existent pour les éditeurs de sites web.

Est-il possible de protéger votre site Web contre le scraping par des robots ?

Pour lutter contre le scraping de vos données sur le Web, concrètement, il faut empêcher les scripts et les ordinateurs d’obtenir les données nécessaires sur votre site Web, tout en ne bloquant pas l’accès aux vrais utilisateurs et surtout aux moteurs de recherche. C’est là le vrai challenge pour les éditeurs de sites web, à l’ère de la big data et des quantités de plus importantes d’informations accessibles en ligne.

Malheureusement, il s’agit là d’un véritable défi, et vous devrez choisir entre l’élimination du scraping et la réduction de l’accessibilité pour les personnes légitimes, ainsi que le risque d’impacter votre référencement SEO. En effet, les moteurs de recherche envoient tous des robots, appelés web crawlers, pour récupérer en temps réel les données présentes sur les sites web, afin de maintenir leur base de données de pages web à jour. Donc, si vous mettez en place trop de restrictions sur votre serveur, afin d’éviter le scrap de données, vous risquez de bloquer des robots légitimes et pénaliser votre activité.

Pour éviter le scraping (également connu sous les noms de web scraping, screenscraping, web data mining, web harvesting ou web data extraction), il est utile de comprendre comment les scrapers fonctionnent et ce qui les empêche d’être efficaces.

En réalité, il est possible avec des outils technologiques de filtrer les crawlers illégitimes qui parcourent votre site web : grâce à leur mutualisation des IP serveurs, les sociétés qui scrapent le web sont reconnues et peuvent être filtrés par des solutions de type Cloudflare Bot Management. Mais Cloudflare, l’éditeur du logiciel le dit lui-même : pour s’assurer à 100 % de ne pas être scrapé, il faudrait tout simplement… ne rien publier sur Internet. Le message est clair, la solution miracle n’existe pas.