Anti-Scraping — Pourquoi vous avez déjà perdu la guerre

Published in

Captain Data

4 min readSep 27, 2018

Aujourd’hui, nous parlons anti-scraping.

Le Web Scraping ne cesse de faire parler de lui : les sites proposant du contenu « gratuit » se protègent, les Growth Hacker collectent des données pour créer des listes de leads et les grands se scrapent entre eux.

C’est quoi le Web Scraping ?

Le web scraping est une technique d’extraction de données sur un site web : vous créez un robot qui va aller chercher programmatiquement de l’information, sans que vous ayez besoin de faire quoi que ce soit.

Aujourd’hui, on parle surtout de web scraping dans les services marketing des startups avec l’incroyable montée en puissance du Growth Hacking depuis quelques années.

Comprenez bien que tout le monde collecte des données, entre autres :

La startup qui veut enrichir sa base de données
L’entreprise qui veut surveiller ses concurrents
Un corporate qui effectue une analyse de pénétration de marché
La PME qui commercialise un produit de veille

Le problème, c’est que plus de 99% des sites web ne proposent pas d’accès direct à leurs données : ils ne proposent pas d’API. Pire, certains sites proposent des APIs mais les ont tellement mal conçues que nous sommes obligés de scraper pour tout récupérer.

Le statut du web scraping et du hacking

Chez Captain Data, on nous parle souvent de légalité, de RGPD ou de faisabilité technique :

Concernant la légalité, cela demanderait un article dédié ! En un mot : oui c’est légal (ou du moins ce n’est pas illégal), mais il ne faut pas faire n’importe quoi.
Pour le RGPD, pas de problème apparent puisque nous traitons uniquement des données business.
Le point intéressant concerne la faisabilité technique : il existe de plus en plus de service ou de solutions de scraping, et donc de plus en plus de solutions pour s’en protéger.

Il y a un rapprochement que nous faisons souvent entre le hacking et le scraping : in fine, ce n’est qu’une question de moyens.

Anti-Scraping : une question de moyen ?

Quand on apprend les bases de la sécurité en informatique, on nous répète qu’aucun système n’est parfait.

Plus vous investissez dans des solutions, plus vous pouvez espérer être protégé (sous réserve que vos employés ne laissent trainer leurs mots de passe sur post-it !).

C’est pareil pour le scraping : plus vous payez pour vous protéger, plus vous augmentez vos chances de repérer les robots. Tout est une question de gestion du risque : quel est le pourcentage que vous acceptez de laisser passer ?

Si certaines sécurités semblent réellement inviolables d’un point de vue hacking, nous avons toujours réussi à livrer nos robots.

Les technologies de protection se basent principalement sur deux facteurs :

L’empreinte digitale
Le machine learning et les statistiques

Empreinte digitale

Quand vous surfez sur Internet, vous laissez ce qu’on appelle une empreinte digitale. Ce n’est ni plus ni moins qu’un ensemble de paramètres que vous accumulez au fil du temps : les cookies, votre IP, les paramètres de votre navigateur, etc.

Cela permet de déterminer — en partie — si vous êtes un humain derrière votre écran ou un robot. Mauvaise nouvelle, les technologies récentes, notamment Headless Chrome (comprendre une version « simplifiée » du navigateur Chrome), rendent extrêmement facile la reproduction de ces paramètres.

Concrètement : se faire passer pour un humain est tout à fait possible pour un robot.

Machine Learning

Le machine learning (apprentissage automatique) permet de créer des solutions anti-scraping de grande qualité. En bref, les entreprises collectent des données (Big Data) afin de créer des schémas de détection comportementale.

Les analyses statistiques : le nombre d’IPs, le nombre de sessions par IPs, la vitesse d’extraction etc., rendent l’extraction beaucoup plus compliquée.

Il existe d’ailleurs peu de solutions de scraping se basant sur du machine learning.

« Fort heureusement », comme en hacking, l’intégration des solutions techniques repose sur l’expertise d’hommes et de femmes, et est donc sujet à l’erreur. Il suffit souvent d’un léger détail : une page n’est pas protégée comme il faut, un bout d’API interne pointe le bout de son nez, etc. Et c’est la porte ouverte.

L’expertise que nous apportons au développement de robots difficiles à mettre en place consiste justement à dénicher ces imperfections.

En somme, on pourrait penser que l’entreprise qui dépense le plus aura le fin mot de l’histoire. En théorie, c’est vrai. Cependant, la pratique nous montre qu’aucune protection n’est intouchable.

Le scraping comme levier d’innovation

Attention, nous ne disons pas de ne pas vous protéger : c’est comme les antibiotiques, c’est pas automatique. Un produit comme Cloudflare apporte bien des avantages et n’est pas uniquement une protection anti-scraping.

Bref, nous n’avons juste pas la même vision du web 🙂

Chez Captain Data, nous voyons le scraping comme un levier d’innovation :

Il permet d’enrichir des bases de données, et donc d’en maximiser la valeur
Vous pouvez créer de nouvelles manières de faire du business et d’attirer des clients
Il facilite la création de produits innovants
Et enfin, il permet de moderniser de vieilles couches applicatives

Plutôt que de chercher à protéger vos données, vous feriez mieux de réfléchir à l’utilisation que vous pourriez en faire.

Vous ne possédez pas d’API ? Construisez-en une !

Vous ne savez pas faire ? Nous pouvons vous aider.

Construire une API coûte trop cher ? Demandez-nous de scraper votre application pour en créer une à la volée et opérer une transition fluide et une modernisation de vos infrastructures à moindre coût.

Vous le lisez partout : « les données, c’est le nouvel or noir » .

Qu’est-ce que vous attendez pour vous y mettre ?

Originally published at captaindata.co on September 27, 2018.