Les bots se multiplient de manière incessante en parcourant la toile aujourd’hui, ce qui représente une menace de plus en plus importante pour les acteurs du domaine numérique. Parmi les diverses pratiques frauduleuses menées par ces bots, le vol de contenu d’un site Internet (on parle de « scraper » un site ou de « Web scraping ») compte sans doute parmi les pratiques les plus sournoises et dangereuses pour un site Web. Il est donc important d’en comprendre le fonctionnement et les enjeux.

 

Le Web scraping et ses objectifs

Le Web scraping consiste à extraire ou à récupérer des données d’autres sites Web. Pour effectuer cette pratique, il est nécessaire d’utiliser un logiciel de Web scraping pouvant accéder à l’ensemble des données présentes sur Internet, directement depuis le protocole de transfert hypertexte ou à l’aide d’un navigateur Web comme Chrome.

Le Web scraping peut être effectué manuellement par l’utilisateur de ce logiciel, mais ce terme se réfère d’habitude à des processus automatisés adaptés grâce à un robot d’exploitation Web.

Le Web scraping est une forme de copie, dans laquelle des données précises sont rassemblées et copiées sur le Web. Ces dernières sont en général extraites à partir d’une base de données ou d’une feuille de calcul locale centrale pour une récupération ou une analyse ultérieure.

L’exploration Web est l’élément principal qui permet de réaliser du Web scraping afin de récupérer des pages pour un traitement ultérieur. Lorsqu’un Web scraping est réussi, le contenu d’une page Web peut être analysé, recherché, reformaté. Les données peuvent être ensuite copiées dans une feuille de calcul ou autres dispositifs.

Sans entrer dans le détail, les sites scrapés prennent des données ou des informations sur une page afin de les utiliser à d’autres fins. Par exemple, le Web scraping servira à trouver et à copier des noms ou des numéros de téléphone ou encore des entreprises et leurs URL pour les répertorier dans une liste.

Le Web scraping a de multiples objectifs : récupérer des contacts, extraire et explorer des données, surveiller les prix en ligne, collecter des annonces, rassembler les données météorologiques, détecter les changements d’un site Web spécifique, assurer le suivi de la réputation d’un site, effectuer du Web mashup ou bien encore faire de l’intégration de données Web.

Par ailleurs, les sites Web sont construits avec des langages de marquage qui sont basés sur les textes HTML ou XHTML et qui contiennent souvent plusieurs données indispensables sous forme de texte. Toutefois, la plupart des sites sont créés pour les Internautes et non pour une utilisation automatisée. C’est pour cette raison que certaines personnes ont recours au Web scraping pour copier ou pirater le contenu d’un site.

 

 

Le Web scraping est-il une pratique légale et quels en sont les risques ?

Il est assez difficile de répondre de manière tranchée à cette question car il n’y a pas vraiment de réponse définitive et absolue. Cela dépend d’abord du pays d’origine, des conditions générales du site mais aussi de la nature des informations qui ont été rassemblées et collectées.

Les moteurs de recherche comme Google utilisent souvent ces techniques. Mais en général, scraper un site dont le contenu n’est pas libre est considéré comme une violation de la propriété intellectuelle du site source. La licence de documentation libre GNU spécifie en effet que toute personne qui republie du contenu a l’obligation d’informer ses lecteurs des conditions de licence d’utilisation des informations disponibles sur un site qui doivent pouvoir être en mesure de reconnaître les créateurs de ces informations.

Par ailleurs, quel que soit le secteur d’activité dans lequel vous exercez, les Web scrapers présentent une multitude de problèmes pourtant très mal répertoriés et maîtrisés aujourd’hui.

Pour atteindre ses objectifs, un Web scraper peut avoir à parcourir des milliers de pages en l’espace de seulement quelques minutes. Cette initiative provoque souvent une surcharge sur vos serveurs, ce qui ralentit le chargement des pages auxquelles vos clients souhaitent accéder.

Par conséquent, plus votre page est lente à charger, plus vos visiteurs risquent de fermer l’onglet avant même que le contenu n’apparaisse. D’ailleurs les moteurs de recherche comme Google n’apprécient pas les pages trop lentes quand il s’agit de classer des sites Web dans ses résultats.

En plus de pénaliser les sites trop lents à charger, les moteurs de recherche défavorisent aussi les sites qui proposent un contenu dupliqué. Les bots obstruent l’accès à votre site et diffusent des versions doublonnes de vos contenus ou bien de vos catalogues. Cela limite alors la possibilité pour vos pages de remonter dans le positionnement des moteurs de recherche.

De ce fait, il est indispensable d’adopter une bonne stratégie SEO pour qu’un site ou une start-up de petite envergure puisse malgré tout accéder sans encombre à son potentiel de clients. Malencontreusement, ce sont ces mêmes sites et ces start-ups qui sont les plus à même d’être surchargés par des visites erronées effectuées par les robots.

Par ailleurs, on remarque également que le Web scraping peut être réalisé par vos propres concurrents qui récupèrent le contenu de vos pages, exploitent vos catalogues produits et vos promotions exclusives et les dupliquent sur leur site.

Les informations et les données qui vous appartiennent deviennent soudainement un atout pour vos concurrents. Vous ne devez absolument pas ignorer que vous êtes pourtant le seul détenteur des droits sur vos contenus Web : les Web scrapers sont programmés pour reproduire ce contenu sans votre autorisation, ce qui vous privera de futurs visiteurs et de vos clients potentiels, et donc de ventes ou de revenus publicitaires conséquents. Malheureusement, les moyens d’actions contre le Web scraping sont actuellement encore limités.

 

 

Comment éviter le Web scraping ?

Il existe actuellement de nouvelles formes de Web scraping impliquant le suivi des flux de données depuis les serveurs Web. JSON est par exemple régulièrement utilisé comme mécanisme de stockage et de transport entre le client et le serveur Web.

De nombreuses techniques peuvent être adoptées pour empêcher le piratage ou le Web scraping de son site Web. Il est ainsi possible de détecter et d’interdire aux robots de voir ou d’explorer son site, voire d’arrêter ou au moins de ralentir un robot d’exploitation Web.

Parmi ces méthodes, vous pouvez effectuer le blocage d’une adresse IP manuellement ou en fonction de la géolocalisation et du DNSRBL. Cette technique permettra de bloquer toute la navigation à partir de cette adresse IP. La désactivation de toute API (interface de programmation) que le système du site Web pourrait exposer est également efficace. Il arrive parfois que les robots d’exploitation déclarent leurs identités en utilisant les chaînes d’agent utilisateur. A partir de là, ils peuvent être bloqués plus facilement à l’aide de robot .txt comme Google bot.

Il est également utile de contrôler un trafic excessif sur son site, en ayant recours à des outils tels qu’un CAPTCHA, qui permettent de vérifier que c’est bel et bien une personne réelle qui accède au site. Il faut tout de même noter que ces robots sont quelquefois codés et ont la capacité de briser des modèles spécifiques de CAPTCHA et peuvent employer des services tiers qui ont recours à des personnes dédiées pour lire et répondre en temps réel aux défis du CAPTCHA.

Par ailleurs, on peut trouver des entreprises qui offrent des services anti-bots commerciaux et des anti-Web scraping. Certains firewalls d’applications Web sont aussi capables de détecter des bots.

Localiser les robots d’exploitation avec un honeypot est également une méthode pertinente pour identifier les adresses IP des crawlers automatisés.

Étant donné que les robots d’exploitation dépendent de la cohérence du code frontal d’une page Web, vous pouvez ajouter de petites variations au HTML/ CSS qui entourent des éléments importants de données et de navigation. Cette dernière méthode nécessite une intervention humaine dans la configuration initiale d’un robot, et si cela est effectué efficacement, la page Web ciblée sera difficile à rayer à cause de la capacité réduite à automatiser le processus de Web scraping.

Cependant, malgré ces nombreuses méthodes, certains individus créent des systèmes de Web scraping utilisant des techniques d’analyse par pays qui simulent la navigation humaine et permettent de collecter le contenu de la page Web.

Le Web scraping peut être considéré comme une pratique mal vue et bannie car il s’apparente à du vol de données. Si vous envoyez trop de requêtes, vous risquez de vous faire bloquer et de vous faire blacklister par les moteurs de recherche. Vous devez donc être particulièrement vigilants à ce que vous scrapez, ce pourquoi vous le faites et de quelle manière vous vous y prenez.

Web scraping
Rate this post