ScrapMe: tutoriel & support

ScrapMe est une fonction de scraping (= récupération de données sur des sites web) spécialement conçue pour Google Spreadsheet.

Pour utiliser la fonction ScrapMe pour Google Spreadsheet, vous devez préalablement créer un compte sur Arnoweb TV (gratuit en 20 secondes). Cela vous permet ainsi de récupérer une clé privée et le code à utiliser dans Google Spreadsheet.

Veuillez respecter les conditions d’utilisation des sites web avant de démarrer le scraping.

ScrapMe

Qu’est ce que ScrapMe pour Google Spreadsheet ?
Google possède sa version d’Excel qui s’appelle Google Spreadsheet.ScrapMe est une fonction de scraping web qui s’intègre Google Spreadsheet. Cela vous permet de récupérer le contenu de n’importe quel site (ex: email, téléphone, nom, ville, description, etc) simplement à partir de l’URL. Vous pouvez ainsi récupérer (= scraper) des milliers d’URLs afin de récupérer des dizaines de milliers d’informations en quelques instants.
Pourquoi ScrapMe est-il vraiment un outil de Scraping incontournable ?

Il vous simplifie la récupération de données directement via Google Spreadsheet.

Contrairement à certains services existants qui vous bloquent au bout de quelques centaines d’URLs scrapées, avec les abonnement Premium de ScrapMe, vous pouvez scraper des milliers d’URLs chaque mois.

De plus, pour éviter d’être bloqué / blacklisté par certains sites web qui utilisent des systèmes de détection des bots de scraping, ScrapMe utilise un système pour passer inaperçu. Grâce à un système de rotation d’adresses IP, rotation user-agents (navigateurs web), rotation en tête http, utilisation de cookies, etc.
Cela permet de simuler une multitude d’utilisateurs différents plutôt que de laisser penser à un seul et même bot.

D’autre part, vous pouvez scraper des données non seulement à partir du Xpath mais aussi à partir de raccourcis tels que l’email, le téléphone, url facebook, titre de page, etc.

Comment installer ScrapMe ?

Vous devez d’abord créer un compte sur Arnowebtv.com en 20 secondes (c’est gratuit).

  1. Ensuite connectez-vous sur la page du Dashboard ici.
  2. Vous devez maintenant cliquer sur le lien pour obtenir votre clé privée.
  3. Vous verrez sur cette page un bloc de code à copier / coller dans votre feuille Google Spreadsheet
  4. Ouvrez donc une feuille Google Spreadsheet
  5. Dans le menu du haut, cliquez sur « Extensions » puis « Apps Script »
  6. Sur l’écran qui s’affiche, retirez tout le code et collez le code indiqué ci-dessus.
  7. Cliquez sur l’icône de la disquette pour sauvegarder, puis vous pouvez fermer cet onglet.
  8. Voilà ! Vous pouvez maintenant utiliser la fonction SCRAPME dans votre fichier Spreadsheet.
Comment utiliser ScrapMe en illimité ?

La fonction ScrapMe de Google Spreadsheet, coûte de l’argent lors du scraping de chaque URL.

Lorsque vous avez créé un compte gratuitement, vous pouvez l’utiliser pour scraper quelques centaines d’URLs.

Mais vous pouvez scraper plusieurs milliers d’URLs en prenant un abonnement Premium, Gold ou Diamond sur Arnoweb TV.

Comment utiliser ScrapMe dans Google Spreadsheet ?

Copiez / collez ceci dans une cellule de Google Spreadsheet:

=SCRAPME("https://www.thewebsite.com";"//html/body/title")

Il y a 2 paramètres:
– L’URL à scraper
– Le Xpath (ou le raccourci) qui correspond à l’emplacement exact dans la page.

Si vous scrapez beaucoup d’URLs à la fois, il faut que les pages utilisent le même template (même structure) afin que le Xpath fonctionne pour toutes les pages.

Comme vous pouvez le voir plus bas dans cette FAQ,  il y a des raccourcis pour éviter de saisir le Xpath dans certains cas.

Qu’est ce que le Xpath ? Comment l’obtenir ?

Dans la fonction ScrapMe, en plus de l’URL, vous devez indiquer l’emplacement exact sur la page qu’il faut récupérer pour l’importer dans votre fichier Spreadsheet.

Le Xpath ressemble à quelque-chose comme cela:

//html/title

//*[@id= »post-36″]/div/div/h1

Ca commence par le haut de la page HTML, jusqu’à l’emplacement exact au sein des sous sections HTML.

Pour l’obtenir:
1) Allez simplement sur la page que vous voulez scraper
2) Puis faites un clic droit -> « Inspecter » sur l’élément que vous voulez récupérer
3) La Toolbar qui s’est ouverte sélectionne l’élément HTML que vous avez sélectionné
4) Faites un clic droit sur cet élément HTML concerné, puis clique sur « Copier » , puis « Copier Xpath »
5) Ca y est ! Vous avez copier le Xpath qu’il vous reste à coller dans Spreadsheet

Y a-t-il des alternatives / raccourcis pour simplifier l’utilisation du Xpath ?

Oui c’est possible

Vous pouvez utiliser des raccourcis à la place du Xpath, spécialement conçu pour ScrapMe:
title: pour afficher le titre de la page (onglet du navigateur)
metadescription: la balise utilisée pour les moteurs de recherche
h1: la balise titre principale de la page
h2: la balise sous titre de la page
email: le premier email présent dans la page
emailall: tous les emails présents dans la page (séparés par une virgule)
tel: numéro de téléphone dans la page
url: première url détectée dans la page
urlall: toutes les urls détectées dans la page
facebook: première url Facebook dans la page
facebookall: toutes les URLs Facebook dans la page (séparées par une virgule)
instagram: première url Instagram dans la page
instagramall: toutes les URLs Instagram dans la page (séparées par une virgule)
linkedin: première url Linkedin dans la page
linkedinall: toutes les URLs Linkedin dans la page (séparées par une virgule)
twitter: première url Twitter dans la page
twitterall: toutes les URLs Twitter dans la page (séparées par une virgule)
tiktok: première url Tiktok dans la page
tiktokall: toutes les URLs Tiktok dans la page (séparées par une virgule)
video: première url contenant un fichier vidéo dans la page
videoall: toutes les URLs contenant des fichiers vidéos dans la page (séparées par une virgule)
music: première url contenant un fichier audio dans la page
musicall: toutes les URLs contenant des fichiers audio dans la page (séparées par une virgule)

Y a-il-une astuce pour récupérer pleins d’URLs rapidement ?

Vous pouvez utiliser le sitemap XML du site web concerné. (ex: www.siteweb.com/sitemap.xml)

Vous pouvez aussi utiliser mon App pour extraire des URLs. (améliorations à venir)

 

Comment est comptabilisé / débité mon crédit quand j’utilise ScrapMe ?

1 crédit est débité par URL scrapée tous les 24 heures.

Si vous scrapez exactement la même page plusieurs fois en 24 heures, ce n’est pas décompté. (par exemple pour récupérer le titre, email, nom, etc)

Au delà de 24 heures, l’URL scrapée débite à nouveau du crédit.

Cela veut aussi dire qu’il y a un système de cache de 24h. Si le contenu sur le site a été actualisé il y a moins de 24 heures, vous devrez donc attendre 24 heures pour que la nouvelle version de la page soit scrapée.

IMPORTANT: Si vous avez beaucoup de lignes qui utilisent la formule « ScrapMe », pensez impérativement à sauvegarder les valeurs extraites de votre Google Sheets dès que l’extraction est terminée. En effet vous avez 24h pour le faire sans quoi, cela relancera le scraping lorsque vous rechargerez votre fichier Google Sheet.

Pour cela:
1) Sélectionnez toutes les cellules où a été extrait le contenu
2) Faites « Copier »
3) Ensuite faire un « Collage spécial » -> « Valeur uniquement »
4) Voila vous avez sauvegardé les valeurs

Comment voir le solde restant ?

Connectez-vous dans votre Dashboard

Ensuite cliquez sur « Afficher ma clé privée » -> Vous verrez ainsi votre clé privée (token) ainsi que le crédit restant.

Comment éviter de re-scraper des données que j’ai déjà recupéré ?

Lorsque vous ouvrez un Google Spreadsheet que vous avez utilisé il y a plusieurs jours, cela est embêtant si toutes vos URLs sont de nouveau scrapées si vous aviez déjà récupéré le contenu…

Cela va vous couter du crédit, surtout si ces pages ont été scrapées depuis plus de 24 heures.

Pour remédier à cela:
1) Sélectionner toutes les cellules avec les contenus scrapés.
2) Faire un « Copier »
3) Faire « Coller les valeurs uniquement ». Cela permet d’écraser la formule par la valeur récupérée.

Cela permet d’écraser les formules ScrapMe afin de ne conserver que les valeurs obtenues.

Quelles sont les limitations de ScrapMe ?

Les sites web les plus populaires comme Google, Facebook, Amazon, etc utilisent massivement des systèmes anti-scraping.

(beaucoup d’autres sites aussi mais pas avec autant de moyens)

Ils investissent des millions d’euros dans des algorithmes & IA pour détecter les systèmes de scraping.

Il est donc possible (mais pas forcément) que vous rencontriez plus de difficultés pour scraper ces sites web bien que ScrapMe utilisent des systèmes pour passer inaperçu.

Important: pour éviter d’être débité plusieurs fois pour la même URLs déjà scrapée, pensez bien à sauvegarder les données déjà récupérées. Pour cela:

1) Dans Google Sheets, sélectionner toutes les cellules avec les contenus scrapés.
2) Faire un « Copier »
3) Faire « Coller les valeurs uniquement ». Cela permet d’écraser la formule par la valeur récupérée.