XScrape : un logiciel gratuit pour extraire des données à partir du web

XScrape-freeware.jpg

XScrape est un petit logiciel gratuit qui permet d’extraire des chaînes de caractères à partir du web. Il parcours les pages d’un lien à l’autre en commençant par une adresse de départ.

Si vous désirez récupérer des emails, des liens, les informations contenues dans des méta-tags (tel que des mots clés) et toutes sortes d’autres données stratégiques, c’est donc le logiciel qu’il vous faut. Une simple expression régulière lui fera comprendre le type de données recherché.

Voici un tutoriel pour vous aider à l’utiliser…

Installation

Pas d’installation, le logiciel est portable, comme la plupart de ceux qui sont présentés sur ce blog. Il vous faudra quand même vous assurer que le framework .NET est bien installé sur votre machine. S’il n’est pas installé, téléchargez-le par ici : Framework .NET

Vue générale

L’interface du logiciel est d’une simplicité déconcertante, il n’y a qu’un seul écran, le voici :

L'écran principal du freeware XScrape

Vous allez devoir renseigner au moins 2 zones : l’adresse de départ (URL) et l’expression régulière qui corresponds aux données recherchées (Regular Expression).

Les expressions régulières

Les expressions régulières – ou expressions rationnelles – vous permettent de trouver dans un texte donné les chaînes de caractères qui obéissent à un schéma particulier. Leur syntaxe est détaillée sur cette page de référence : regular-expressions.info.

Voici deux exemples pour commencer :

  • Une adresse email : [\w]+@[\w]+\.[\w]{2,3}
  • Un lien : <a[^<>]*href= »http[^<>]*>[^<>]*</a>

Les adresses à inclure

Dans le champ Inclusive URLs, vous allez saisir la liste des adresses web que XScrape peut traverser. Chaque lien doit être séparé par une virgule. Les liens rencontrés qui ne contiennent pas l’une de ces adresses ne seront pas consultés.

Par exemple si je met wikipedia.org, XScrape pourra visiter en.wikipedia.org ou fr.wikipedia.org/wiki/ mais pas wikimedia.fr

Les adresses à exclure

Dans le champ Exclusive URLs, vous allez saisir la liste des adresses web qui ne devront pas être traversées par XScrape. Par exemple on peut avoir wikipedia.org dans les adresses à inclure et en.wikipedia.org dans les adresses à exclure. Chaque lien de la liste doit être séparé par une virgule.

Le cookie

Si l’adresse de départ n’est accessible que par mot de passe, il faudra utiliser un Cookie. Pour récupérer les informations du cookie, saissez simplement « javascript:document.write(document.cookie); » dans le champ adresse de votre navigateur. Ensuite, faites-en un copier collé dans le champ cookie de XScrape.

A suivre…

Dans le prochain article, je vous montrerai comment utiliser XScrape pour trier une liste de blogs selon leur indice de popularité (au sens de Technorati).



Mots-clefs :, , , , , , , , , ,

Articles similaires (en théorie) :
Il y a un an sur C’éclair! – mars 2008
Comment trier une liste de blogs selon leur indice de popularité Technorati?
Comment extraire les fichiers contenus dans un fichier d’installation?
Trouver facilement l’équivalent gratuit d’un logiciel commercial
Hébergement gratuit pendant 1 an chez 1&1!

8 commentaires »

  1. Nabil said,

    Wrote on mars 7, 2008 @ 20:31

    Merci pour l’info.

  2. Fafanne said,

    Wrote on avril 27, 2008 @ 20:52

    Sinon, pour ceux qui ne souhaitent extraire que des adresses email, il y a l’excellent TicTacMail http://www.tictacmail.com qui propose également plein d’options. Mais bon après, c’est une histoire de gouts ! ;-)

    @++

  3. Argancel said,

    Wrote on avril 28, 2008 @ 17:46

    Merci Fafanne, je ne le connaissais pas.

  4. The GMS said,

    Wrote on mai 28, 2008 @ 12:46

    Salut

    La (toute jeune) société WebSynaptics propose depuis peu de temps une version bêta gratuite de son logiciel MailWalker. Je te conseille d’y faire un tour : http://www.websynaptics.com

    A+
    The GMS

  5. Argancel said,

    Wrote on mai 28, 2008 @ 12:56

    @The GMS : Merci pour le renseignement. Mais quels sont les avantages de ce logiciel?

  6. The GMS said,

    Wrote on mai 28, 2008 @ 13:00

    @Argancel :
    outre les recherches à l’aide d’expressions régulières, MailWalker intègre des systèmes de décodage, nettoyage, gestion d’une black-list, système d’inclusion/exclusion,…

  7. jyjgh said,

    Wrote on juillet 10, 2008 @ 19:45

    b,jbghn

  8. hugo said,

    Wrote on juillet 31, 2009 @ 15:54

    salut si quelqu’un a directement un bon logiciel(avec la licence ou cracker et qui fonctionne) qui extrait et copies les adresses emails d’un « site web » pas d’une « page uniquement » il peut m’envoyer une copie du logiciel a mon adresse email : thhhhhhe1@yahoo.fr mersi :-)


4 rétroliens

  1. Un logiciel gratuit pour extraire des données stratégiques à partir du web
  2. www.blogmemes.fr
  3. Comment trier une liste de blogs selon leur indice de popularité Technorati?
  4. Il y a un an sur C’éclair! - mars 2008

Comment RSS · TrackBack URI

Ajoutez un commentaire

Nom :

E-mail :

Website:

Comment: