XScrape : un logiciel gratuit pour extraire des données à partir du web XScrape: a freeware to extract data from web
XScrape XScrape est un petit logiciel gratuit qui permet d' extraire des chaînes de caractères à partir du web. is a free software that allows d 'to extract strings from the web. Il parcours les pages d'un lien à l'autre en commençant par une adresse de départ. He travels the pages of a link to another starting with a starting address.
Si vous désirez récupérer des emails , des liens , les informations contenues dans des méta-tags (tel que des mots clés) et toutes sortes d'autres données stratégiques, c'est donc le logiciel qu'il vous faut. If you want to retrieve emails, links, information contained in meta tags (such as keywords) and all sorts of other critical data, so this is the software you need. Une simple expression régulière lui fera comprendre le type de données recherché. A simple regular expression it will understand the type of data sought.
Voici un tutoriel pour vous aider à l'utiliser… Here's a tutorial to help you use ...
Installation Installation
Pas d'installation, le logiciel est portable , comme la plupart de ceux qui sont présentés sur ce blog. No installation, the software is portable, as most of those presented on this blog. Il vous faudra quand même vous assurer que le framework .NET est bien installé sur votre machine. You should still make sure. NET framework is installed on your machine. S'il n'est pas installé, téléchargez-le par ici : If not installed, download it here: Framework .NET . NET Framework
Vue générale Overview
L'interface du logiciel est d'une simplicité déconcertante, il n'ya qu'un seul écran, le voici : The interface is amazingly simple, there is only one screen, the following:
Vous allez devoir renseigner au moins 2 zones : l'adresse de départ (URL) et l'expression régulière qui corresponds aux données recherchées (Regular Expression). You'll need to learn at least 2 areas: the start address (URL) and regular expression matching the desired data (Regular Expression).
Les expressions régulières Regular expressions
Les expressions régulières - ou expressions rationnelles - vous permettent de trouver dans un texte donné les chaînes de caractères qui obéissent à un schéma particulier. Regular expressions - or expressions - you can find in a given text strings that follow a particular pattern. Leur syntaxe est détaillée sur cette page de référence : Their syntax is detailed in this reference page: regular-expressions.info regular-expressions.info . .
Voici deux exemples pour commencer : Here are two examples to get started:
- Une adresse email : [\w]+@[\w]+\.[\w]{2,3} An e-mail: [\ w] + @ [\ w] + \. [\ W] (2,3)
- Un lien : <a[^<>]*href=”http[^<>]*>[^<>]*</a> Link: <a href = [^<>]* "http [^<>]*>[^<>]*</ a>
Les adresses à inclure The addresses include
Dans le champ Inclusive URLs , vous allez saisir la liste des adresses web que XScrape peut traverser. In the fields included URLs, you'll enter the list of web addresses that can cross XScrape. Chaque lien doit être séparé par une virgule. Each link must be separated by a comma. Les liens rencontrés qui ne contiennent pas l'une de ces adresses ne seront pas consultés. Ties encountered that does not contain any of these addresses will not be consulted.
Par exemple si je met wikipedia.org , XScrape pourra visiter en.wikipedia.org ou fr.wikipedia.org/wiki/ mais pas wikimedia.fr For example if I put wikipedia.org, XScrape may fr.wikipedia.org or visit en.wikipedia.org / wiki / but not wikimedia.fr
Les adresses à exclure The addresses to exclude
Dans le champ Exclusive URLs , vous allez saisir la liste des adresses web qui ne devront pas être traversées par XScrape. In the field Exclusive URLs, you'll enter the list of web addresses should not be crossed by XScrape. Par exemple on peut avoir wikipedia.org dans les adresses à inclure et en.wikipedia.org dans les adresses à exclure. For example, we may have in wikipedia.org addresses to include in the en.wikipedia.org and addresses to exclude. Chaque lien de la liste doit être séparé par une virgule. Each link in the list must be separated by a comma.
Le cookie The cookie
Si l'adresse de départ n'est accessible que par mot de passe, il faudra utiliser un Cookie . If the starting address is accessible only by password, it will use a cookie. Pour récupérer les informations du cookie, saissez simplement “javascript:document.write(document.cookie);” dans le champ adresse de votre navigateur. To retrieve information from the cookie simply need to enter "javascript: document.write (document.cookie);" in the address field of your browser. Ensuite, faites-en un copier collé dans le champ cookie de XScrape. Then, make a copy pasted into the field XScrape cookie.
A suivre… Continued ...
Dans le prochain article, je vous montrerai comment utiliser XScrape pour trier une liste de blogs selon leur indice de popularité (au sens de Technorati). In the next article I will show you how to use XScrape to sort a list of blogs by their popularity index (according to Technorati).
Tags: Tags: application portable portable application , , data extractor data extractor , , expression régulière regular expression , , expressions rationnelles expressions , , gratuit free , , grep grep , , parser parser , , parseur parser , , pattern pattern , , regular expression regular expression , , tutoriel tutorial
Articles similaires (en théorie) : Like (in theory):
Il ya un an sur C'éclair! A year ago on this Thread! - mars 2008 - March 2008
Comment trier une liste de blogs selon leur indice de popularité Technorati? How to sort a list of blogs according to Technorati popularity index?
Comment extraire les fichiers contenus dans un fichier d'installation? How to extract the files into an installation file?
Trouver facilement l'équivalent gratuit d'un logiciel commercial Find easily the equivalent of a free commercial software
Hébergement gratuit pendant 1 an chez 1&1! Free hosting for 1 year at 1 & 1!












Nabil Nabil said, said,
Wrote on Wrote on mars 7, 2008 @ 20:31 March 7, 2008 @ 20:31
Merci pour l'info. Thank you for the info.
Fafanne Fafanne said, said,
Wrote on Wrote on avril 27, 2008 @ 20:52 April 27, 2008 @ 20:52
Sinon, pour ceux qui ne souhaitent extraire que des adresses email, il ya l'excellent TicTacMail Otherwise, for those who wish to extract only email addresses, there is excellent TicTacMail http://www.tictacmail.com http://www.tictacmail.com qui propose également plein d'options. which also offers plenty of options. Mais bon après, c'est une histoire de gouts ! But right after, it is a matter of taste!
@++ @ + +
Argancel Argancel said, said,
Wrote on Wrote on avril 28, 2008 @ 17:46 April 28, 2008 @ 17:46
Merci Fafanne, je ne le connaissais pas. Fafanne thank you, I do not know.
The GMS said, The GMS said,
Wrote on Wrote on mai 28, 2008 @ 12:46 May 28, 2008 @ 12:46
Salut Hi
La (toute jeune) société WebSynaptics propose depuis peu de temps une version bêta gratuite de son logiciel MailWalker. The (very young) WebSynaptics company recently began offering long a free beta version of its software MailWalker. Je te conseille d'y faire un tour : I advise you to check it out: http://www.websynaptics.com http://www.websynaptics.com
A+ A +
The GMS The GMS
Argancel Argancel said, said,
Wrote on Wrote on mai 28, 2008 @ 12:56 May 28, 2008 @ 12:56
@The GMS : Merci pour le renseignement. @ The GMS: Thanks for the information. Mais quels sont les avantages de ce logiciel? But what are the advantages of this software?
The GMS said, The GMS said,
Wrote on Wrote on mai 28, 2008 @ 13:00 May 28, 2008 @ 13:00
@Argancel : @ Argancel:
outre les recherches à l'aide d'expressions régulières, MailWalker intègre des systèmes de décodage, nettoyage, gestion d'une black-list, système d'inclusion/exclusion,… Further research using regular expressions, MailWalker integrated decoding systems, cleaning, running a black-list system, the inclusion / exclusion, ...
jyjgh jyjgh said, said,
Wrote on Wrote on juillet 10, 2008 @ 19:45 July 10, 2008 @ 19:45
b,jbghn b jbghn
hugo said, hugo said,
Wrote on Wrote on juillet 31, 2009 @ 15:54 July 31, 2009 @ 15:54
salut si quelqu'un a directement un bon logiciel(avec la licence ou cracker et qui fonctionne) qui extrait et copies les adresses emails d'un “site web” pas d'une “page uniquement” il peut m'envoyer une copie du logiciel a mon adresse email : hi if anyone has a good software directly (with the license or cracker that works) that retrieves and copies the email addresses of a "website" not a "page only" it can send me a copy of software my email address: mersi mersi