XScrape : un logiciel gratuit pour extraire des données à partir du web XScrape: un programa gratuito para extraer datos de la web
XScrape XScrape est un petit logiciel gratuit qui permet d' extraire des chaînes de caractères à partir du web. es un software gratuito que permite d 'para extraer las cadenas de la web. Il parcours les pages d'un lien à l'autre en commençant par une adresse de départ. Viaja por las páginas de un enlace a otra a partir de una dirección de inicio.
Si vous désirez récupérer des emails , des liens , les informations contenues dans des méta-tags (tel que des mots clés) et toutes sortes d'autres données stratégiques, c'est donc le logiciel qu'il vous faut. Si desea recuperar mensajes de correo electrónico, enlaces, la información contenida en los meta tags (como palabras clave) y toda clase de otros datos críticos, así que este es el software que necesita. Une simple expression régulière lui fera comprendre le type de données recherché. Una expresión regular simple se entiende el tipo de datos solicitados.
Voici un tutoriel pour vous aider à l'utiliser… Aquí hay un tutorial para ayudarle a utilizar ...
Installation Instalación
Pas d'installation, le logiciel est portable , comme la plupart de ceux qui sont présentés sur ce blog. No requiere instalación, el software es portátil, ya que la mayoría de las presentadas en este blog. Il vous faudra quand même vous assurer que le framework .NET est bien installé sur votre machine. Aún debe asegurarse. NET Framework está instalado en su máquina. S'il n'est pas installé, téléchargez-le par ici : Si no está instalado, puede descargarlo aquí: Framework .NET . NET Framework
Vue générale Descripción general
L'interface du logiciel est d'une simplicité déconcertante, il n'ya qu'un seul écran, le voici : La interfaz es increíblemente sencillo, sólo hay una pantalla, el texto siguiente:
Vous allez devoir renseigner au moins 2 zones : l'adresse de départ (URL) et l'expression régulière qui corresponds aux données recherchées (Regular Expression). Tendrá que aprender por lo menos 2 áreas: la dirección de inicio (URL) y la expresión regular que coincide con los datos deseados (expresión regular).
Les expressions régulières Las expresiones regulares
Les expressions régulières - ou expressions rationnelles - vous permettent de trouver dans un texte donné les chaînes de caractères qui obéissent à un schéma particulier. Las expresiones regulares - o expresiones - usted puede encontrar en cadenas de texto, dado que siguen un patrón en particular. Leur syntaxe est détaillée sur cette page de référence : Su sintaxis se detalla en esta página de referencia: regular-expressions.info regular expressions.info . .
Voici deux exemples pour commencer : He aquí dos ejemplos para empezar:
- Une adresse email : [\w]+@[\w]+\.[\w]{2,3} Un e-mail: [\ w] + @ [\ w] + \. [\ W] (2,3)
- Un lien : <a[^<>]*href=”http[^<>]*>[^<>]*</a> Enlace: <a href = [^<>]* "http [^<>]*>[^<>]*</ a>
Les adresses à inclure Las direcciones son
Dans le champ Inclusive URLs , vous allez saisir la liste des adresses web que XScrape peut traverser. En los campos que se incluyen las direcciones URL, podrás acceder a la lista de direcciones web que pueden cruzar XScrape. Chaque lien doit être séparé par une virgule. Cada link tiene que ser separados por una coma. Les liens rencontrés qui ne contiennent pas l'une de ces adresses ne seront pas consultés. Corbatas encontrados que no contiene ninguna de estas direcciones no serán consultados.
Par exemple si je met wikipedia.org , XScrape pourra visiter en.wikipedia.org ou fr.wikipedia.org/wiki/ mais pas wikimedia.fr Por ejemplo, si pongo wikipedia.org, XScrape puede fr.wikipedia.org o visite en.wikipedia.org / wiki / pero no wikimedia.fr
Les adresses à exclure Las direcciones de excluir a
Dans le champ Exclusive URLs , vous allez saisir la liste des adresses web qui ne devront pas être traversées par XScrape. En el campo de URL exclusiva, podrás acceder a la lista de direcciones de Internet no deben ser cruzadas por XScrape. Par exemple on peut avoir wikipedia.org dans les adresses à inclure et en.wikipedia.org dans les adresses à exclure. Por ejemplo, podemos tener en wikipedia.org direcciones para incluir en el en.wikipedia.org y direcciones de excluir. Chaque lien de la liste doit être séparé par une virgule. Cada eslabón de la lista debe estar separada por una coma.
Le cookie La cookie
Si l'adresse de départ n'est accessible que par mot de passe, il faudra utiliser un Cookie . Si la dirección de partida es accesible sólo por una contraseña, se utilizará una "cookie". Pour récupérer les informations du cookie, saissez simplement “javascript:document.write(document.cookie);” dans le champ adresse de votre navigateur. Para recuperar la información de la cookie simplemente necesitará introducir el "javascript: document.write (document.cookie);" en el campo de la dirección de su navegador. Ensuite, faites-en un copier collé dans le champ cookie de XScrape. Luego, haga una copia pega en el campo de la cookie XScrape.
A suivre… Continuación ...
Dans le prochain article, je vous montrerai comment utiliser XScrape pour trier une liste de blogs selon leur indice de popularité (au sens de Technorati). En el próximo artículo te mostraré cómo utilizar XScrape para ordenar una lista de los blogs por su índice de popularidad (según Technorati).
Tags: Etiquetas: application portable aplicación portátil , , data extractor Data Extractor , , expression régulière expresión regular , , expressions rationnelles expresiones , , gratuit libre , , grep grep , , parser analizador , , parseur analizador , , pattern patrón , , regular expression expresión regular , , tutoriel Tutorial
Articles similaires (en théorie) : Al igual que (en teoría):
Il ya un an sur C'éclair! Hace un año en este hilo! - mars 2008 - Marzo de 2008
Comment trier une liste de blogs selon leur indice de popularité Technorati? ¿Cómo ordenar una lista de los blogs según el índice de popularidad de Technorati?
Comment extraire les fichiers contenus dans un fichier d'installation? ¿Cómo extraer los archivos en un archivo de instalación?
Trouver facilement l'équivalent gratuit d'un logiciel commercial Encontrar fácilmente el equivalente de un software comercial libre
Hébergement gratuit pendant 1 an chez 1&1! Alojamiento gratuito durante 1 año a 1 & 1!












Nabil Nabil said, dicho,
Wrote on Escribió el mars 7, 2008 @ 20:31 7 de marzo 2008 @ 20:31
Merci pour l'info. Gracias por la info.
Fafanne Fafanne said, dicho,
Wrote on Escribió el avril 27, 2008 @ 20:52 27 de abril 2008 @ 20:52
Sinon, pour ceux qui ne souhaitent extraire que des adresses email, il ya l'excellent TicTacMail TicTacMail De lo contrario, para aquellos que deseen extraer solamente las direcciones de correo electrónico, existen excelentes http://www.tictacmail.com http://www.tictacmail.com qui propose également plein d'options. que también ofrece muchas opciones. Mais bon après, c'est une histoire de gouts ! Pero justo después, es una cuestión de gusto!
@++ @ + +
Argancel Argancel said, dicho,
Wrote on Escribió el avril 28, 2008 @ 17:46 28 de abril 2008 @ 17:46
Merci Fafanne, je ne le connaissais pas. Fafanne gracias, yo no lo sé.
The GMS said, El GMS dijo,
Wrote on Escribió el mai 28, 2008 @ 12:46 28 de mayo 2008 @ 12:46
Salut Hola
La (toute jeune) société WebSynaptics propose depuis peu de temps une version bêta gratuite de son logiciel MailWalker. La (muy jóvenes) WebSynaptics compañía recientemente comenzó a ofrecer siempre una versión beta de su software libre MailWalker. Je te conseille d'y faire un tour : Le aconsejo que comprobarlo: http://www.websynaptics.com http://www.websynaptics.com
A+ A +
The GMS El GMS
Argancel Argancel said, dicho,
Wrote on Escribió el mai 28, 2008 @ 12:56 28 de mayo 2008 @ 12:56
@The GMS : Merci pour le renseignement. @ El GMS: Gracias por la información. Mais quels sont les avantages de ce logiciel? Pero ¿cuáles son las ventajas de este software?
The GMS said, El GMS dijo,
Wrote on Escribió el mai 28, 2008 @ 13:00 28 de mayo 2008 @ 13:00
@Argancel : @ Argancel:
outre les recherches à l'aide d'expressions régulières, MailWalker intègre des systèmes de décodage, nettoyage, gestion d'une black-list, système d'inclusion/exclusion,… La investigación adicional usando expresiones regulares, los sistemas de decodificación MailWalker integrado, de limpieza, ejecutando un sistema de listas de negro, la inclusión / exclusión, ...
jyjgh jyjgh said, dicho,
Wrote on Escribió el juillet 10, 2008 @ 19:45 10 de julio 2008 @ 19:45
b,jbghn b jbghn
hugo said, Hugo dijo,
Wrote on Escribió el juillet 31, 2009 @ 15:54 31 de julio 2009 @ 15:54
salut si quelqu'un a directement un bon logiciel(avec la licence ou cracker et qui fonctionne) qui extrait et copies les adresses emails d'un “site web” pas d'une “page uniquement” il peut m'envoyer une copie du logiciel a mon adresse email : hola si alguien tiene un buen software de forma directa (con la licencia o una galleta que trabaja) que recupera y copia la dirección de correo electrónico de un sitio web "" no es una página de "sólo" puede enviar una copia de mi programa de dirección de correo electrónico: mersi mersi