XScrape : un logiciel gratuit pour extraire des données à partir du web XScrape: un freeware per estrarre i dati dal web

XScrape-freeware.jpg

XScrape XScrape est un petit logiciel gratuit qui permet d' extraire des chaînes de caractères à partir du web. è un software gratuito che permette d 'per estrarre le stringhe dal web. Il parcours les pages d'un lien à l'autre en commençant par une adresse de départ. Viaggia tra le pagine di un link ad un altro a partire da un indirizzo di partenza.

Si vous désirez récupérer des emails , des liens , les informations contenues dans des méta-tags (tel que des mots clés) et toutes sortes d'autres données stratégiques, c'est donc le logiciel qu'il vous faut. Se si desidera scaricare la posta, i collegamenti, le informazioni contenute nei meta tag (parole chiave come ad esempio) e tutta una serie di altri dati critici, quindi questo è il software che vi serve. Une simple expression régulière lui fera comprendre le type de données recherché. Una semplice espressione regolare sarà capire il tipo di dati richiesti.

Voici un tutoriel pour vous aider à l'utiliser… Ecco un tutorial per aiutarvi a utilizzare ...

Installation Installazione

Pas d'installation, le logiciel est portable , comme la plupart de ceux qui sont présentés sur ce blog. Nessuna installazione, il software è portatile, come la maggior parte di quelle presentate su questo blog. Il vous faudra quand même vous assurer que le framework .NET est bien installé sur votre machine. Si dovrebbe comunque assicurarsi. NET Framework è installato sulla vostra macchina. S'il n'est pas installé, téléchargez-le par ici : Se non viene installato, scaricarlo qui: Framework .NET . NET Framework

Vue générale Panoramica

L'interface du logiciel est d'une simplicité déconcertante, il n'ya qu'un seul écran, le voici : L'interfaccia è incredibilmente semplice, c'è una sola schermata, i seguenti:

L'écran principal du freeware XScrape

Vous allez devoir renseigner au moins 2 zones : l'adresse de départ (URL) et l'expression régulière qui corresponds aux données recherchées (Regular Expression). Avrete bisogno di imparare almeno 2 aree: l'inizio indirizzo (URL) e l'espressione regolare corrispondenza tra i dati desiderati (Regular Expression).

Les expressions régulières Espressioni regolari

Les expressions régulières - ou expressions rationnelles - vous permettent de trouver dans un texte donné les chaînes de caractères qui obéissent à un schéma particulier. Le espressioni regolari - o espressioni - si può trovare in un stringhe di testo che seguono un modello particolare. Leur syntaxe est détaillée sur cette page de référence : La loro sintassi è dettagliata in questa pagina di riferimento: regular-expressions.info regolare expressions.info . .

Voici deux exemples pour commencer : Ecco due esempi per iniziare:

  • Une adresse email : [\w]+@[\w]+\.[\w]{2,3} Una e-mail: [\ w] + @ [\ w] + \. [\ W] (2,3)
  • Un lien : <a[^<>]*href=”http[^<>]*>[^<>]*</a> Link: <a href = [^<>]* "http [^<>]*>[^<>]*</ a>

Les adresses à inclure Gli indirizzi sono

Dans le champ Inclusive URLs , vous allez saisir la liste des adresses web que XScrape peut traverser. Nei settori inclusi gli URL, devi inserire l'elenco degli indirizzi web che possono attraversare XScrape. Chaque lien doit être séparé par une virgule. Ogni link devono essere separati da una virgola. Les liens rencontrés qui ne contiennent pas l'une de ces adresses ne seront pas consultés. Cravatte incontrati che non contiene nessuno di questi indirizzi non saranno consultati.

Par exemple si je met wikipedia.org , XScrape pourra visiter en.wikipedia.org ou fr.wikipedia.org/wiki/ mais pas wikimedia.fr Per esempio, se ho messo wikipedia.org, XScrape può fr.wikipedia.org o visitare en.wikipedia.org / wiki / ma non wikimedia.fr

Les adresses à exclure Gli indirizzi di escludere

Dans le champ Exclusive URLs , vous allez saisir la liste des adresses web qui ne devront pas être traversées par XScrape. Nel campo URL Exclusive, devi inserire l'elenco degli indirizzi web non dovrebbe essere attraversata da XScrape. Par exemple on peut avoir wikipedia.org dans les adresses à inclure et en.wikipedia.org dans les adresses à exclure. Per esempio, potremmo avere in wikipedia.org indirizzi di includere nel en.wikipedia.org e gli indirizzi da escludere. Chaque lien de la liste doit être séparé par une virgule. Ogni link nell'elenco devono essere separati da una virgola.

Le cookie Il cookie

Si l'adresse de départ n'est accessible que par mot de passe, il faudra utiliser un Cookie . Se l'indirizzo di partenza è accessibile solo mediante password, verrà utilizzato un cookie. Pour récupérer les informations du cookie, saissez simplement “javascript:document.write(document.cookie);” dans le champ adresse de votre navigateur. Per recuperare informazioni dal cookie semplicemente bisogno di "javascript: document.write (document.cookie);" nel campo degli indirizzi del browser. Ensuite, faites-en un copier collé dans le champ cookie de XScrape. Quindi, fare una copia di incollata nel campo XScrape cookie.

A suivre… Continua ...

Dans le prochain article, je vous montrerai comment utiliser XScrape pour trier une liste de blogs selon leur indice de popularité (au sens de Technorati). Nel prossimo articolo vi mostrerò come utilizzare XScrape per ordinare un elenco di blog con il loro indice di popolarità (secondo Technorati).

Tags: Tags: , , , , , , , , , , , , , , , , , , , ,

Articles similaires (en théorie) : Come (in teoria):
Il ya un an sur C'éclair! Un anno fa su questo thread! - mars 2008 - Marzo 2008
Comment trier une liste de blogs selon leur indice de popularité Technorati? Come ordinare un elenco di blog secondo indice di popolarità Technorati?
Comment extraire les fichiers contenus dans un fichier d'installation? Come estrarre i file in un file di installazione?
Trouver facilement l'équivalent gratuit d'un logiciel commercial Trovare facilmente l'equivalente di un software libero commerciale
Hébergement gratuit pendant 1 an chez 1&1! Hosting gratuito per 1 anno a 1 & 1!

8 commentaires 8 commenti » "

  1. Nabil Nabil said, detto,

    Wrote on Ha scritto il mars 7, 2008 @ 20:31 7 Marzo 2008 @ 20:31

    Merci pour l'info. Vi ringrazio per le info.

  2. Fafanne Fafanne said, detto,

    Wrote on Ha scritto il avril 27, 2008 @ 20:52 27 Aprile 2008 @ 20:52

    Sinon, pour ceux qui ne souhaitent extraire que des adresses email, il ya l'excellent TicTacMail In caso contrario, per coloro che vogliono estrarre solo indirizzi e-mail, non vi è eccellente TicTacMail http://www.tictacmail.com http://www.tictacmail.com qui propose également plein d'options. che offre anche molte opzioni. Mais bon après, c'est une histoire de gouts ! Ma subito dopo, è una questione di gusti! ;-)

    @++ @ + +

  3. Argancel Argancel said, detto,

    Wrote on Ha scritto il avril 28, 2008 @ 17:46 28 Aprile 2008 @ 17:46

    Merci Fafanne, je ne le connaissais pas. Fafanne ringrazio, io non lo so.

  4. The GMS said, Il GMS ha detto,

    Wrote on Ha scritto il mai 28, 2008 @ 12:46 28 Maggio 2008 @ 12:46

    Salut Salve

    La (toute jeune) société WebSynaptics propose depuis peu de temps une version bêta gratuite de son logiciel MailWalker. Il (molto giovani) WebSynaptics società ha recentemente iniziato ad offrire a lungo una versione beta gratuita del suo software MailWalker. Je te conseille d'y faire un tour : Vi consiglio di dargli un'occhiata: http://www.websynaptics.com http://www.websynaptics.com

    A+ A +
    The GMS Il GMS

  5. Argancel Argancel said, detto,

    Wrote on Ha scritto il mai 28, 2008 @ 12:56 28 Maggio 2008 @ 12:56

    @The GMS : Merci pour le renseignement. @ Il GMS: Grazie per le informazioni. Mais quels sont les avantages de ce logiciel? Ma quali sono i vantaggi di questo software?

  6. The GMS said, Il GMS ha detto,

    Wrote on Ha scritto il mai 28, 2008 @ 13:00 28 Maggio 2008 @ 13:00

    @Argancel : @ Argancel:
    outre les recherches à l'aide d'expressions régulières, MailWalker intègre des systèmes de décodage, nettoyage, gestion d'une black-list, système d'inclusion/exclusion,… Ulteriori ricerche utilizzando espressioni regolari, i sistemi di decodifica MailWalker integrati, la pulizia, la gestione di un sistema black-list, l'inclusione / esclusione, ...

  7. jyjgh jyjgh said, detto,

    Wrote on Ha scritto il juillet 10, 2008 @ 19:45 10 Luglio 2008 @ 19:45

    b,jbghn b jbghn

  8. hugo said, hugo ha detto,

    Wrote on Ha scritto il juillet 31, 2009 @ 15:54 31 Luglio 2009 @ 15:54

    salut si quelqu'un a directement un bon logiciel(avec la licence ou cracker et qui fonctionne) qui extrait et copies les adresses emails d'un “site web” pas d'une “page uniquement” il peut m'envoyer une copie du logiciel a mon adresse email : hi se qualcuno ha un buon software direttamente (con la licenza o cracker che funziona), che recupera e copia gli indirizzi email di un sito web "non è una pagina di" solo "si può inviare una copia della Rivolgo il mio software di posta elettronica: mersi Mersi :-)


4 rétroliens 4 riferimenti

  1. Un logiciel gratuit pour extraire des données stratégiques à partir du web Il software libero per estrarre informazioni strategiche dal web
  2. www.blogmemes.fr www.blogmemes.fr
  3. Comment trier une liste de blogs selon leur indice de popularité Technorati? Come ordinare un elenco di blog secondo indice di popolarità Technorati?
  4. Il ya un an sur C'éclair! Un anno fa su questo thread! - mars 2008 - Marzo 2008

Comment RSS Comment RSS · · TrackBack URI TrackBack URI

Ajoutez un commentaire Aggiungi un commento

Nom : Nome:

E-mail: E-mail:

Website: Sito web:

Comment: Commento: