XScrape: свободно средство программирования, котор нужно извлечь от данных starting from стержень
XScrape малое свободно средство программирования позволяетизвлечь характерные черты starting from стержень. Оно течет страницы от одного скрепления к другим пока starting with адрес старта.
Если вы желаете взять emails, скрепления, информация, котор содержат в méta-бирках (such as ключевые слова) и все виды других стратегических данных, будет таким образом средством программирования которое вам нужно. Просто регулярно выражение он сделает для того чтобы включить/понимает требуемый тип данных.
Здесь одно tutoriel помочь вам использовать его…
Установка
Никак установка, средство программирования портативно, как большинство тех которые на этом blog. Вы будете иметь однако make sure что рамки .NET наилучшим образом установлены на вашу машину. Если оно не установлено, то download оно мимо здесь: Рамки .NET
Вообще визирование
Поверхность стыка средства программирования disconcerting простоты, его имеет один экран там, здесь:
Вы сообщить по крайней мере 2 зоны: адрес старта (URL) и регулярно выражение соответствуют к необходимы данным (регулярно выражению).
Регулярно выражения
Регулярно выражения - или рациональные выражения - вы делаете его по возможности найти в тексте, котор дали характерные черты повинуются определенной диаграмме. Их синтаксис детальн на этой странице справки: regular-expressions.info.
Здесь 2 примера, котор нужно начать:
- Email адреса: [\ W] + +@ [\ W] \. [\ W] {2.3}
- Скрепление: <HTTP *href= [<> ^]» [^]<> имеет *> [^<>] *< /a>
Адресы, котор нужно включить
В поле Включительное URLs, вы заедите перечень стержень адресов который XScrape может пересечь. Каждое сусло скрепления отделилось запятым. Скрепления встречали не содержат один из этих адресов не будут посоветованы с.
Например если I кладет wikipedia.org, XScrape будет посетило en.wikipedia.org или fr.wikipedia.org/wiki/ но не wikimedia.fr
Адресы, котор нужно исключить
В поле Исключительное URLs, вы заедите перечень стержень адресов который быть пересеченным XScrape. Например одно может иметь wikipedia.org в адресах, котор нужно включить и en.wikipedia.org в адресах, котор нужно исключить. Каждое скрепление сусла списка отделилось запятым.
Cookie
Если адрес старта доступн только паролем, то одно быть использованным Cookie. Взять информацию cookie, Javascript saissez «просто: document.write (document.cookie); » в поле адресует вашего навигатора. Ensuite, faites-en un copier collé dans le champ cookie de XScrape.
A suivre…
Dans le prochain article, je vous montrerai comment utiliser XScrape pour trier une liste de blogs selon leur indice de popularité (au sens de Technorati).
Tags: application portable, data extractor, expression régulière, expressions rationnelles, gratuit, grep, parser, parseur, pattern, regular expression, tutoriel
Articles similaires (en théorie) :
Il y a un an sur C’éclair! - mars 2008
Comment trier une liste de blogs selon leur indice de popularité Technorati?
Comment extraire les fichiers contenus dans un fichier d’installation?
Trouver facilement l’équivalent gratuit d’un logiciel commercial
Hébergement gratuit pendant 1 an chez 1&1!










Nabil said,
Wrote on mars 7, 2008 @ 20:31
Merci pour l’info.
Fafanne said,
Wrote on avril 27, 2008 @ 20:52
Sinon, pour ceux qui ne souhaitent extraire que des adresses email, il y a l’excellent TicTacMail http://www.tictacmail.com qui propose également plein d’options. Mais bon après, c’est une histoire de gouts !
@++
Argancel said,
Wrote on avril 28, 2008 @ 17:46
Merci Fafanne, je ne le connaissais pas.
The GMS said,
Wrote on mai 28, 2008 @ 12:46
Salut
La (toute jeune) société WebSynaptics propose depuis peu de temps une version bêta gratuite de son logiciel MailWalker. Je te conseille d’y faire un tour : http://www.websynaptics.com
A+
The GMS
Argancel said,
Wrote on mai 28, 2008 @ 12:56
@The GMS : Merci pour le renseignement. Mais quels sont les avantages de ce logiciel?
The GMS said,
Wrote on mai 28, 2008 @ 13:00
@Argancel :
outre les recherches à l’aide d’expressions régulières, MailWalker intègre des systèmes de décodage, nettoyage, gestion d’une black-list, système d’inclusion/exclusion,…
jyjgh said,
Wrote on juillet 10, 2008 @ 19:45
b,jbghn
hugo said,
Wrote on juillet 31, 2009 @ 15:54
salut si quelqu’un a directement un bon logiciel(avec la licence ou cracker et qui fonctionne) qui extrait et copies les adresses emails d’un “site web” pas d’une “page uniquement” il peut m’envoyer une copie du logiciel a mon adresse email : mersi