popularitの索引に従ってブログのリストを分類する方法か。 Technoratiか。
Prか。 Cか。 歯の記事、私達は学んだか。 フリーソフトとして役立つ私達 XScrape、ギフトから得ることを可能にするか。 網がありなさい。 私達は実用的な例でそれを今日使用する: Technoratiの索引に従うブログのリストの分類。
popularitの索引か。 ブログの、Technoratiの意味の中では、ブログのdiffの数に対応するか。 賃貸料このブログの方に結合する。 それはforcではないか。 qualitの索引はあるか。 しかし表示器の影響のブログ blogosphか。 できるレニウム、か。 tre李か。 またcapacitとか。 著者のSか。 ブログを促進するため。 それはこうして論理的なyのintであるか。 resserか。 tudier mか。 Rがあるかだれがblogueursのthodesか。 ussiか。 穴を作るため。
ブログのTechnoratiの索引に相談するため、より簡単な何でも: それはページhttp://www.technorati.com/blogs/ {adresse_du_blog_voulu}相談する十分である。 馬鹿としてか。 quence、それは板のようであるか。 Rを自動化するためか。 コップか。 複数のブログgr.のTechnoratiの索引の配給量か。 それか。 XScrape。
私達の会社のintを戻すためか。 ressante、私達は傾く Dのブログはリストするか。 個人的なveloppement Priscillaのマイクロメートルカリパスの(はい、Iは疲労しない;)。 Priscilla Dのリストの分類か。 4明瞭な段階以内に転がる:
- Rか。 コップか。 Priscillaのマイクロメートルカリパスのページのブログの結束の自動配給量
- これらの変形はTechnoratiの結束に結ぶ
- Rか。 コップか。 すべてのブログのTechnoratiの索引の自動配給量
- 情報の分類は得た
Rか。 コップか。 Priscillaのマイクロメートルカリパスのページのブログの結束の自動配給量
Rのためか。 コップか。 RERはPriscillaのマイクロメートルカリパス、それのリストのブログの結束前への十分であるか。 パラメーターのよりかわいいXScrapeか。 非常に次:
URL : http://priscillapalmer.com/pdl.php/
含んだURL : http://priscillapalmer.com/pdl.php/
排他的なURL : http://priscillapalmer.com/,http://www.priscillapalmer.com/
正則表現 : <[^の]<> *href=」 HTTP [^]<> *target=」 _blankが」 [^]<> * [> ^]<> *ある< /a>
急流はPriscillaの作りのページをブログのall the結束がリストすることを見ること可能なそれ全く分析するか。 Sのpossか。 歯Rを割り当てる属性のtarget=」 _blank」、か。 コップか。 自動的にRERのよい結束。
これらの変形はTechnoratiの結束に結ぶ
4月か。 SにRがあるか。 コップか。 Rか。 Rか。 原文ファイル、簡単な警察官のXScrapeのsultatか。 配給量は十分の取り替えであるか。 Technoratiの結束を得るため:
- 取り替えるため http:// 下記によって: http://www.technorati.com/blogs/
のために時に、私trouvがまだあっているか。 住所HTTPを使用しないでページHTMLを分析する手段。 Iつは私のローカルウエーターにこうしてXScrapeがファイルを見つけることができるようにこのページを置く。 それは種類の住所を与える http://localhost/…
Rか。 コップか。 すべてのブログのTechnoratiの索引の自動配給量
Pour r?cup?rer les indices de technorati des blogs de la liste de Priscilla Palmer, il suffit d’ex?cuter XScrape avec les param?tres suivants :
URL : http://localhost/lienstechnorati.html (la page qu’on a construit ? l’?tape pr?c?dente)
Inclusive URLs : http://www.technorati.com/blogs/
Exclusive URLs : http://www.technorati.com/blogs/tag/
Regular Expression : <a[^<>]*class=”links”[^<>]*href=”/search/[^<>]*title=”View[^<>]*blog[^<>]*reactions”>Authority: [^<>]*</a>[^<>]*</div>[^<>]*<div>[^<>]*<a[^<>]*class=”fav
Pour trouver la bonne expression r?guli?re, il faut consulter le code source d’une page de blog Technorati. Ensuite en tat?nnant un peu, on obtient finalement la bonne expression r?guli?re.
Notons que cette m?thode m’a permi de r?cup?rer environ 80% des indices technorati, et ceci pour 3 raisons :
1/Certains liens ne correspondaient pas ? la racine du blog
2/Certains liens n’ont pas encore d’indice car personne n’a encore li? ? leur blog
3/Certains liens ne sont pas des blogs
Triage des informations obtenues
Avec un peu d’excel et un peu d’autohotkey, on peut faire des merveilles.
Voici comment j’ai proc?d? :
- J’ai d’abord supprim? dans la sortie obtenue toutes les donn?es inutiles
- Puis j’ai transform? le fichier en format CSV par des remplacements successifs pour obtenir des lignes o? les colonnes sont s?par?es par des points virgule, pour pouvoir l’importer dans Excel :
http://www.threesixtyalliance.com/360-view;6
http://www.todayisthatday.com/blog;314
http://www.positiveselftalkguide.com;46
etc.
- Pour conna?tre les blogs dont on n’a pas pu avoir l’indice, il est int?ressant aussi d’importer les donn?es de la liste obtenue lors de l’?tape 1 dans le m?me fichier excel afin de faire une comparaison.
- Gr?ce ? un script autohotkey, on peut ensuite facilement faire correspondre les colonnes et obtenir un r?sultat de ce genre :
(il y a en tout 727 lignes)
- On peut ensuite trier les lignes et exporter toutes ces donn?es dans un fichier HTML pour obtenir la liste finale.
Conclusion
J’esp?re que gr?ce ? cet article, vous aurez pu d?couvrir la puissance de XScrape. On remarquera qu’il est possible de faire la m?me chose en utilisant l’API de Technorati, mais la m?thode pr?sent?e ici a l’avantage de ne n?cessiter aucune connaissance en programmation.
Dans le prochain article, vous trouverez la liste compl?te des blogs de d?veloppement personnel de Priscilla Palmer tri?s selon leur indice Technorati.
Tags: autohotkey, blog, D?veloppement Personnel, Excel, expression r?guli?re, liste, parseur, popularit?, regular expression, technorati, tutoriel, xscrapeSi vous avez aim? cet article, donnez-lui plus de visibilit? en votant pour lui sur Scoopeo :
Articles similaires (en th?orie) :
Stats
XScrape : un logiciel gratuit pour extraire des donn?es ? partir du web
Page de stats : o? trouver les meilleurs scripts de statistiques
Plus de 350 blogs sur le th?me du d?veloppement personnel
Projet d’article collaboratif : la liste ultime des blogs de d?veloppement personnel francophones










Jean Michel said,
Wrote on mars 10, 2008 @ 20:05
Un tuto bien expliqu?
beau travail
Bonne fin de journ?e:)