Comment trier une liste de blogs selon leur indice de popularité Technorati? Come ordinare un elenco di blog secondo indice di popolarità Technorati?
Dans le Nel précédent article Precedente articolo , nous avons appris à nous servir du logiciel gratuit XScrape , qui permet d'extraire des données du web. Abbiamo imparato a utilizzare il software libero XScrape, che permette di estrarre i dati web. Nous allons l'utiliser aujourd'hui dans un exemple pratique : le triage d'une liste de blogs selon leur indice Technorati. Ora useremo un esempio pratico: l'ordinamento di un elenco dei blog in base all'indice Technorati.
L'indice de popularité d'un blog, au sens de Technorati, correspond au nombre de blogs différents qui lient vers ce blog. L'indice di popolarità di un blog, ai sensi di Technorati, è il numero di diversi blog che un link a questo blog. Ce n'est pas forcément un indice de qualité mais un indicateur de l' influence du blog dans la blogosphère, qui peut être lié aussi aux capacités de l'auteur à promouvoir son blog. Questo non è necessariamente un'indicazione di qualità, ma un indicatore di influenza del blog nella blogosfera, che può anche essere legata alla capacità dell'autore di promuovere il suo blog. Il est donc logique de s'y intéresser afin d'étudier les méthodes des blogueurs qui ont réussi à faire leur trou. E 'pertanto logico di essere interessati a studiare i metodi dei blogger che sono riusciti a presentare le loro tane.
Pour consulter l'indice de Technorati d'un blog, rien de plus simple : il suffit de consulter la page http://www.technorati.com/blogs/{adresse_du_blog_voulu}. Per visualizzare l'indice dei blog Technorati, niente di più semplice: basta visitare il http://www.technorati.com/blogs/ adresse_du_blog_voulu (). En conséquence, il semble aisé d'automatiser la récupération de l'indice de Technorati de plusieurs blogs grâce à XScrape. Pertanto, sembra facile per automatizzare l'indice di recupero per Technorati blog con XScrape.
Afin de rendre notre entreprise intéressante, nous allons nous pencher sur la Per rendere la nostra azienda attraente, si prenderà in considerazione la liste de blogs de développement personnel elenco di blog di sviluppo personale de Priscilla Palmer (eh oui, je ne m'en lasse pas;). Priscilla Palmer (sì, sono stanco;). Le triage de la liste de Priscilla se déroulera en 4 phases distinctes : L'ordinamento della lista di Priscilla si svolgerà in 4 fasi:
- Récupération automatique des liens des blogs de la page de Priscilla Palmer Link automatico alla pagina di blog Priscilla Palmer
- Transformation de ces liens en liens Technorati Trasformazione di questi link in link di Technorati
- Récupération automatique des indices Technorati de tous les blogs Salvataggio automatico Technorati indicizza tutti i blog
- Triage des informations obtenues Ordinare le informazioni ottenute
Récupération automatique des liens des blogs de la page de Priscilla Palmer Link automatico alla pagina di blog Priscilla Palmer
Pour récupérer les liens des blogs de la liste de Priscilla Palmer, il suffit d'exécuter XScrape avec les paramètres suivants : Per recuperare i link dei blog list by Priscilla Palmer, basta eseguire XScrape con i seguenti parametri:
URL : http://priscillapalmer.com/pdl.php/ URL: http://priscillapalmer.com/pdl.php/
Inclusive URLs : http://priscillapalmer.com/pdl.php/ Inclusive URL: http://priscillapalmer.com/pdl.php/
Exclusive URLs : http://priscillapalmer.com/,http://www.priscillapalmer.com/ Esclusiva URL: http://priscillapalmer.com/, http://www.priscillapalmer.com/
Regular Expression : <a[^<>]*href=”http[^<>]*target=”_blank”[^<>]*>[^<>]*</a> Regular Expression: <a href = [^<>]* "http [^<>]* target =" _blank "[^<>]*>[^<>]*</ a>
Une rapide analyse de la page de Priscilla permet en effet de voir que tous les liens des blogs listés possèdent l'attribut target=”_blank”, ce qui permet de récupérer automatiquement les bons liens. Una rapida analisi della pagina Priscilla si vede che in realtà tutti i blog elencati i collegamenti hanno l'attributo TARGET = "_blank", che recupera automaticamente i collegamenti corretti.
Transformation de ces liens en liens Technorati Trasformazione di questi link in link di Technorati
Après avoir récupéré le résultat de XScrape dans un fichier texte, une simple opération de remplacement suffit à obtenir les liens Technorati : Dopo aver trovato la XScrape risultato in un file di testo, una semplice operazione di sostituzione solo per ottenere i link di Technorati:
- Remplacer http:// par : http://www.technorati.com/blogs/ Sostituire con http://: http://www.technorati.com/blogs/
Pour l'instant, je n'ai pas encore trouvé le moyen d'analyser une page html sans utiliser une adresse http. Per ora, non ho ancora trovato il modo di analizzare una pagina HTML senza utilizzare un indirizzo http. J'ai donc mis cette page sur mon serveur local pour que XScrape puisse trouver le fichier. Così ho messo questa pagina sul mio server locale per XScrape possibile trovare il file. Cela donne une adresse du genre http://localhost/ … Questo dà un indirizzo del tipo http://localhost/ ...
Récupération automatique des indices Technorati de tous les blogs Salvataggio automatico Technorati indicizza tutti i blog
Pour récupérer les indices de technorati des blogs de la liste de Priscilla Palmer, il suffit d'exécuter XScrape avec les paramètres suivants : Per recuperare l'indice dei blog Technorati elenco di Priscilla Palmer, basta eseguire XScrape con i seguenti parametri:
URL : http://localhost/lienstechnorati.html (la page qu'on a construit à l'étape précédente) URL: http://localhost/lienstechnorati.html (la pagina che è stata costruita nel passaggio precedente)
Inclusive URLs : http://www.technorati.com/blogs/ Inclusive URL: http://www.technorati.com/blogs/
Exclusive URLs : http://www.technorati.com/blogs/tag/ Esclusiva URL: http://www.technorati.com/blogs/tag/
Regular Expression : <a[^<>]*class=”links”[^<>]*href=”/search/[^<>]*title=”View[^<>]*blog[^<>]*reactions”>Authority: [^<>]*</a>[^<>]*</div>[^<>]*<div>[^<>]*<a[^<>]*class=”fav Regular Expression: <a class = [^<>]* "link "[^<>]* href =" / search /[^<>]* title = "Visualizza [^<>]* Blog [^<>] * Le reazioni "> Authority: [^<>]*</ ha >[^<>]*</ div >[^<>]*< div >[^<>]*< ha [^<>]* classe = "fav
Pour trouver la bonne expression régulière, il faut consulter le code source d'une page de blog Technorati. Per trovare l'espressione regolare corretta, si deve consultare il codice sorgente di una pagina di blog Technorati. Ensuite en tatônnant un peu, on obtient finalement la bonne expression régulière. Poi, un po 'a tentoni, abbiamo finalmente ottenere la regex corretta.
Notons que cette méthode m'a permi de récupérer environ 80% des indices technorati, et ceci pour 3 raisons : Si noti che questo metodo mi ha permesso di recuperare circa il 80% degli indici di Technorati, e questo per 3 motivi:
1/Certains liens ne correspondaient pas à la racine du blog Collegamenti 1/Certains non corrispondono alla radice del blog
2/Certains liens n'ont pas encore d'indice car personne n'a encore lié à leur blog Rapporto 2/Certains non indice perché nessuno è legata alla loro blog
3/Certains liens ne sont pas des blogs Collegamenti 3/Certains non sono i blog
Triage des informations obtenues Ordinare le informazioni ottenute
Avec un peu d' Con un po 'di excel excel et un peu d' e alcuni di autohotkey AutoHotkey , on peut faire des merveilles. , Può fare miracoli.
Voici comment j'ai procédé : Ecco come ho proceduto:
- J'ai d'abord supprimé dans la sortie obtenue toutes les données inutiles Ho cancellato tutti i dati risultanti uscita inutili
-
Puis j'ai transformé le fichier en format CSV par des remplacements successifs pour obtenir des lignes où les colonnes sont séparées par des points virgule, pour pouvoir l'importer dans Excel : Poi ho cambiato il file in formato CSV di sostituzioni successive di righe in cui le colonne sono separate da punti e virgola, per essere in grado di importare in Excel:
http://www.threesixtyalliance.com/360-view;6 http://www.threesixtyalliance.com/360-view; 6
http://www.todayisthatday.com/blog;314 http://www.todayisthatday.com/blog; 314
http://www.positiveselftalkguide.com;46 http://www.positiveselftalkguide.com, 46
etc. ecc.
- Pour connaître les blogs dont on n'a pas pu avoir l'indice, il est intéressant aussi d'importer les données de la liste obtenue lors de l'étape 1 dans le même fichier excel afin de faire une comparaison. Per trovare i blog che non poteva prendere l'indice, è interessante anche per importare i dati lista ottenuta nel passaggio 1 nella stessa Excel per fare un confronto.
-
Grâce à un Attraverso un script script autohotkey, on peut ensuite facilement faire correspondre les colonnes et obtenir un résultat de ce genre : AutoHotkey, si può quindi facilmente corrispondere le colonne e ottenere un risultato come questo:
(il ya en tout 727 lignes) (ci sono un totale di 727 linee)
- On peut ensuite trier les lignes et exporter toutes ces données dans un fichier HTML pour obtenir la liste finale. Possiamo quindi ordinare le righe e l'esportazione di tutti questi dati in un file HTML per l'elenco definitivo.
Conclusion Conclusione
J'espère que grâce à cet article, vous aurez pu découvrir la puissance de XScrape. Mi auguro che attraverso questo articolo, avrete scoperto il potere di XScrape. On remarquera qu'il est possible de faire la même chose en utilisant l'API de Technorati, mais la méthode présentée ici a l'avantage de ne nécessiter aucune connaissance en programmation. Si noti che è possibile fare la stessa cosa utilizzando l'API di Technorati, ma il metodo qui presentato ha il vantaggio di non richiedere alcuna conoscenza di programmazione.
Dans le prochain article, vous trouverez la liste complète des blogs de développement personnel de Priscilla Palmer triés selon leur indice Technorati. Nella sezione successiva, troverete la lista completa di sviluppo personale blog Priscilla Palmer ordinati in base al loro indice di Technorati.
Tags: Tags: autohotkey AutoHotkey , , blog blog , , Développement Personnel Personal Development , , Excel Excel , , expression régulière espressione regolare , , liste list , , parseur parser , , popularité popularity , , regular expression espressione regolare , , technorati technorati , , tutoriel Tutorial , , xscrape xscrape
Articles similaires (en théorie) : Come (in teoria):
Il ya un an sur C'éclair! Un anno fa su questo thread! - mars 2008 - Marzo 2008
Stats Stats
XScrape : un logiciel gratuit pour extraire des données à partir du web XScrape: un freeware per estrarre i dati dal web
Page de stats : où trouver les meilleurs scripts de statistiques Stats Page: dove trovare le migliori statistiche script
Il ya un an sur C'éclair! Un anno fa su questo thread! - février 2008 - Febbraio 2008









Jean Michel Jean Michel said, detto,
Wrote on Ha scritto il mars 10, 2008 @ 20:05 10 Marzo 2008 @ 20:05
Un tuto bien expliqué Un tutorial ben spiegato
beau travail buon lavoro
Bonne fin de journée:) Buon fine della giornata:)
Wojciech Wojciech said, detto,
Wrote on Ha scritto il mars 28, 2009 @ 0:56 28 Marzo 2009 @ 0:56
Hello admin. Ciao admin. Very good web site, great work and thank you for your service. Very good web site, great work e vi ringrazio per il vostro servizio. for Youre a genius! per Youre un genio! spring, Thank you for your site primavera, La ringrazio per il tuo sito