Comment trier une liste de blogs selon leur indice de popularité Technorati?

By | 10 mars 2008

Dans le précédent article, nous avons appris à nous servir du logiciel gratuit XScrape, qui permet d’extraire des données du web. Nous allons l’utiliser aujourd’hui dans un exemple pratique : le triage d’une liste de blogs selon leur indice Technorati.

L’indice de popularité d’un blog, au sens de Technorati, correspond au nombre de blogs différents qui lient vers ce blog. Ce n’est pas forcément un indice de qualité mais un indicateur de l’influence du blog dans la blogosphère, qui peut être lié aussi aux capacités de l’auteur à promouvoir son blog. Il est donc logique de s’y intéresser afin d’étudier les méthodes des blogueurs qui ont réussi à faire leur trou.

Pour consulter l’indice de Technorati d’un blog, rien de plus simple : il suffit de consulter la page http://www.technorati.com/blogs/{adresse_du_blog_voulu}. En conséquence, il semble aisé d’automatiser la récupération de l’indice de Technorati de plusieurs blogs grâce à XScrape.

Afin de rendre notre entreprise intéressante, nous allons nous pencher sur la liste de blogs de développement personnel de Priscilla Palmer (eh oui, je ne m’en lasse pas;). Le triage de la liste de Priscilla se déroulera en 4 phases distinctes :

  1. Récupération automatique des liens des blogs de la page de Priscilla Palmer
  2. Transformation de ces liens en liens Technorati
  3. Récupération automatique des indices Technorati de tous les blogs
  4. Triage des informations obtenues

Récupération automatique des liens des blogs de la page de Priscilla Palmer

Pour récupérer les liens des blogs de la liste de Priscilla Palmer, il suffit d’exécuter XScrape avec les paramètres suivants :

URL : http://priscillapalmer.com/pdl.php/

Inclusive URLs : http://priscillapalmer.com/pdl.php/

Exclusive URLs : http://priscillapalmer.com/,http://www.priscillapalmer.com/

Regular Expression : <a[^<>]*href=”http[^<>]*target=”_blank”[^<>]*>[^<>]*</a>

Une rapide analyse de la page de Priscilla permet en effet de voir que tous les liens des blogs listés possèdent l’attribut target=”_blank”, ce qui permet de récupérer automatiquement les bons liens.

Transformation de ces liens en liens Technorati

Après avoir récupéré le résultat de XScrape dans un fichier texte, une simple opération de remplacement suffit à obtenir les liens Technorati :

  • Remplacer http:// par : http://www.technorati.com/blogs/

Pour l’instant, je n’ai pas encore trouvé le moyen d’analyser une page html sans utiliser une adresse http. J’ai donc mis cette page sur mon serveur local pour que XScrape puisse trouver le fichier. Cela donne une adresse du genre http://localhost/

Récupération automatique des indices Technorati de tous les blogs

Pour récupérer les indices de technorati des blogs de la liste de Priscilla Palmer, il suffit d’exécuter XScrape avec les paramètres suivants :

URL : http://localhost/lienstechnorati.html (la page qu’on a construit à l’étape précédente)

Inclusive URLs : http://www.technorati.com/blogs/

Exclusive URLs : http://www.technorati.com/blogs/tag/

Regular Expression : <a[^<>]*class=”links”[^<>]*href=”/search/[^<>]*title=”View[^<>]*blog[^<>]*reactions”>Authority: [^<>]*</a>[^<>]*</div>[^<>]*<div>[^<>]*<a[^<>]*class=”fav

Pour trouver la bonne expression régulière, il faut consulter le code source d’une page de blog Technorati. Ensuite en tatônnant un peu, on obtient finalement la bonne expression régulière.

Notons que cette méthode m’a permi de récupérer environ 80% des indices technorati, et ceci pour 3 raisons :

1/Certains liens ne correspondaient pas à la racine du blog
2/Certains liens n’ont pas encore d’indice car personne n’a encore lié à leur blog
3/Certains liens ne sont pas des blogs

Triage des informations obtenues

Avec un peu d’excel et un peu d’autohotkey, on peut faire des merveilles.

Voici comment j’ai procédé :

  • J’ai d’abord supprimé dans la sortie obtenue toutes les données inutiles
  • Puis j’ai transformé le fichier en format CSV par des remplacements successifs pour obtenir des lignes où les colonnes sont séparées par des points virgule, pour pouvoir l’importer dans Excel :

    http://www.threesixtyalliance.com/360-view;6
    http://www.todayisthatday.com/blog;314
    http://www.positiveselftalkguide.com;46
    etc.

  • Pour connaître les blogs dont on n’a pas pu avoir l’indice, il est intéressant aussi d’importer les données de la liste obtenue lors de l’étape 1 dans le même fichier excel afin de faire une comparaison.
  • Grâce à un script autohotkey, on peut ensuite facilement faire correspondre les colonnes et obtenir un résultat de ce genre :

    Fichier excel des blogs

    (il y a en tout 727 lignes)

  • On peut ensuite trier les lignes et exporter toutes ces données dans un fichier HTML pour obtenir la liste finale.

Conclusion

J’espère que grâce à cet article, vous aurez pu découvrir la puissance de XScrape. On remarquera qu’il est possible de faire la même chose en utilisant l’API de Technorati, mais la méthode présentée ici a l’avantage de ne nécessiter aucune connaissance en programmation.

Dans le prochain article, vous trouverez la liste complète des blogs de développement personnel de Priscilla Palmer triés selon leur indice Technorati.

9 thoughts on “Comment trier une liste de blogs selon leur indice de popularité Technorati?

  1. Pingback: Comment trier une liste de blogs selon leur indice de popularité Technorati?

  2. Wojciech

    Hello admin. Very good web site, great work and thank you for your service. for Youre a genius! spring, Thank you for your site

  3. Leonnes

    Gagner de l’argent en bourse est tres simple ensuivant les conseils de nos professionelles. Regarder cette video

    pour savoir comment faire pour miser en Bourse.

  4. Ludivina

    Reservation d’Hotel pas chere http://reservation-hotel-meilleur-prix.blogspot.fr Vous desirez trouvez une réservation bien speciale ou vous laisser tenter par un coup de coeur, trouver un Hotel de qualite a bon prix ou tout simplement partir en week-end avec votre cheri(e) vous trouverez tout ce que vous desirez en suivant le lien ci-dessus.

    Bonne journée !

  5. Lucindas

    Reservation d’Hotel http://reservation-hotel-meilleur-prix.blogspot.fr Que vous souhaitiez trouvez une réservation bien specifique ou vous laisser tenter par un coup de coeur, trouver un Hotel de qualite a Low Cost ou tout simplement partir en week-end avec votre cheri(e) vous trouverez tout ce que vous desirez en suivant le lien ci-dessus.

    Bonne journée !

Comments are closed.