En ce moment je travaille sur http://www.odowa.com/ qui est un agrégateur des flux rss que je trouve intéressants. Odowa.com contient également un moteur de recherche de flux RSS.
Les données contenus dans le moteur sont des billets provenants d’environ 7000 flux rss. Pour chaque flux.
Le crawler :
- récupère l’url du billet après les éventuelles redirections (la vrai url, pas celles des feedburners)
- détecte le contenu du post grâce au détourage automatique (pas de pub, de menu, de commentaires…),
- detecte la langue utilisé dans le billet (fr/en/es/de pour l’instant)
- va chercher le favicon
- …
Bref, tout cela totalise environ 700 000 posts au jour d’aujourd’hui.
J’avais donc dans l’idée d’afficher en temps réel (ou presque) le nombre de posts dans la base sur le site, exactement comme fait le site yakaz.com que voici :

2 140 367 petites annonces… pas mal .Curieux de savoir quelle solution technique ils utilisent je regarde un peu le code source et la … c’est le drame… voyez vous même la fonction LiveCount() que l’on trouve dans le fichier http://www.yakaz.fr/js/home.js?v=20071206 :
var refreshFrequency = 1000;
number_to_display = Math.round(number_current);
document.getElementById('live-count').innerHTML = i18_num(number_to_display);
document.getElementById('live-count').style.background = 'none';
number_current += frequency * 2 * Math.random();
number_current += frequency * 2 * Math.random();
Et oui c’est bien un random…
Continue reading »