Avec Caffeine, Google passe à l'indexation quasi instantanée

Les chasseurs de scoop et les spécialistes en marketing peuvent toujours débattre pour savoir si Caffeine de Google est suffisamment rapide. Ce qui est sûr, c'est que le nouveau système d'indexation de Google, actif depuis cette semaine, délivre désormais des résultats de recherche prenant en compte les sites mis à jour après quelques secondes.

post-image-3
Auparavant, Google n'effectuait la mise à jour de son index que tous les 30 jours, et à l'origine, ne le faisait que tous les quatre mois. Ce sont les attentats du 11 septembre 2001 qui ont marqué un tournant, incitant Google à offrir sur ses pages des résultats de recherche mis à jour quasiment en temps réel. Le 11 septembre en effet, Google News n'existait pas. Le géant de la recherche indexée - qui à l'époque n'avait que trois ans d'existence - ne restituait pas les dernières nouvelles dès qu'elles étaient mises en ligne. Mais immédiatement après les attentats, CNN.com et d'autres sites d'information ont eu du mal à répondre à la demande. « Comme Google a pu avoir accès à ces sites, il a commencé à livrer les pages mises en cache, car l'entreprise ne disposait pas de la bande passante nécessaire pour faire face au nombre de visiteurs, » a déclaré Matt Cutts, chef de l'équipe Web en charge du spamming chez Google.

« En quelques heures, nous pouvions mettre à disposition un contenu utile auquel les gens ne pouvait pas avoir accès autrement, parce que les autres sites ne pouvaient pas suivre, » a-t-il déclaré. « Google aurait retiré les pages web mises en cache si les sites propriétaires le lui avaient demandé, » a-t-il dit. C'est, en partie, de cette demande survenue après le 11 septembre qu'est né Google News. Elle a également servie d'impulsion pour orienter l'entreprise vers le choix de rendre compte immédiatement, » a-t-il ajouté.

Jusque-là Google s'employait à parcourir une partie du web toutes les nuits, puis indexait les nouveaux éléments par lot. Avec Caffeine, Google indexe immédiatement les informations mises à jour à mesure que ses robots explorent l'Internet. Mis en action depuis cette semaine, on peut déjà constater que le moteur de recherche affiche des changements immédiats. Le blog I4U News a même décidé de mettre Caffeine à l'épreuve : après avoir publié un article avec un mot rare dans le titre, le site a constaté que son titre modifié était apparu après une minute à peine dans les résultats de recherche de Google.

Cependant, tous les changements réalisés sur chaque site n'apparaîtront pas immédiatement. « Google se base sur des critères comme le classement de la page dans les résultats pour déterminer quels sites mettre à jour plus rapidement, » a expliqué Matt Cutts. « Google parcourt également les sites d'information et de blogs plus souvent que d'autres, » a-t-il dit. Le moteur de recherche commence également à s'appuyer sur de nouveaux outils, tel Pubsubhubbub, pour savoir à quel moment les sites sont mis à jour. Utilisé par les blogs, cet outil Open Source envoie un ping vers Google lorsque le site est mis à jour et le moteur peut alors ajouter la nouvelle page à son index.

Jean Eylan
Plus d’infos sur http://www.lemondeinformatique.fr/

Back to top button
Close
Close