Google maakt stap naar instant indexering, met Caffeine

Scoopjagers en marketingspecialisten kunnen dan wel eindeloos discussiëren over het feit of Caffeine van Google wel snel genoeg is of niet… Wat zeker is, is dat het nieuwe indexatiesysteem van Google, sinds begin deze week actief, nu zoekresultaten levert, rekening houdend met sites die al na enkele seconden worden bijgewerkt.

post-image-3
Voordien actualiseerde Google zijn index slechts elke 30 dagen, en daarvoor was dat nog elke 4 maanden. Het zijn de aanslagen van 11 september 2001 die een kentering hebben teweeg gebracht. Het gevolg van deze aanslagen maakte het nodig dat zoekresultaten werden weergegeven van pagina’s die quasi in real time werden geupdate. Op 11 september bestond Google News nog niet. De keizer van de geïndexeerde zoekmachines (die op dat ogenblik nog maar 3 jaar bestond), gaf op dat moment het nieuws niet weer van zodra dat online werd geplaatst. Maar net na de aanslagen, konden websites zoals CNN.com en andere informatiesites de grote vraag naar informatie niet aan. “Google is aldus begonnen met het leveren van ‘cached’ pagina’s, omdat het bedrijf niet over de noodzakelijke bandbreedte beschikte om het grote aantal bezoekers te ontvangen,” aldus Matt Cutts, hoofd van het webteam inzake spamming bij Google.

“Binnen een paar uur konden we reeds inhoud beschikbaar maken waartoe de mensen geen toegang hadden op een andere manier, net omdat andere websites niet konden volgen. Google zou de cached webpagina’s hebben verwijderd als de site-eigenaars dat hadden gevraagd,” zegt Matt Cutts. Het is hieruit dat Google News is ontstaan.”

Tot dan hield Google zich bezig met elke nacht een deel van het web te doorlopen, en de nieuwe elementen per loting te indexeren. Caffeine zal het web nu in kleinere hoeveelheden voortdurend analyseren, en veranderingen zullen onmiddellijk in de index worden doorgevoerd. En we kunnen reeds vaststellen dat de zoekmotor wel degelijk onmiddellijk veranderingen weergeeft.

De blog I4U News heeft zelfs beslist om Caffeine aan een test te onderwerpen: na de publicatie van een artikel met een zeldzaam woord in de titel, stelde de site vast dat een aanpassing aan deze titel reeds na 1 minuut in de zoekresultaten van Google werd weergegeven.

Echter, niet alle wijzigingen die op een website worden aangebracht, verschijnen meteen ook in de zoekresultaten. Google baseert zich op criteria zoals de classificatie van de pagina in de zoekresultaten, en bepaalt zo welke sites sneller dan de andere worden ge-updated,” zegt Matt Cutts nog. “Google doorloopt ook de informatiesites en blogs regelmatiger dan andere sites,” gaat hij verder. 

De zoekmotor gaat zich ook baseren op nieuwe tools, zoals Pubsubhubbub, om te weten wanneer de sites juist worden bijgewerkt. Veel gebruikt door blogs, stuurt deze Open Source-tool een ping naar Google wanneer de site bijgewerkt is. Daarna voegt de zoekmotor de nieuwe pagina aan zijn index toe.

Jean Eylan
Meer info op http://www.lemondeinformatique.fr
Back to top button
Close
Close