'Zoekmachines belasten internet onnodig'

Foremski – die naam heeft gemaakt als journalist voor de Financial Times – publiceert tegenwoordig via zijn eigen website SiliconValleyWatcher. In die hoedanigheid viel hem op hoe groot het beslag is dat de indexatierobots van verschillende zoekmachines op zijn website leggen.

Redactie AG ConnectMeer van deze auteur

In juni namen die 45 procent van de bandbreedte van zijn website in beslag: Googles webcrawler pakte 4,9 gigabytes, Yahoo 4,8 gigabytes en de webcrawler van een onbekende zoekmachine 11,3 gigabyte. Voor andere sites zal dat niet anders zijn, redeneert Foremski. Dus zou het internetverkeer enorm te reduceren zijn als de zoekmachine-exploitanten dezelfde index gebruiken. Met als gevolg een behoorlijke vrijval van bandbreedte, en een versnelling van de werking van het internet voor de internetgebruikers.

Dat zou zelfs zonder investeringen kunnen, als een van de zoekmachine-uitbaters zijn index beschikbaar zou maken voor alle andere. Dat zou niet ten koste hoeven gaan van het onderscheidend vermogen. De algoritmes die worden gebruikt om de gegevens in de index te koppelen aan een zoekvraag en de presentatie van de zoekresultaten, zijn daarvoor van veel groter belang.

Foremski hield vanuit die gedachtengang zijn idee aan tegen Berthier Ribeiro-Neto, de hoofdverantwoordelijke voor ontwikkeling bij Google Brazilië. Foremski bedacht daarbij dat Google een voor de hand liggende partij is om voor die centrale index te zorgen. Riberio-Neto stond niet afwijzend tegenover dat idee. Integendeel, hij zag direct nog een verbetermogelijkheid: zo’n index zou ook op te bouwen zijn zonder webcrawler, als er een mechanisme werd ontwikkeld waarmee websites zelf de centrale index zouden bijwerken iedere keer als er wat wijzigt.

Het is natuurlijk nog een lange weg van een welwillende ontvangst van het idee door een Google-medewerker tot realisatie in de praktijk. Maar het idee kreeg wel direct steun van de uitbater van SmugMug, een van de grotere websites van de Verenigde Staten. Deze Don MacAskill schat dat - mede als gevolg van het grote aantal webpagina’s op SmugMug - de helft van de processorcapaciteit verloren gaat aan de activiteiten van webcrawlers. “We lepelen precies dezelfde gegevens op aan Google. En aan Yahoo. En aan Microsoft. En aan Billy Bob’s Startup. En bij iedere crawler die actief wordt, gaan onze kosten omhoog. We plegen een aanzienlijke inspanning om de robots snel en goed te bedienen, maar het wordt behoorlijk krankzinnig om dezelfde inspanning steeds weer te herhalen.”