Overslaan en naar de inhoud gaan

'Zoekmachines belasten internet onnodig'

Foremski – die naam heeft gemaakt als journalist voor de Financial Times – publiceert tegenwoordig via zijn eigen website SiliconValleyWatcher. In die hoedanigheid viel hem op hoe groot het beslag is dat de indexatierobots van verschillende zoekmachines op zijn website leggen.
Carriere
Shutterstock
Shutterstock

In juni namen die 45 procent van de bandbreedte van zijn website in beslag: Googles webcrawler pakte 4,9 gigabytes, Yahoo 4,8 gigabytes en de webcrawler van een onbekende zoekmachine 11,3 gigabyte. Voor andere sites zal dat niet anders zijn, redeneert Foremski. Dus zou het internetverkeer enorm te reduceren zijn als de zoekmachine-exploitanten dezelfde index gebruiken. Met als gevolg een behoorlijke vrijval van bandbreedte, en een versnelling van de werking van het internet voor de internetgebruikers.

Dat zou zelfs zonder investeringen kunnen, als een van de zoekmachine-uitbaters zijn index beschikbaar zou maken voor alle andere. Dat zou niet ten koste hoeven gaan van het onderscheidend vermogen. De algoritmes die worden gebruikt om de gegevens in de index te koppelen aan een zoekvraag en de presentatie van de zoekresultaten, zijn daarvoor van veel groter belang.

Foremski hield vanuit die gedachtengang zijn idee aan tegen Berthier Ribeiro-Neto, de hoofdverantwoordelijke voor ontwikkeling bij Google Brazilië. Foremski bedacht daarbij dat Google een voor de hand liggende partij is om voor die centrale index te zorgen. Riberio-Neto stond niet afwijzend tegenover dat idee. Integendeel, hij zag direct nog een verbetermogelijkheid: zo’n index zou ook op te bouwen zijn zonder webcrawler, als er een mechanisme werd ontwikkeld waarmee websites zelf de centrale index zouden bijwerken iedere keer als er wat wijzigt.

Het is natuurlijk nog een lange weg van een welwillende ontvangst van het idee door een Google-medewerker tot realisatie in de praktijk. Maar het idee kreeg wel direct steun van de uitbater van SmugMug, een van de grotere websites van de Verenigde Staten. Deze Don MacAskill schat dat - mede als gevolg van het grote aantal webpagina’s op SmugMug - de helft van de processorcapaciteit verloren gaat aan de activiteiten van webcrawlers. “We lepelen precies dezelfde gegevens op aan Google. En aan Yahoo. En aan Microsoft. En aan Billy Bob’s Startup. En bij iedere crawler die actief wordt, gaan onze kosten omhoog. We plegen een aanzienlijke inspanning om de robots snel en goed te bedienen, maar het wordt behoorlijk krankzinnig om dezelfde inspanning steeds weer te herhalen.”

Gerelateerde artikelen
Gerelateerde artikelen

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in