Google digitaliseert 15 miljoen boeken

20 mei 2011
Google heeft inmiddels de mijlpaal van 15 miljoen gescande boeken overschreden. "Dat is een aantal dat groot genoeg is om de gescande teksten te gebruiken voor serieus onderzoek", zegt Engineering Manager Jon Orwant van Google. Hij spreekt vandaag op het Catch Symposium, dat door NWO wordt georganiseerd.

Door het scannen van boeken en het gebruik van OCR ontstaat een zeer grote hoeveelheid teksten die kunnen dienen als basis voor wetenschappelijk onderzoek. "Je kunt bijvoorbeeld kijken wanneer bepaalde woorden in ge- of juist onbruik zijn geraakt. Ook kunnen onderzoekers twee woorden met elkaar vergelijken, om zo uitspraken te doen over taalgebruik en de veranderingen daarin", zegt Jon Orwant, Engineering Manager bij Google Books.

Orwant is een van de keynote speakers op het CATCH Symposium van NWO. CATCH staat voor Continuous Access to Cultural Heritage; de nieuwste vorm daarvan is getooid met de naam eCATCH. Internet speelt een belangrijke rol bij het ontsluiten en beschikbaar stellen van cultureel erfgoed.

Neutrale steekproeven
Orwant: "Met Google Books proberen we om een zo neutraal mogelijke steekproef te nemen van alle boeken die op de aarde zijn gepubliceerd. Naar schatting zijn dat er zo'n 129 miljoen en met ons scanvolume zitten we op zo'n 10 procent. Die steekproef is voldoende groot om de gescande teksten verantwoord te kunnen gebruiken voor wetenschappelijk onderzoek. Ongeveer de helft van de boeken is in het Engels, waarbij we ook nog onderscheid maken tussen het Engels uit Engeland en de taalvariant die  in de Verenigde Staten wordt gesproken."

Inmiddels heeft Google circa 168.000 Nederlandse boeken gescand en via OCR vertaald naar een machineleesbare vorm. "Los daarvan hebben we ook 746 Friese boeken en 168 uitgaven in het Middel-Nederlands opgenomen. Aan die specifieke groepen moet nog verder worden gewerkt, want daar halen we nog lang niet de 10 procent", zegt Orwant.

Langzaam perfectioneren
Het inlezen en herkennen van de boekteksten is nog niet perfect. Steeds worden verbeteringen aangebracht in de scantechnieken en de OCR-modules. Google hangt een datum aan iedere verbetering, zodat gebruikers kunnen zien met welk tekstcorpus ze werken. "En het dwingt ons ook om steeds weer te kijken of de processen verbeterd kunnen worden. En soms is de verbetering alleen cosmetisch, we hebben gemerkt dat gebruikers vooral oude boeken - denk aan de 16e of 17e eeuw - in hun originele vorm willen zien. Daar laten we ons witwasalgoritme dan ook achterwege. We zijn daar vorige week mee begonnen en de reacties uit de markt zijn enthousiast", zegt Orwant.

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.