Koninklijke Bibliotheek eind op dreef met krantendigitalisering
“Het is dan geen kwestie van ‘even’ een plaatje omzetten naar ASCII, er moet echt wel wat werk worden verzet”, zegt drs. Astrid Verheusen, voorzitter van de kerngroep krantendigitalisering en hoofd van de afdeling Digitalisering bij de KB.
Een krantenpagina is een document zonder vaste structuur, dat allerlei soorten informatie kan bevatten. Verheusen: “Er staat tekst op, maar ook foto’s, kaders, advertenties en dergelijke. Nadat een scan is gemaakt, moeten we eerst al die losse onderdelen uitselecteren. Daar wordt meteen een metabestand van gemaakt, zodat bekend is welke elementen op een pagina staan en ook op welke plaats. Datzelfde gebeurt na de OCR ook met de woorden die herkend zijn. Die worden, met de bijbehorende X- en Y-coördinaat, opgeslagen, zodat het woord in kwestie van een highlight voorzien kan worden.”