Overslaan en naar de inhoud gaan

Koninklijke Bibliotheek eind op dreef met krantendigitalisering

“Het is dan geen kwestie van ‘even’ een plaatje omzetten naar ASCII, er moet echt wel wat werk worden verzet”, zegt drs. Astrid Verheusen, voorzitter van de kerngroep krantendigitalisering en hoofd van de afdeling Digitalisering bij de KB.
Tech & Toekomst
Shutterstock
Shutterstock

Een krantenpagina is een document zonder vaste structuur, dat allerlei soorten informatie kan bevatten. Verheusen: “Er staat tekst op, maar ook foto’s, kaders, advertenties en dergelijke. Nadat een scan is gemaakt, moeten we eerst al die losse onderdelen uitselecteren. Daar wordt meteen een metabestand van gemaakt, zodat bekend is welke elementen op een pagina staan en ook op welke plaats. Datzelfde gebeurt na de OCR ook met de woorden die herkend zijn. Die worden, met de bijbehorende X- en Y-coördinaat, opgeslagen, zodat het woord in kwestie van een highlight voorzien kan worden.”

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in