Linguistische vingerafdruk

Toen de volkomen onbekende schrijver Robert Galbraith een prachtige novelle schreef, vroeg een krant zich af hoe zo'n debutant met een achtergrond in het leger en de beveiliging toch zo mooi en goed kon schrijven. Met de hulp van linguïstische wetenschappers die zogenaamde forensische stylometry gebruikten, kon de auteurs ware identiteit snel worden achterhaald. Het bleek om de wereldberoemde J.K. Rowling te gaan.

Chris VerhoefMeer van deze auteur

Vingerafdruk — © Shutterstock.com

© Shutterstock.com

Wat velen niet weten, is dat taalgebruik onderhevig is aan allerlei gewoontes. Zo kun je veelal vaststellen of een stuk tekst native is of niet. Aan bepaalde dingen kun je vaak ook zien uit welk land men dan wel afkomstig is. Sterker, je kunt vaak achterhalen of de auteur een man of vrouw is, en ook in dit geval bleek dat het mannelijk pseudoniem Robert Galbraith te goed bleek te zijn in het beschrijven van vrouwenkleding.

Wat helpt is het hebben van een zogeheten corpus waarvan je ook echt iets weet. Dus bijvoorbeeld boeken van Rowling voor het vergelijken. Of boeken in het Nederlands om te kijken of een andere tekst ook in het Nederlands is gemaakt. De technieken daarvoor zijn velerlei. Woordlengte, woordfrequentie, woordstammen, specifieke woorden of constructies, et cetera.

Maar het kan nog verfijnder. In sommige talen bestaan bijvoorbeeld geen mannelijke of vrouwelijke voornaamwoorden. Dus een typische fout van iemand met zo'n taalachtergrond zijn opvallend veel fouten op juist dat gebied. Of talen waarin geen lidwoorden bestaan. Als je dan schrijft in een taal die wel lidwoorden bevat, zal de foutfrequentie voor lidwoorden hoger zijn en dat duidt op mensen uit zo'n taalgebied.

Voor het automatisch detecteren van taal is een algemene techniek het gebruik van het zip-programma. Bijvoorbeeld, je wilt van honderdduizenden bestanden weten welke in het Nederlands en welke in het Engels zijn geschreven. Ze allemaal lezen is natuurlijk geen optie. Je neemt dan twee grote teksten waarvan je al weet dat ze in het Engels het Nederlands zijn. Die zip je en je kijkt hoe veel bytes je dan over hebt. Zip werkt onder andere met duplicate string elimination. Dus bij herhalende data wordt een referentie naar het eerste voorkomen gegeven, en zo wordt een tekst korter. Als je nu een onbekende tekst zipt met zowel de Engelse als Nederlandse tekst, en je kijkt naar de nieuwe gecomprimeerde omvang, dan zal als de tekst Nederlands is, de omvang van de gecombineerde zip veel kleiner zijn dan de omvang in combinatie met de Engelse tekst. Immers bij het combineren van Engels en Nederlands is veel minder herhaling, dus zal de compressie minder effectief zijn hetgeen zich uit in minder compressie. En bij het comprimeren van Nederlands en Nederlands, is de herhaling groter, dus zal die zip kleiner zijn.

Meer en meer stemmen gaan op om anoniem nepnieuws tegen te gaan. En met behulp van linguïstische wetenschap kunnen we mogelijk de identiteit van auteurs achterhalen. Benieuwd wie Q bijvoorbeeld is? Linguïsten uit Frankrijk en Zwitserland hebben wel een idee.

MAGAZINE AG CONNECT

Dit artikel is ook gepubliceerd in het magazine van AG Connect (april 2022). Wil je alle artikelen uit dit nummer lezen, zie dan de inhoudsopgave.

De werkplektransformatie van Zuyderland: een cloud-tenzij strategie

Zuyderland transformeert haar digitale werkplek binnen een cloud-first strategie. Irene To vertelt hoe zij dit aan hebben gepakt.

5 min

Achtergrond CIO Onderzoek Partner

Nederlandse CIO’s waarderen Sogeti opnieuw hoog in Whitelane Research IT Sourcing onderzoek 2026

Nieuwste editie van het jaarlijkse Whitelane Research IT Sourcing onderzoek 2026.

1 min

Meer whitepapers

Whitepaper Artificial Intelligence Partner

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Security Partner

De weg ontdekken naar geïntegreerde IT- en fysieke beveiliging afdelingen

De samenvoegingen van IT en fysieke beveiliging begon jaren geleden, maar hoe staat het er nu voor met deze ontwikkeling?

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee