Overslaan en naar de inhoud gaan

Neuraal netwerk bewaart onplezierige geheimen

Bij het trainen van neurale netwerken blijft veel meer informatie in het systeem achter dan nodig is voor de functie waarvoor het is bedoeld. Die restinformatie kan een schat aan (privacy)gevoelige gegevens opleveren voor wie er naar op zoek gaat.
astronomy
© CC0 - Pixabay
CC0 - Pixabay

Een neuraal netwerk dat is bedoeld voor het genereren van nieuwe teksten op basis van een door een mens ingegeven tekst - een zogeheten long short-term memory neural network (LSTM) - blijkt onverwacht veel privacygevoelige informatie te kunnen onthullen op basis van de trainingsdata. En dat is niet de bedoeling. Nicholas Carlini - onderzoeker bij het 'Brain'-bedrijfsonderdeel van Google - onderzocht dit probleem samen met zijn oud-collega's van het AI-lab van de UC Berkeley.

Ze kwamen er achter dat zo'n tekstgenererend neuraal netwerk ook creditcardgegevens en burgerservicenummers kan oplepelen die aanwezig waren in de trainingsdata. "Mochten er zeldzame gevoelige gegevens in de trainingsdata voorkomen, dan zou je in het ideale geval verwachten dat het neurale netwerk de informatie niet opslaat of in ieder geval nooit als een onderdeel van een complete zin teruggeeft als antwoord", zei Carlini in een blogpost. "Toch is dat precies wat gebeurt, tenzij daar heel goed op wordt gelet."

Creditcardgegevens en social security numbers

De onderzoekers testten hun hypothese door de zin 'My social security number is 078-05-1120' toe te voegen aan een grote hoeveelheid trainingsdata voor een LSTM-netwerk. Toen zij het getrainde netwerk testten met de de zin ''My social security number is 078-", vulde het systeem dit aan met '05-1120'.

Bij een volgende test trainden zij een LSTM-netwerk op een verzameling e-mails van het failliete energiebedrijf Enron. Na de training konden ze met zogeheten 'tree search'-technologie een heleboel creditcardgegevens en social securitynummers uit het systeem halen.

Carlini start zijn blogpost met de constatering dat het heel belangrijk is dat je bij de ontwikkeling van elke nieuwe technologie jezelf de vraag stelt hoe deze ontwikkeling de privacy van mensen kan raken. En dat geldt zeker bij alles wat met machine learning te maken heeft.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in