Development

Artificial Intelligence
astronomy

Neuraal netwerk bewaart onplezierige geheimen

Neurale netwerken bewaren privacygevoelige gegevens terwijl ze daar niet voor bedoeld zijn.

© CC0 - Pixabay GamOl
20 augustus 2019

Neurale netwerken bewaren privacygevoelige gegevens terwijl ze daar niet voor bedoeld zijn.

Bij het trainen van neurale netwerken blijft veel meer informatie in het systeem achter dan nodig is voor de functie waarvoor het is bedoeld. Die restinformatie kan een schat aan (privacy)gevoelige gegevens opleveren voor wie er naar op zoek gaat.

Een neuraal netwerk dat is bedoeld voor het genereren van nieuwe teksten op basis van een door een mens ingegeven tekst - een zogeheten long short-term memory neural network (LSTM) - blijkt onverwacht veel privacygevoelige informatie te kunnen onthullen op basis van de trainingsdata. En dat is niet de bedoeling. Nicholas Carlini  - onderzoeker bij het 'Brain'-bedrijfsonderdeel van Google - onderzocht dit probleem samen met zijn oud-collega's van het AI-lab van de UC Berkeley.

Ze kwamen er achter dat zo'n tekstgenererend neuraal netwerk ook creditcardgegevens en burgerservicenummers kan oplepelen die aanwezig waren in de trainingsdata. "Mochten er zeldzame gevoelige gegevens in de trainingsdata voorkomen, dan zou je in het ideale geval verwachten dat het neurale netwerk de informatie niet opslaat of in ieder geval nooit als een onderdeel van een complete zin teruggeeft als antwoord", zei Carlini in een blogpost. "Toch is dat precies wat gebeurt, tenzij daar heel goed op wordt gelet."

Creditcardgegevens en social security numbers

De onderzoekers testten hun hypothese door de zin 'My social security number is 078-05-1120' toe te voegen aan een grote hoeveelheid trainingsdata voor een LSTM-netwerk. Toen zij het getrainde netwerk testten met de de zin ''My social security number is 078-", vulde het systeem dit aan met '05-1120'.

Bij een volgende test trainden zij een LSTM-netwerk op een verzameling e-mails van het failliete energiebedrijf Enron. Na de training konden ze met zogeheten 'tree search'-technologie een heleboel creditcardgegevens en social securitynummers uit het systeem halen.

Carlini start zijn blogpost met de constatering dat het heel belangrijk is dat je bij de ontwikkeling van elke nieuwe technologie jezelf de vraag stelt hoe deze ontwikkeling de privacy van mensen kan raken. En dat geldt zeker bij alles wat met machine learning te maken heeft.

Lees meer over Development OP AG Intelligence
1
Reacties
Wim 21 augustus 2019 13:31

We are creating a monster

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.