AI in de zorg struikelt al over simpele spelfouten

AI vindt langzaam maar zeker ook zijn weg naar de zorg. De AI-chatbots en geavanceerde diagnosesystemen kunnen van ongelooflijke waarde zijn, maar ook voor meer schade zorgen dan nodig, blijkt uit een nieuw onderzoek van MIT.

Redactie AG ConnectMeer van deze auteur

Het inzetten van AI in de zorg lijkt een no-brainer. De AI-chatbots kunnen in veel gevallen op een erg vriendelijke manier patiënten te woord staan en doktoren helpen met het verwerken an hun administratie of er simpelweg zijn als sparringpartner.

Maar hoe goed het ook lijkt te werken, de generatieve AI die hiervoor wordt gebruikt heeft zorgwekkende zwakte: de kans op een verkeerd medisch advies neemt dramatisch toe als de zorgprofessional een simpele typfout of een ongewone formulering in een medisch dossier gebruikt. Hierdoor lopen patiënten het risico om onterecht gerustgesteld te worden, of juist geen zorgadvies te krijgen wanneer dat wel nodig is.

Extra spaties en informele taal zijn gevaarlijk

MIT kwam tot deze conclusie doordat het een grote hoeveelheid echte medische klachten medische klachten en vragen uit dossiers en online forums analyseerde en handmatig vervuilde met alledaagse fouten. Denk hierbij aan simpele dingen zoals extra spaties en informele taal. Het idee hierbij was een realistisch beeld creëeren van hoe mensen communiceren.

De MIT'ers lieten deze 'vervuilde' teksten door verschillende AI-modellen beoordelen. Het resultaat: bij de invoer van tekst met fouten blijkt AI 7 tot 9 procent vaker geneigd om te adviseren geen medische hulp te zoeken, terwijl bij foutloze input werd gewezen op het zoeken van medische hulp.

Breder AI-gebruik

Het probleem ligt dieper dan het op het eerste gezicht lijkt en is ook te betrekken op breder AI-gebruik. Mensen die taal minder machtig zijn, zullen minder goede resultaten krijgen uit de AI-chatbots waar ze mee werken. Maar het wordt nog erger, want uit het onderzoek blijkt dat mensen, vooral vrouwen, die vaker emotionele taal gebruiken, zonder het te weten mogelijk slechte output krijgen. Volgens het onderzoek werkt dit zelfs als alle referentie naar gender uit de input verwijderd zijn.

Het onderzoek toont daarmee opnieuw aan dat AI-chatbots enorm gevoelig zijn voor de input waar ze mee moeten werken. Maar het laat vooral zien dat het veelgebruikte mantra 'trash in, trash out' niet langer toepasbaar is. De 'trash' die een AI uit kan voeren kan blijkbaar ook komen door een ietwat slecht geschreven invoer die in de basis absoluut geen 'trash' is.

Ook toont het aan dat de human in the loop vooral bij dit soort toepassingen van ongelooflijk hoge waarde is. De onderzoekers pleiten dan ook voor strengere eisen aan medische AI. Het trainen van systemen op diverse en realistische gegevens is cruciaal om de kans op discriminatie en verkeerde adviezen te verkleinen. Want zolang AI gevoelig blijft voor menselijke imperfecties, is het risico aanwezig dat technologie het contact met de patiënt eerder bemoeilijkt dan vergemakkelijkt.