AI in de zorg: veelbelovend, maar kwetsbaar
AI lijkt vaak intelligente. Demo’s laten zien hoe snel systemen antwoorden geven, medische teksten schrijven of zelfs diagnoses voorstellen. Vier onderzoeken laten zien dat we voorzichtig moeten zijn.
Kwetsbaar redeneren
Wat onderzocht is: Een groot taalmodel werd getest met medische meerkeuze vragen, vergelijkbaar met het Amerikaanse examen voor artsen. Dit is een veelgebruikte maatstaf om te meten hoe goed AI het doet op medische kennis.
Resultaat: Bij de originele vragen scoorde het model hoog, vaak boven de 80%. Maar zodra de vragen licht veranderden, zakte de score met 20–30%.
Wat dit laat zien: Het model herkende de vorm van de vraag, maar begreep de inhoud niet echt. Het ‘lijkt’ dus te redeneren, maar doet vooral aan patroonherkenning. In de praktijk, waar een arts of patiënt nooit exact dezelfde vraag stelt, is dat een groot risico.
Niet alleen het antwoord telt
Wat onderzocht is: De studie keek niet alleen naar het eindantwoord van een AI, maar ook naar de denkstappen die het gebruikt om tot dat antwoord te komen.
Resultaat: In ongeveer 1 op de 4 gevallen klopte de uitkomst of de redenering niet. Soms gaf het model een goed antwoord, maar met een kromme of onjuiste redenering. Soms klopte de redenering, maar leidde die tot een fout antwoord.
Wat dit laat zien: Zonder inzicht in de onderliggende redenatie kun je nooit zeker weten of het antwoord ook echt betrouwbaar is. In de zorg is dat cruciaal, want een verkeerde redenering kan leiden tot verkeerde keuzes.
Hallucinaties blijven
Wat onderzocht is: De studie maakte een overzicht van alle soorten fouten die AI kan maken, de zogeheten hallucinaties.
Resultaat: Hallucinaties zijn geen incidentele vergissingen, maar een structureel probleem. Ze ontstaan omdat taalmodellen niet redeneren of feiten controleren, maar voorspellen welk woord waarschijnlijk volgt. Daardoor kunnen antwoorden heel overtuigend en gedetailleerd klinken, terwijl ze feitelijk niet kloppen.
Wat dit laat zien: Zolang AI werkt op basis van taalvoorspelling, zullen hallucinaties altijd voorkomen. Je kunt ze wel beperken, maar nooit helemaal vermijden. Menselijk toezicht is daarom een harde randvoorwaarde.
⚠️ Kritieke signalen gemist
Wat onderzocht is: AI-modellen die voorspellen of ziekenhuispatiënten verslechteren of overlijden. Zulke modellen worden in de praktijk steeds vaker overwogen voor triage of vroegtijdige signalering.
Resultaat: Gemiddeld werd slechts 34% van ernstige complicaties herkend. 66% werd gemist. Zelfs kleine veranderingen in de inputdata zorgden dat de prestaties instortten.
Wat dit laat zien: Puur data-gedreven AI is niet genoeg. Het model ziet patronen in de data, maar begrijpt niet welke medische signalen écht kritiek zijn. Zonder ingebouwde medische kennis en menselijke toetsing kan dit leiden tot gevaarlijke situaties.
Deze onderzoeken laten samen zien dat AI indrukwekkend lijkt, maar ook kwetsbaar
—
Gedeelde link bij LinkedIn bericht:
Originele LinkedIn bericht: https://www.linkedin.com/feed/update/urn%3Ali%3AugcPost%3A7369396510800666624
