PhysicianBench: Het beste AI-model slaagt voor minder dan de helft van de klinische EPD-taken. Het gemiddelde over 3 pogingen is nog veel lager…
Stanford University publiceerde begin mei PhysicianBench. PhysicianBench test taken waarbij een AI-agent meerdere opeenvolgende stappen uitvoert in het EPD, waarbij elke stap voortbouwt op de vorige. Diagnose interpreteren, medicatie controleren, verwijzing plaatsen, documentatie aanmaken, alles in samenhang. Een fout vroeg in de keten heeft gevolgen voor alles wat daarna komt.
Dit doen ze op basis van een EPD-omgeving gevuld met geanonimiseerde patiëntdata van Stanford Health Care, via standaard API’s die commerciële EPD-leveranciers ook gebruiken.
Hoe de test werkte
De 100 taken zijn gebaseerd op echte consultvragen tussen huisartsen en specialisten, over 21 specialismen, en onafhankelijk gevalideerd door een apart panel van artsen. Elke taak specificeert een klinische rol, een aanleiding en het verwachte eindresultaat. De AI-agent navigeert via een reeks opeenvolgende ’tool calls’ door het EPD, gemiddeld 27 per taak. Denk aan: diagnose interpreteren, medicatie voorschrijven, behandelplan opstellen en documentatie aanmaken, alles in samenhang.
Na afloop wordt gekeken of de agent het EPD ook daadwerkelijk correct heeft bijgewerkt: staat de order erin, klopt de notitie? Elke taak is opgedeeld in tussenstappen, 670 in totaal, die elk afzonderlijk worden getoetst.
De uitkomsten
Van 12 geteste modellen scoorde GPT-5.5 het hoogst met 46%. Claude Opus 4.6 en 4.7 kwamen op 32% en 29%. De sterkste open-source variant, DeepSeek V4-Pro, haalde 19%.
De onderzoekers voerden elke taak ook drie keer uit met hetzelfde model. GPT-5.5 scoorde dan gemiddeld 28% in plaats van 46%. Een taak die één keer lukt, lukt een volgende keer dus lang niet altijd opnieuw. De 46% is daarmee een momentopname, geen betrouwbare prestatie.
Modellen maken fouten verspreid over het hele proces, zoals bij het ophalen van data, bij redeneren over meerdere patiëntcontacten en bij het correct uitvoeren van acties in het systeem. De benchmark toetst ook of acties daadwerkelijk correct zijn uitgevoerd in het EPD, niet alleen of het model de juiste richting beschreef. Dat verschil is in de praktijk cruciaal.
Een model dat in een pilot overtuigend presteert, kan diezelfde taak in de dagelijkse praktijk regelmatig fout doen. De zorgverlener die geen zekerheid heeft dat het goed is, controleert alsnog alles. Waar zit dan de winst?
—
Gedeelde link bij LinkedIn bericht:
Originele LinkedIn bericht: https://www.linkedin.com/feed/update/urn%3Ali%3Ashare%3A7461411611245953024