AI GGZ - Vragen en antwoorden (Q&A)
Algemeen
Q: Hoe werkt een taalmodel?
A: Een taalmodel is slimme software die is getraind op grote hoeveelheden tekst. Het trainen van zo’n model gebeurt door voorbeeldverslagen te laten beoordelen door een mens. Zo leert het model patronen en verbanden in taal te herkennen. Als het taalmodel een verslag onderzoekt, kijkt het bijvoorbeeld naar specifieke woorden, zinsstructuren en de context waarin informatie wordt beschreven. Zo kan het model beoordelen of het verslag voldoet aan de eisen voor rechtmatige registratie. Het is belangrijk om te realiseren dat de input die wordt verzameld tijdens het trainen van het model, de uiteindelijke output bepaalt.
Q: Heeft ValueCare werkinstructies of handleidingen rondom de werking van het taalmodel?
A: Ja. Op Normenkaderzorg staat een stappenplan voor implementatie. Daarnaast is er een ISAE-certificering waarin wordt uitgelegd hoe de techniek achter het taalmodel werkt. Tot slot heeft ValueCare een implementatieplan opgesteld waarin verschillende scenario’s staan beschreven. Dit plan kun je opvragen bij ValueCare.
Trainingset
Q: Wat zit in de controlemassa van de rechtmatigheid- en volledigheidsnormen?
A: Bij gepaarde rechtmatigheids- en volledigheidscontroles wordt voor zowel de trainings- als testset dezelfde onderzoeksmassa gebruikt. Bijvoorbeeld: bij de controles N6403 (rechtmatigheid) en N6404 (volledigheid) bestaat de onderzoeksmassa uit dezelfde contacten. Het model wordt dus getraind op deze gezamenlijke dataset. Binnen de normen zelf wordt voor rechtmatigheid gekeken naar declarabele contacten (of verblijfsdagen, reistijd, etc.) als controlemassa en voor volledigheid juist naar niet-declarabele contacten (verblijfsdagen, reistijd, etc.).
Q: Welke gebruikers hebben toegang tot de trainingset en tekstverslagen?
A: Alleen medewerkers die beschikken over het recht ‘inzage gevoelige info’ kunnen de trainingset en tekstverslagen bekijken in het portaal. Dit recht kan per gebruiker worden toegekend via de beheertabel ‘Rechten per gebruiker’.
Q: Hoe beoordeel ik een trainingset?
A:
- WAAR: Kies ‘waar’ als uit het verslag blijkt dat de cliënt aanwezig was én het contact behandelinhoudelijk is.
- ONWAAR: Kies ‘onwaar’ als uit het verslag niet blijkt dat de cliënt aanwezig is, of als het verslag niet behandelinhoudelijk is. Let op: Beoordeel uitsluitend het getoonde verslag; andere documenten of informatie hoeven niet meegenomen te worden in de beoordeling.
Q: Waar moet ik op letten bij het beoordelen van een trainingset?
A: Consistentie is belangrijk. Maak vooraf duidelijke afspraken over hoe je bepaalde situaties beoordeelt en pas deze afspraken altijd op dezelfde manier toe. Dit is extra belangrijk als meerdere medewerkers de trainingset beoordelen, zodat de resultaten betrouwbaar en vergelijkbaar zijn. De ervaring leert dat er soms kleine verschillen zijn tussen een rechtmatig en een onrechtmatig verslag. Een structureel eenduidige beoordeling is cruciaal om nuanceverschillen te kunnen duiden.
Q: Waarom zitten er niet-declarabele posten in de trainingset?
A: Niet-declarabele posten zijn bewust opgenomen in de trainingset zodat het taalmodel leert het verschil te herkennen tussen declarabele en niet-declarabele verslagen. Tijdens het beoordelen geef je duidelijk aan of een verslag declarabel of niet-declarabel is, zodat het model beide categorieën juist kan onderscheiden.
Q: Wordt er voor de rechtmatigheidscontrole en volledigheidscontrole afzonderlijk een model getraind?
A: Nee, voor zowel de rechtmatigheidscontrole als de volledigheidscontrole van hetzelfde onderwerp (bijvoorbeeld telefonische consulten) wordt één model getraind.
Validatie en in productie name
Q: Hoe wordt een taalmodel gevalideerd?
A: Nadat het model is getraind met de door medewerkers beoordeelde trainingset, wordt een testset samengesteld. Deze testset wordt zowel door AI als door mensen beoordeeld. De resultaten van het model worden vervolgens vergeleken met de menselijke beoordelingen. Op deze manier wordt gecontroleerd of het taalmodel betrouwbaar presteert.
Q: Wat is de gemiddelde doorlooptijd van het voorspellen van verslagen?
A: Dit varieert sterk per geval. Het hangt af van de grootte van de instelling en van de omvang van de massa die de instelling wil laten voorspellen. Door de startdatum aan te passen, kun je de massa eventueel beperken. Gemiddeld duurt het enkele dagen voordat de volledige massa is voorspeld.
Q: Vanaf welk percentage is het handig om in productie te nemen?
A: ValueCare kan per taalmodel (versie) aangeven vanaf welk percentage het verstandig is om de controles te laten signaleren. De consultant zal dit samen met de instelling afstemmen.
Q: Kunnen we textmining inzetten binnen de AI-controles?
A: Ja, textmining kan worden toegepast binnen de AI-controles. Met behulp van een parameter kun je instellen dat bepaalde woorden of woordreeksen automatisch worden goed- of afgekeurd. Houd er rekening mee dat dit alleen werkt voor exacte overeenkomsten en slechts mogelijk is bij korte tekstverslagen (maximaal 20 tokens).
Kans
Q: Wat betekent de kans?
A: Een taalmodel bepaalt op basis van tekst en de volgorde van woorden en zinnen (woordvolgordelijkheid) het kanspercentage dat een GGZ-prestatie daadwerkelijk is geleverd. Dit percentage geeft de inschatting van het model weer, gebaseerd op patronen uit eerder beoordeelde tekstverslagen.
Q: Hoe wordt de kans berekend/bepaald?
A: Het taalmodel is getraind op een grote hoeveelheid tekstverslagen waarvan bekend is of de GGZ-prestatie daadwerkelijk geleverd is of niet. Tijdens deze training leert het model om specifieke patronen, woordkeuzes en volgordes van woorden te herkennen die typerend zijn voor daadwerkelijk uitgevoerde consulten. Wanneer het model een nieuw verslag analyseert, berekent het – op basis van deze geleerde patronen – hoe sterk de tekst lijkt op verslagen waarvan bekend is dat de prestatie wél of juist níet geleverd is. Het model drukt deze gelijkenis uit als een kanspercentage: hoe groter de gelijkenis met "echte" consult-teksten, hoe hoger het percentage dat het consult volgens het model feitelijk geleverd is.
Q: Waarom krijgt een verslag met bijvoorbeeld ‘no show’ een lage kans?
A: Een verslag waarin het woord ‘no show’ voorkomt, kan een lage kans krijgen omdat het taalmodel is getraind op een verzameling verslagen waarin niet altijd dezelfde woordvolgorde of context rondom ‘no show’ voorkomt. Het model let niet alleen op het woord zelf, maar ook op hoe het in de zin en het hele verslag wordt gebruikt (woordvolgordelijkheid). Daarnaast kan het zijn dat er in de (bij)trainingset relatief weinig verslagen met ‘no show’ zijn opgenomen, waardoor het model minder zeker is omdat het deze patronen minder vaak heeft gezien. Ook de omvang van het verslag speelt mee: veel context kan er soms voor zorgen dat de kans verder afneemt bij het voorkomen van ‘no show’.
Q: Als het verslag wordt aangepast, wordt de kansberekening dan opnieuw uitgevoerd?
A: Ja, dan wordt het verslag opnieuw beoordeeld door het taalmodel.
Actielijst
Q: Hoe wordt het tekstverslag aan de actie gekoppeld?
A: Voor consulten wordt het verslag gekoppeld op basis van het verslag dat aan de agenda-afspraak is vastgelegd.
Voor verblijfsdagen selecteert het taalmodel specifieke rapportages die binnen bepaalde tijden zijn geschreven. Als er meerdere van deze verslagen zijn, worden ze samengevoegd en als één dossier door het taalmodel beoordeeld.
Q: Hoe werkt dit bij consulten waarbij meerdere behandelaren betrokken zijn?
A: Bij één contactID (één afspraak met meerdere behandelaren als deelnemer): als er meerdere verslagen zijn, wordt het verslag met de hoogste kans (volgens het taalmodel) ter beoordeling getoond.
Bij twee contactID’s (bijvoorbeeld twee aparte consulten bij dezelfde cliënt): beide verslagen worden afzonderlijk door het taalmodel beoordeeld en als aparte acties op de actielijst weergegeven met de bijbehorende kans.
Q: Wie gaat de acties oplossen?
A: Hiervoor zijn verschillende scenario’s mogelijk, zoals centraal of decentraal oplossen. Voor meer informatie zie het ValueCare implementatieplan.
Q: Hoe moet ik de foutieve acties oplossen?
A:
- AI heeft onjuist voorspeld: Negeer de actie en voeg als opmerking toe: “AI Onjuist”.
- AI heeft terecht voorspeld op basis van tekst, maar je corrigeert het consult toch niet: Negeer de actie en voeg als opmerking toe: “AI Juist”.
- AI-actie is juist en je wilt deze verwerken: Zet de actie op 'Behandeld' en pas vervolgens de bronregistratie aan, zodat deze correct wordt verwerkt.
Q: Hoeveel karakters worden er maximaal getoond per verslagregel?
A: Per verslagregel worden maximaal 500 karakters weergegeven.
Q: Kunnen beoordelaars in de trainingset onderscheid maken tussen declarabele en niet-declarabele posten?
A: Nee, dat is niet van belang tijdens het trainen. Beoordeling dient uitsluitend te gebeuren op basis van het getoonde verslag, zonder te kijken naar de huidige registratie. Het is belangrijk dat beoordelaars zich niet laten beïnvloeden door bestaande classificaties, zodat het model neutraal en objectief leert.
Q: Hoezo stroomt er in september nog een actie in van januari?
A: Dit kan verschillende oorzaken hebben en is daardoor lastig direct te verklaren. Wanneer een actie later instroomt, kan dit komen door wijzigingen in de data bij de instelling of aanpassingen bij ValueCare. Aan de kant van de instelling kan het bijvoorbeeld gaan om het achteraf aanpassen van het contact, de verblijfsdag of reistijd naar (niet-)declarabel, of een wijziging in het verslag (dit gebeurt overigens zelden). Ook het wijzigen van parameters of het toevoegen van uitzonderingen door ValueCare kan ervoor zorgen dat oudere acties alsnog instromen. Het is daarom verstandig eerst na te gaan of er datamutaties zijn geweest bij de instelling zelf, of dat er aanpassingen of verzoeken bij ValueCare zijn gedaan, wanneer er een oude actie instroomt.
Q: Is het mogelijk om automatisch steekproeven te trekken op genegeerde acties van AI-controles (t.b.v. HT)?
A: Ja, dat is mogelijk voor instellingen die de HT-module gebruiken. Per norm kun je instellen hoeveel posten er per kwartaal automatisch worden geselecteerd voor 3e-lijns controle.
Bijtrainen taalmodel
Q: Hoe werkt het bijtrainen?
A:
- Nieuwe beoordelingen aanleveren: Het taalmodel ontvangt nieuwe of extra posten die door mensen zijn beoordeeld. Op basis hiervan leert het model welke woordvolgordelijkheden en tekstpatronen wel of niet declarabel zijn.
- Automatisch bijtrainen: Wanneer er minstens 150 juiste en 150 onjuiste acties zijn opgelost, kan het model automatisch worden bijgetraind. Een consultant zal hierover contact met je opnemen.
Q: Ondanks bijtrainen kom ik nog steeds bepaalde onjuiste signaleringen tegen. Hoe kan dat?
A:
- Woordvolgordelijkheid: Sommige onjuiste signaleringen ontstaan doordat het model de specifieke woordvolgordelijkheid of de context van bepaalde teksten nog niet goed herkent.
- Gericht bijtrainen: Door extra te bijtrainen op specifieke onderwerpen of woordcombinaties kan het model deze situaties in de toekomst beter herkennen en voorspellen.
Q: Wat gebeurt er met de huidige actielijst als een taalmodel wordt bijgetraind?
A: Het oude model blijft actief totdat alle verslagregels zijn voorspeld met het nieuwe model. Daarna heb je als instelling de keuze:
- Direct doorvoeren: Het nieuwe model wordt direct in productie genomen zodra het klaar is (meestal na nachtelijke verwerking). Goedkeuring o.b.v. testset portaal.
- Goedkeuren voor livegang: Je geeft eerst akkoord voordat het nieuwe model live gaat, bijvoorbeeld gelijktijdig met een release. Eventueel mogelijk om mee te kijken op de acceptatieomgeving voor daadwerkelijke nieuwe lijst.
Q: Waarom moeten we bijtrainen? We hebben toch al 1500 regels beoordeeld en als input gebruikt?
A: De eerste beoordeling is een kleine selectie van alle regels. In de trainingsets kunnen we niet alle scenario's nabootsen die voorkomen in bulk van verslagen. Voor sommige scenario's zal het model nog niet genoeg 'voeding’ hebben om goed te kunnen leren. Daarom moeten we na verloop van tijd bijtrainen.
Q: Hoe kan het dat een model slechter gaat presteren (bijvoorbeeld een lagere F1-score krijgt) na vaker trainen?
A: Dit kan verschillende oorzaken hebben. Een belangrijke factor is de kwaliteit van de extra data die tijdens het verder trainen wordt toegevoegd. Als deze extra data niet consequent is gelabeld, raakt het model in de war en nemen de prestaties af. Daarnaast kan het model gaan overfitten: het leert dan te goed de trainingsvoorbeelden uit het hoofd, waardoor het niet goed meer kan omgaan met nieuwe, onbekende data. Het model presteert dan uitstekend op de trainingsdata, maar generaliseert niet goed naar andere gevallen. Overfitting herken je soms aan voorspellingen met extreem hoge zekerheden (bijna overal 100%), terwijl de prestaties op de testdata juist achteruit gaan. Lage F1-scores kunnen ook ontstaan bij slechte kwaliteit trainingsdata, of als er scenario’s in de praktijk voorkomen die het model tijdens training niet heeft gezien of geleerd.