GGZ AI - Large Language Models (LLM): verschil tussen versies

Huidige versie van 22 mei 2026 08:36

Inleiding

Op deze pagina staat uitgelegd hoe ValueCare Large Language Models (LLM's) inzet bij verslagleggingsanalyse en kwaliteitsborging. Je vindt hier technische achtergrond, het controleproces, kwaliteitsmaatregelen en onze standaard werkwijze voor AI-controles.

Achtergrond bij AI-techniek: Large Language Models (LLM)

De inzet van Large Language Models (LLM) binnen verslagleggingsanalyse verloopt als volgt:

Beschikbaarheid van het model: Een LLM (‘Large Language Model’) wordt bij de klant operationeel gemaakt op de ValueCare-server, of op een eigen server als er voldoende GPU-capaciteit aanwezig is. Om met het LLM te werken, moet er een verwerkingsovereenkomst met ValueCare afgesloten zijn. Een LLM is een geavanceerd kunstmatig neuraal netwerk dat getraind is op grote hoeveelheden tekst en natuurlijke taal kan begrijpen én genereren.
Training van het model: In tegenstelling tot traditionele taalmodellen is voor het LLM geen handmatig samengestelde trainingsset van bijvoorbeeld 1500 gevallen meer nodig. Dit betekent dat het model sneller en eenvoudiger inzetbaar is. Aanpassingen of updates in het model kunnen ook eenvoudiger en sneller doorgevoerd worden, omdat langdurige handmatige beoordelingen bij training overbodig zijn.
Toepassing en classificatie: Het LLM analyseert automatisch nieuwe verslagleggingen op basis van vooraf ingestelde prompts (richtlijnen of opdrachten die verschillen per controlethema). Het model beoordeelt per verslag of het vermoedelijk rechtmatig of onrechtmatig is, op basis van de kennis en patronen die het uit de getrainde data heeft opgedaan.
Presentatie van resultaten: De uitkomsten van het LLM worden overzichtelijk gepresenteerd in een actielijst voor de gebruiker. Hierin worden specifiek die casussen getoond waar het model adviseert om een verdere controle of beoordeling uit te voeren.
Verschil met taalmodellen: Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem.

Standaard Werkwijze voor LLM-controles

Voor alle controles waarbij een LLM wordt ingezet, volgen we standaard deze aanpak:

Analyse van de F1-score: Eerst bepaalt ValueCare de F1-score van het model o.b.v. een (bestaande) testset. Als instelling al taalmodel controles heeft wordt de bestaande testset hiervan gebruikt.
LLM uitvoeren over meerdere dagen: Het model wordt getest en uitgevoerd op data verspreid over enkele dagen (meestal een week) om consistentie te waarborgen.
Iteratief verbeteren: Op basis van de resultaten doorlopen we een of meerdere iteraties om de werking te optimaliseren.

Hieronder is het volledige stappenplan te vinden (Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles).

Kwaliteitsborging & Controle op de LLM-technologie

Om de betrouwbaarheid en kwaliteit van de uitkomsten van het LLM te waarborgen, worden de volgende stappen genomen:

Oplevering en test: Elke actielijst die op basis van het LLM wordt gegenereerd, wordt door de klant getest in samenwerking met ValueCare. Pas na goedkeuring wordt deze in productie genomen.
Jaarlijkse herbeoordeling: Elk jaar worden er steekproefsgewijs controles uitgevoerd, waarbij menselijke experts opnieuw verslaglegging beoordelen. De resultaten worden vergeleken met de uitkomsten van het LLM, om zo de kwaliteit en betrouwbaarheid continu te blijven monitoren en verbeteren.

Stroomschema: LLM op Consulten

Volgorde LLM-controles

Dagelijks worden grote aantallen verslagen opgehaald en via prompting beoordeeld. Niet elk verslag hoeft echter door alle prompts gecontroleerd te worden. Zo is het bijvoorbeeld niet zinvol om te controleren of er een tolktoeslag geregistreerd had mogen worden als uit het verslag al blijkt dat er geen consult heeft plaatsgevonden.

Daarom wordt er gewerkt met een vaste volgorde, zoals weergegeven in onderstaand schema. De controle begint altijd met de vraag of een verslag überhaupt beoordeeld kan worden (N6499). Daarna wordt vastgesteld of er daadwerkelijk een consult heeft plaatsgevonden (N6503). Vervolgens wordt gekeken of het om een behandelinhoudelijk consult gaat (N6502).

Alleen de verslagen die deze eerste stappen doorstaan, komen in aanmerking voor de verdere prompting controles (zoals N6507, N6508, N6510, N6511, N6518, etc.; zie ook: AI - Automatisering Zorgregistratie). Een overzicht van deze vervolgstappen is in de documentatie opgenomen. Deze volgordelijkheid wordt ook toegepast bij het implementeren van de prompting controles. Zo creëer je namelijk een zo zuiver mogelijke controle-massa voor de volgende controles die in productie genomen worden.

Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles

Om de toepasbaarheid en kwaliteit van de AI-ondersteunde controles te waarborgen, volgt ValueCare een helder proces rondom inrichting, inzet en bijsturing van LLM-controles. Dit waarborgt transparantie, herhaalbaarheid en continue verbetering.

Fase 1: Voorbereiding en testen

Inrichten en voorbereiden van de LLM-controle
- Verwerkingsovereenkomst tussen ValueCare en instelling is ondertekend. Relevante hardware is bij instelling aangeschaft, of er wordt gebruik gemaakt van een ValueCare server.
- De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema.
Initiële testperiode en evaluatie
- Analyse van de F1-score
- LLM uitvoeren over één week aan data
- Prompt verbeteren op basis van validatie van die data
Goedkeuring en livegang
- Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet.
- Vanaf de start verwerkt de controle alle geselecteerde acties in de productieomgeving.

Fase 2: Monitoring en Optimalisatie

Signaleren en markeren van opvallende of foutieve beoordelingen
- Gebruikers kunnen in de actielijst of beheertabel aangeven welke beoordelingen van het LLM wel of niet juist zijn (bijvoorbeeld markeren als 'AI juist' of 'AI onjuist' (i.c.m. actie negeren)).
Trigger voor heroptimalisatie
- Zodra er uit de praktijk meer dan 300 beoordelingen zijn gemarkeerd (met ten minste 150 als 'AI juist'), wordt dit automatisch gesignaleerd aan ValueCare.
Beoordeling behoefte aan doorontwikkeling
- De data-specialist van ValueCare neemt contact op met de consultant en de instelling om te bespreken of bijstelling/optimalisatie van de controles gewenst is.
- Samen wordt bepaald of de prompt moet worden aangepast, extra voorbeelden moeten worden geformuleerd of andere verfijningen nodig zijn.
Doorvoeren van optimalisaties
- Indien nodig wordt de prompt of controle-instelling aan de hand van de opgehaalde praktijkvoorbeelden en feedback herzien en verbeterd. Hierbij worden relevante feedback en praktijkgevallen uit de productie als input gebruikt.
Evaluatie verbeterde controle
- De aangepaste controle wordt opnieuw getest op een representatieve dataset (bij voorkeur dezelfde testperiode als in de initiële fase), voor een objectieve vergelijking.
- Op basis van analyse wordt besloten de aanpassing door te voeren naar productie, of eventueel verdere aanpassingen te doen.

Fase 3: Cyclisch herhalen en continu verbeteren

Herhaling en continue cyclus
- Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 5.

Beheer AI: modelversies toelichting waarden

Om de kwaliteit van het taalmodel te beheren maken we gebruik van verschillende indicatoren die bepalend zijn voor het voorspellend vermogen van het taalmodel voor verslaglegging. Om een score te koppelen aan de kwaliteit van het model gebruiken we de F1 score.

F1 score: de F1 score is een metriek die wordt gebruikt bij binaire classificatie en informatieopslag om de voorspellende prestaties te beoordelen. Het combineert precisie en recall tot een gemiddelde, waarbij beide even belangrijk worden geacht. De waarde varieert van 0 (slechtst) tot 1 (best), waarbij een score van 1 perfecte precisie en recall aangeeft.

Precisie: hoe vaak klopt het als het model iets als 'positief' aanduidt ten opzichte van alle voorspellingen. Oftewel: het aandeel positieven onder de voorspelde positieven.
Recall (volledigheid): hoeveel van de echte positieve gevallen heeft het model gevonden. Oftewel: het aandeel echte positieven dat is gevonden door het model onder de werkelijke positieven. Dit is belangrijk als je er zeker van wilt zijn dat je niets belangrijks mist.
Accuratesse: het percentage van alle gevallen (zowel positief als negatief) dat een model correct voorspelt. Het kijkt naar de totale prestaties van het model dus hoeveel van alle voorspellingen juist zijn.
Specificiteit: een waarde die de kans op een negatief resultaat weergeeft, ook wel true negative rate. Deze waarde geeft aan hoe vaak de afwezigheid van een bepaalde factor correct wordt geïdentificeerd.
Aantal prediction categorieën: hoeveel klassen er zijn die voorspeld worden, bij de controles nu; behandelinhoudelijk correct of incorrect = 2.

@@ Regel 30: / Regel 30: @@
 '''Volgorde LLM-controles'''
-Er wordt dagelijks een grote hoeveelheid verslagen opgehaald en middels prompting beoordeeld. Echter, niet alle verslagen hoeven door alle prompts beoordeeld te worden. Bijvoorbeeld: als blijkt uit de verslaglegging dat er geen consult heeft plaatsgevonden, is het logischerwijs ook niet nodig om te beoordelen of er toeslag voor een tolk geregistreerd had mogen worden. Daarom wordt, de in onderstaand figuur beschreven, volgordelijkheid gebruikt. Allereerst wordt beoordeeld of het verslag überhaupt beoordeelbaar is ([[Verslaglegging niet te beoordelen door model (N6499)|N6499]]). Vervolgens wordt beoordeeld of het consult feitelijk is geleverd ([[Verslaglegging duidt op mogelijk onterechte registratie van consult (N6503)|N6503]]). Daarna wordt beoordeeld of er sprake was van een behandelinhoudelijk consult ([[Verslaglegging duidt op mogelijk incorrecte behandelinhoudelijkheid bij registratie van consult (N6502)|N6502]]). Wanneer een verslag deze stappen heeft doorlopen, zonder voor te komen op die controles wordt het verslag dus onderdeel van de controlemassa die door de rest van de prompting controles wordt beoordeeld. Een opsomming van deze overige prompting controles staan [[AI - Automatisering Zorgregistratie (GGZ)|hier]] gedocumenteerd. Dit is dus ook de volgordelijkheid die wordt gebruikt voor het in productie nemen van de AI controles, om een zo zuiver mogelijke controlemassa te genereren voor de prompting controles.
+Dagelijks worden grote aantallen verslagen opgehaald en via prompting beoordeeld. Niet elk verslag hoeft echter door alle prompts gecontroleerd te worden. Zo is het bijvoorbeeld niet zinvol om te controleren of er een tolktoeslag geregistreerd had mogen worden als uit het verslag al blijkt dat er geen consult heeft plaatsgevonden.
-[[Bestand:StroomschemaLLM.png|geen|miniatuur|Stroomschema prompting controles]]
+Daarom wordt er gewerkt met een vaste volgorde, zoals weergegeven in onderstaand schema. De controle begint altijd met de vraag of een verslag überhaupt beoordeeld kan worden ([[Verslaglegging niet te beoordelen door model (N6499)|N6499]]). Daarna wordt vastgesteld of er daadwerkelijk een consult heeft plaatsgevonden ([[Verslaglegging duidt op mogelijk onterechte registratie van consult (N6503)|N6503]]). Vervolgens wordt gekeken of het om een behandelinhoudelijk consult gaat ([[N6502]]).
+Alleen de verslagen die deze eerste stappen doorstaan, komen in aanmerking voor de verdere prompting controles (zoals N6507, N6508, N6510, N6511, N6518, etc.; zie ook: [[AI - Automatisering Zorgregistratie (GGZ)|AI - Automatisering Zorgregistratie]]). Een overzicht van deze vervolgstappen is in de documentatie opgenomen. Deze volgordelijkheid wordt ook toegepast bij het implementeren van de prompting controles. Zo creëer je namelijk een zo zuiver mogelijke controle-massa voor de volgende controles die in productie genomen worden.
+[[Bestand:StroomschemaLLM v9.drawio.png|geen|miniatuur|Stroomschema LLM Controles|470x470px]]
 == Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles ==
@@ Regel 72: / Regel 76: @@
 # Herhaling en continue cyclus
 #* Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 5.
-[[Bestand:AI Prompting Datastromen 3.png|links|miniatuur|542x542px|AI Prompting Datastromen LLM]]
+[[Bestand:GGZZPMDA-2991 v5.drawio.png|geen|miniatuur|448x448px|Prompt verbeter-cyclus]]
+== Beheer AI: modelversies toelichting waarden ==
+Om de kwaliteit van het taalmodel te beheren maken we gebruik van verschillende indicatoren die bepalend zijn voor het voorspellend vermogen van het taalmodel voor verslaglegging. Om een score te koppelen aan de kwaliteit van het model gebruiken we de F1 score.
+'''F1 score:''' de F1 score is een metriek die wordt gebruikt bij binaire classificatie en informatieopslag om de voorspellende prestaties te beoordelen. Het combineert precisie en recall tot een gemiddelde, waarbij beide even belangrijk worden geacht. De waarde varieert van 0 (slechtst) tot 1 (best), waarbij een score van 1 perfecte precisie en recall aangeeft.
+* '''Precisie''''':'' hoe vaak klopt het als het model iets als 'positief' aanduidt ten opzichte van alle voorspellingen. Oftewel: het aandeel positieven onder de voorspelde positieven.
+* '''Recall''' ''(volledigheid):'' hoeveel van de echte positieve gevallen heeft het model gevonden. Oftewel: het aandeel echte positieven dat is gevonden door het model onder de werkelijke positieven. Dit is belangrijk als je er zeker van wilt zijn dat je niets belangrijks mist.
+* '''Accuratesse''''':'' het percentage van alle gevallen (zowel positief als negatief) dat een model correct voorspelt. Het kijkt naar de totale prestaties van het model dus hoeveel van alle voorspellingen juist zijn.
+* '''Specificiteit''''':'' een waarde die de kans op een negatief resultaat weergeeft, ook wel '''true negative rate'''. Deze waarde geeft aan hoe vaak de afwezigheid van een bepaalde factor correct wordt geïdentificeerd.
+* '''Aantal prediction categorieën''': hoeveel klassen er zijn die voorspeld worden, bij de controles nu; behandelinhoudelijk correct of incorrect = 2.

GGZ AI - Large Language Models (LLM): verschil tussen versies

Huidige versie van 22 mei 2026 08:36

Inhoud

Inleiding

Achtergrond bij AI-techniek: Large Language Models (LLM)

Standaard Werkwijze voor LLM-controles

Kwaliteitsborging & Controle op de LLM-technologie

Stroomschema: LLM op Consulten

Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles

Fase 1: Voorbereiding en testen

Fase 2: Monitoring en Optimalisatie

Fase 3: Cyclisch herhalen en continu verbeteren

Beheer AI: modelversies toelichting waarden

Navigatiemenu

GGZ AI - Large Language Models (LLM): verschil tussen versies

Huidige versie van 22 mei 2026 08:36

Inleiding

Achtergrond bij AI-techniek: Large Language Models (LLM)

Standaard Werkwijze voor LLM-controles

Kwaliteitsborging & Controle op de LLM-technologie

Stroomschema: LLM op Consulten

Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles

Fase 1: Voorbereiding en testen

Fase 2: Monitoring en Optimalisatie

Fase 3: Cyclisch herhalen en continu verbeteren

Beheer AI: modelversies toelichting waarden

Navigatiemenu

Zoeken