GGZ AI - Taalmodellen: verschil tussen versies

← Oudere bewerking

VisueelWikitekst

Huidige versie van 4 nov 2025 13:27

Achtergrond bij AI techniek - Taalmodel

De toepassing van AI in verslagleggingsanalyse werkt als volgt:

Beschikbaarheid model: Een AI-taalmodel draait op de ValueCare-server van de klant.
- ValueCare gebruikt een specifiek voor Nederlandstalige medische data getraind RoBERTa-model (“Robustly Optimized BERT Pretraining Approach”), in de vorm van RoBERT, een open source model.
Samenstelling trainingset: In samenwerking met de klant wordt een trainingset samengesteld.
- De trainingset bevat een reeks van verslaglegging records van geregistreerde (telefonische) consulten/ verblijfsdagen. Voor elke verslaglegging wordt door de instelling aangegeven of het bijbehorende (telefonische) consult/ verblijfsdag rechtmatig is of niet. Kortom: de verslagen zijn dus geïnterpreteerd en gecategoriseerd.
- De trainingset is bij voorkeur voldoende omvangrijk en kan automatisch of handmatig worden samengesteld (meestal via Horizontaal Toezicht of zelfonderzoek).
Training: Het AI-taalmodel wordt getraind op deze trainingset om verslaglegging op rechtmatigheid (is het terecht dat hier een consult is geregistreerd), en volledigheid (is het terecht dat hier geen consult is geregistreerd).
Controle: Het taalmodel beoordeelt op basis van de verslaglegging of de registratie van de prestatie terecht en volledig is, en bepaalt de mate van zekerheid.
Resultaat: Resultaten van de AI worden weergegeven in een actielijst.
Kanspercentage: kanspercentages beschrijven de zekerheid van de voorspelling van het taalmodel. Hoe zekerder het taalmodel is van de voorspelling, des te hoger het kanspercentage voor de ontstane actie in de actielijst. Alleen acties met een modeluitkomst die boven deze afgesproken drempel ligt, worden zichtbaar gemaakt in de controle. Standaard ligt deze drempel op 50%. ValueCare adviseert welk percentage het meest geschikt is voor de klant.

De datastroom van de AI-controles vindt als volgt plaats:

Kwaliteitsborging & Controle op de AI-Technologie

Het waarborgen van de betrouwbaarheid en kwaliteit van het AI-model gebeurt als volgt:

Oplevering en test: Iedere actielijst wordt getest door de klant samen met ValueCare. Na goedkeuring wordt deze actielijst in productie geplaatst.
Jaarlijkse herbeoordeling: Jaarlijks worden steekproeven door de klant samen met ValueCare gedaan, waarbij menselijke beoordeling als referentie wordt genomen.

Stappenplan: In Productie Nemen en Bijtrainen van AI-Taalmodellen

Om de toepasbaarheid en kwaliteit van de AI te borgen, volgt ValueCare een strikt stappenplan rondom training, inzet en vervolgtrainen van de AI-taalmodellen. Dit biedt transparantie, herhaalbaarheid en voortdurende optimalisatie.

Fase 1: Voorbereiding en testen

Modeltraining en Validatie
- Het AI-taalmodel wordt eerst getraind op een vooraf geselecteerde trainingset (1500 posten).
- Evaluatie vindt plaats met een aparte testset (300 posten), die uitsluitend wordt ingezet voor validatiedoeleinden en beschikbaar blijft voor toekomstige bijtrainingsrondes.
Beperkte Pilot en Eerste Evaluatie
- Het model wordt getest op acties uit één maand, zodat de eerste test overzichtelijk en snel uit te voeren is.
- Geconstateerde fouten uit deze pilot worden gebruikt voor eventuele bijtraining, indien nodig worden meerdere korte iteraties doorlopen.
Modelgoedkeuring en Start Productie
- Na definitieve beoordeling en akkoord vanuit de instelling, wordt het model in productie genomen op basis van het afgesproken kanspercentage.
- Vanaf het afgesproken startmoment verwerkt het model alle relevante acties.

Fase 2: Monitoring en optimalisatie

Registratie van Foutieve Acties
- Na livegang worden foutieve meldingen niet langer individueel opgepakt.
- Medewerkers markeren deze als ‘AI onjuist’ waarna de actie verder wordt genegeerd.
Detectie van Bijtrainingsmoment
- Zodra er meer dan 300 acties zijn gemarkeerd (waarvan er minimaal 150 behandeld zijn of gekenmerkt als ‘AI juist’'), ontvangt ValueCare automatisch een melding dat het tijd is voor een mogelijke nieuwe trainingsronde.
Overleg en Besluitvorming
- De data-specialist van ValueCare informeert de consultant; er volgt overleg met de instelling om te bepalen of bijtrainen gewenst is.
Selectie en Voorbereiding Nieuwe Trainingsdata
- Indien akkoord, wordt een representatieve selectie van recent beoordeelde 'AI onjuist- en '‘AI juist’-acties verzameld als extra trainingsdata.
Bijtraining van het Model
- Het model wordt opnieuw getraind, gebruikmakend van zowel de ‘AI juist’ als ‘AI onjuist’ gemarkeerde acties uit de praktijk.
Her-evaluatie en Besluit naar Productie
- Het nieuwe model wordt opnieuw gevalideerd met dezelfde testset en vergeleken met het oude model.
- Afhankelijk van de resultaten volgt implementatie of verdere optimalisatie.

Fase 3: Cyclisch herhalen en continu verbeteren

Herhaling en continue cyclus
- Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 3 uit fase 2.

Beheer AI: modelversies toelichting waarden

Om de kwaliteit van het taalmodel te beheren maken we gebruik van verschillende indicatoren die bepalend zijn voor het voorspellend vermogen van het taalmodel voor verslaglegging. Om een score te koppelen aan de kwaliteit van het model gebruiken we de F1 score.

F1 score: de F1 score is een metriek die wordt gebruikt bij binaire classificatie en informatieopslag om de voorspellende prestaties te beoordelen. Het combineert precisie en recall tot een gemiddelde, waarbij beide even belangrijk worden geacht. De waarde varieert van 0 (slechtst) tot 1 (best), waarbij een score van 1 perfecte precisie en recall aangeeft.

Precisie: hoe vaak klopt het als het model iets als 'positief' aanduidt ten opzichte van alle voorspellingen. Oftewel: het aandeel positieven onder de voorspelde positieven.
Recall (volledigheid): hoeveel van de echte positieve gevallen heeft het model gevonden. Oftewel: het aandeel echte positieven dat is gevonden door het model onder de werkelijke positieven. Dit is belangrijk als je er zeker van wilt zijn dat je niets belangrijks mist.
Accuratesse: het percentage van alle gevallen (zowel positief als negatief) dat een model correct voorspelt. Het kijkt naar de totale prestaties van het model dus hoeveel van alle voorspellingen juist zijn.
Specificiteit: een waarde die de kans op een negatief resultaat weergeeft, ook wel true negative rate. Deze waarde geeft aan hoe vaak de afwezigheid van een bepaalde factor correct wordt geïdentificeerd.
Aantal prediction categorieën: hoeveel klassen er zijn die voorspeld worden, bij de controles nu; behandelinhoudelijk correct of incorrect = 2.

Beheer en risicobeheersing van AI-controles

Het beheer van de controles op het taalmodel vindt plaats via een aantal specifieke beheermodules, gericht op transparantie en risicobeheersing:

Beheerfunctie	Omschrijving
Beheer Risicobeheersing Taalmodel: Model versie	Mogelijkheid om de verschillende (historische) modelversies (en bovengenoemde parameters) in te zien.
Beheer Risicobeheersing Taalmodel: Training instellingen	Inzicht en beheer van de instellingen waarmee het model is getraind.
Beheer Risicobeheersing Taalmodel: Feitelijke levering beoordeling	Instellingen kunnen hier de training- en testset beoordelen; deze beoordeling wordt vervolgens gebruikt als basis voor het trainen van het taalmodel.
Beheer Risicobeheersing Taalmodel: Feitelijke levering beoordeling actielijst	Inzien van verslaglegging over acties die (in test of productie) worden gesignaleerd binnen de taalmodelcontroles.
Beheer Risicobeheersing Taalmodel: Bijtrainingssets	Overzicht van de regels die in (toekomstige) bijtrainingsfases worden ingezet.
Beheer Risicobeheersing Taalmodel: Feitelijke levering bijtrainingsbibliotheek	Hier worden standaard woord(combinaties) weergegeven die frequent voorkomen binnen instellingen en of deze vaker wél of niet geleverd zijn. Wanneer een regel wordt geactiveerd in deze beheertabel, worden er automatisch 25 gegenereerde zinnen met die woordcombinatie toegevoegd aan de bijtrainingsset.

@@ Regel 5: / Regel 5: @@
 #* ValueCare gebruikt een specifiek voor Nederlandstalige medische data getraind RoBERTa-model (“Robustly Optimized BERT Pretraining Approach”), in de vorm van RoBERT, een open source model.
 # Samenstelling trainingset: In samenwerking met de klant wordt een trainingset samengesteld.
-#* De trainingset bevat een reeks van verslaglegging records voor gerealiseerde (telefonische) consulten/ verblijfsdagen. Voor elke verslaglegging is aangegeven of het bijbehorende (telefonische) consult/ verblijfsdag rechtmatig bevonden kan worden of niet. Kortom: de verslagen zijn dus geïnterpreteerd en gecategoriseer
+#* De trainingset bevat een reeks van verslaglegging records van geregistreerde (telefonische) consulten/ verblijfsdagen. Voor elke verslaglegging wordt door de instelling aangegeven of het bijbehorende (telefonische) consult/ verblijfsdag rechtmatig is of niet. Kortom: de verslagen zijn dus geïnterpreteerd en gecategoriseerd.
 #* De trainingset is bij voorkeur voldoende omvangrijk en kan automatisch of handmatig worden samengesteld (meestal via Horizontaal Toezicht of zelfonderzoek).
-# Training: Het AI-taalmodel wordt getraind op deze trainingset om verslaglegging op rechtmatigheid te classificeren.
+# Training: Het AI-taalmodel wordt getraind op deze trainingset om verslaglegging op rechtmatigheid (is het terecht dat hier een consult is geregistreerd), en volledigheid (is het terecht dat hier <u>geen</u> consult is geregistreerd).
-# Controle: Het taalmodel classificeert alle verslaglegging en bepaalt de mate van zekerheid.
+# Controle: Het taalmodel beoordeelt op basis van de verslaglegging of de registratie van de prestatie terecht en volledig is, en bepaalt de mate van zekerheid.
 # Resultaat: Resultaten van de AI worden weergegeven in een actielijst.
-# Kanspercentage: Het kanspercentage is een instelbare drempelwaarde. Alleen acties met een modeluitkomst die boven deze afgesproken drempel ligt, worden zichtbaar gemaakt in de controle. Standaard ligt deze drempel op 50%. ValueCare adviseert welk percentage het meest geschikt is voor de klant.
+# Kanspercentage: kanspercentages beschrijven de zekerheid van de voorspelling van het taalmodel. Hoe zekerder het taalmodel is van de voorspelling, des te hoger het kanspercentage voor de ontstane actie in de actielijst. Alleen acties met een modeluitkomst die boven deze afgesproken drempel ligt, worden zichtbaar gemaakt in de controle. Standaard ligt deze drempel op 50%. ValueCare adviseert welk percentage het meest geschikt is voor de klant.
@@ Regel 17: / Regel 17: @@
 == Kwaliteitsborging & Controle op de AI-Technologie ==
-Het waarborgen van de betrouwbaarheid van het AI-model gebeurt als volgt:
+Het waarborgen van de betrouwbaarheid en kwaliteit van het AI-model gebeurt als volgt:
 # Oplevering en test: Iedere actielijst wordt getest door de klant samen met ValueCare. Na goedkeuring wordt deze actielijst in productie geplaatst.
@@ Regel 25: / Regel 25: @@
 Om de toepasbaarheid en kwaliteit van de AI te borgen, volgt ValueCare een strikt stappenplan rondom training, inzet en vervolgtrainen van de AI-taalmodellen. Dit biedt transparantie, herhaalbaarheid en voortdurende optimalisatie.
-=== Fase 1: Voorbereiding en Initiële Training ===
+=== Fase 1: Voorbereiding en testen ===
 # Modeltraining en Validatie
@@ Regel 32: / Regel 32: @@
 # Beperkte Pilot en Eerste Evaluatie
 #* Het model wordt getest op acties uit één maand, zodat de eerste test overzichtelijk en snel uit te voeren is.
-#* Geconstateerde fouten uit deze pilot worden gebruikt voor eventuele bijstelling, indien nodig worden meerdere korte iteraties doorlopen.
+#* Geconstateerde fouten uit deze pilot worden gebruikt voor eventuele bijtraining, indien nodig worden meerdere korte iteraties doorlopen.
 # Modelgoedkeuring en Start Productie
 #* Na definitieve beoordeling en akkoord vanuit de instelling, wordt het model in productie genomen op basis van het afgesproken kanspercentage.
@@ Regel 39: / Regel 39: @@
 ----
-=== Fase 2: Monitoring en Markering na Livegang ===
+=== Fase 2: Monitoring en optimalisatie ===
 # Registratie van Foutieve Acties
@@ Regel 45: / Regel 45: @@
 #* Medewerkers markeren deze als ‘AI onjuist’ waarna de actie verder wordt genegeerd.
 # Detectie van Bijtrainingsmoment
-#* Zodra er meer dan 300 acties zijn gemarkeerd (waarvan minimaal 150 als ‘AI juist’), ontvangt ValueCare automatisch een melding dat het tijd is voor een mogelijke nieuwe trainingsronde.
+#* Zodra er meer dan 300 acties zijn gemarkeerd (waarvan er minimaal 150 behandeld zijn of gekenmerkt als ‘AI juist’'), ontvangt ValueCare automatisch een melding dat het tijd is voor een mogelijke nieuwe trainingsronde.
+#Overleg en Besluitvorming
-----
-=== Fase 3: Doorontwikkeling/Bijtrainen ===
-# Overleg en Besluitvorming
 #* De data-specialist van ValueCare informeert de consultant; er volgt overleg met de instelling om te bepalen of bijtrainen gewenst is.
 # Selectie en Voorbereiding Nieuwe Trainingsdata
-#* Indien akkoord, wordt een representatieve selectie van recent beoordeelde ‘AI juist’-acties verzameld als extra trainingsdata.
+#* Indien akkoord, wordt een representatieve selectie van recent beoordeelde 'AI onjuist- en '‘AI juist’-acties verzameld als extra trainingsdata.
 # Bijtraining van het Model
 #* Het model wordt opnieuw getraind, gebruikmakend van zowel de ‘AI juist’ als ‘AI onjuist’ gemarkeerde acties uit de praktijk.
@@ Regel 60: / Regel 55: @@
 #* Het nieuwe model wordt opnieuw gevalideerd met dezelfde testset en vergeleken met het oude model.
 #* Afhankelijk van de resultaten volgt implementatie of verdere optimalisatie.
-# Cyclisch Proces
-#* Het monitoring- en bijtrainingsproces herhaalt zich steeds zodra de vastgestelde drempels opnieuw bereikt worden.
+=== Fase 3: Cyclisch herhalen en continu verbeteren ===
+# Herhaling en continue cyclus
+#* Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 3 uit fase 2.
 == Beheer AI: modelversies toelichting waarden ==

GGZ AI - Taalmodellen: verschil tussen versies

Huidige versie van 4 nov 2025 13:27

Inhoud

Achtergrond bij AI techniek - Taalmodel

Kwaliteitsborging & Controle op de AI-Technologie

Stappenplan: In Productie Nemen en Bijtrainen van AI-Taalmodellen

Fase 1: Voorbereiding en testen

Fase 2: Monitoring en optimalisatie

Fase 3: Cyclisch herhalen en continu verbeteren

Beheer AI: modelversies toelichting waarden

Beheer en risicobeheersing van AI-controles

Navigatiemenu

GGZ AI - Taalmodellen: verschil tussen versies

Huidige versie van 4 nov 2025 13:27

Achtergrond bij AI techniek - Taalmodel

Kwaliteitsborging & Controle op de AI-Technologie

Stappenplan: In Productie Nemen en Bijtrainen van AI-Taalmodellen

Fase 1: Voorbereiding en testen

Fase 2: Monitoring en optimalisatie

Fase 3: Cyclisch herhalen en continu verbeteren

Beheer AI: modelversies toelichting waarden

Beheer en risicobeheersing van AI-controles

Navigatiemenu

Zoeken