GGZ AI - Large Language Models (LLM): verschil tussen versies

Naar navigatie springen Naar zoeken springen
kGeen bewerkingssamenvatting
Regel 1: Regel 1:
== Inleiding ==
Op deze pagina staat uitgelegd hoe ValueCare Large Language Models (LLM's) inzet bij verslagleggingsanalyse en kwaliteitsborging. Je vindt hier technische achtergrond, het controleproces, kwaliteitsmaatregelen en onze standaard werkwijze voor AI-controles.


== Achtergrond bij AI-techniek: Large Language Models (LLM) ==
== Achtergrond bij AI-techniek: Large Language Models (LLM) ==
Regel 9: Regel 12:
# Verschil met taalmodellen  Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem.
# Verschil met taalmodellen  Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem.


Datastroom van de LLM-controles:
=== Datastroom van de LLM-controles: ===
De flow van data verloopt als volgt: verslagleggingsgegevens worden door het LLM geanalyseerd, waarna de resultaten (wel/niet rechtmatig, mate van zekerheid) in het controlesysteem van de klant worden teruggekoppeld.


De flow van data verloopt als volgt: verslagleggingsgegevens worden door het LLM geanalyseerd, waarna de resultaten (wel/niet rechtmatig, mate van zekerheid) in het controlesysteem van de klant worden teruggekoppeld.
== Standaard Werkwijze voor LLM-controles ==
Voor alle controles waarbij een LLM wordt ingezet, volgen we standaard deze aanpak:
 
# '''Analyse van de F1-score''' Eerst bepaalt ValueCare de F1-score van het model o.b.v. een (bestaande) testset. Als instelling al taalmodel controles heeft wordt de bestaande testset hiervan gebruikt.
# '''LLM uitvoeren over meerdere dagen''' Het model wordt getest en uitgevoerd op data verspreid over enkele dagen (meestal een week) om consistentie te waarborgen.
# '''Iteratief verbeteren''' Op basis van de resultaten doorlopen we een of meerdere iteraties om de werking te optimaliseren.
 
Hieronder is het volledige <u>stappenplan</u> te vinden (Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles).


== Kwaliteitsborging & Controle op de LLM-technologie ==
== Kwaliteitsborging & Controle op de LLM-technologie ==
Regel 65: Regel 76:
#* De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema.
#* De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema.
# Initiële testperiode en evaluatie
# Initiële testperiode en evaluatie
#* De LLM-controle wordt getest met een selectie acties uit één maand om snel inzicht te krijgen in de prestaties van het model.
#* Analyse van de F1-score
#* Gemelde onjuistheden of onduidelijke onderbouwingen uit deze periode worden gebruikt om de prompt te verbeteren of de controle-instellingen aan te passen. Dit kan in meerdere iteraties plaatsvinden.
#* LLM uitvoeren over meerdere dagen
#* Iteratief verbeteren
# Goedkeuring en livegang
# Goedkeuring en livegang
#* Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet.
#* Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet.