GGZ AI - Large Language Models (LLM): verschil tussen versies

Naar navigatie springen Naar zoeken springen
Mstas (overleg | bijdragen)
Mstas (overleg | bijdragen)
 
(6 tussenliggende versies door 3 gebruikers niet weergegeven)
Regel 6: Regel 6:
De inzet van Large Language Models (LLM) binnen verslagleggingsanalyse verloopt als volgt:
De inzet van Large Language Models (LLM) binnen verslagleggingsanalyse verloopt als volgt:


# Beschikbaarheid van het model Een LLM (‘Large Language Model’) wordt bij de klant operationeel gemaakt op de ValueCare-server, of op een eigen server als er voldoende GPU-capaciteit aanwezig is. Om met het LLM te werken, moet er een verwerkingsovereenkomst met ValueCare afgesloten zijn. Een LLM is een geavanceerd kunstmatig neuraal netwerk dat getraind is op grote hoeveelheden tekst en natuurlijke taal kan begrijpen én genereren.
# '''Beschikbaarheid van het model:''' Een LLM (‘Large Language Model’) wordt bij de klant operationeel gemaakt op de ValueCare-server, of op een eigen server als er voldoende GPU-capaciteit aanwezig is. Om met het LLM te werken, moet er een verwerkingsovereenkomst met ValueCare afgesloten zijn. Een LLM is een geavanceerd kunstmatig neuraal netwerk dat getraind is op grote hoeveelheden tekst en natuurlijke taal kan begrijpen én genereren.
# Training van het LLM  In tegenstelling tot traditionele taalmodellen is voor het LLM geen handmatig samengestelde trainingsset van bijvoorbeeld 1500 gevallen meer nodig. Dit betekent dat het model sneller en eenvoudiger inzetbaar is. Aanpassingen of updates in het model kunnen ook eenvoudiger en sneller doorgevoerd worden, omdat langdurige handmatige beoordelingen bij training overbodig zijn.
# '''Training van het model:''' In tegenstelling tot traditionele taalmodellen is voor het LLM geen handmatig samengestelde trainingsset van bijvoorbeeld 1500 gevallen meer nodig. Dit betekent dat het model sneller en eenvoudiger inzetbaar is. Aanpassingen of updates in het model kunnen ook eenvoudiger en sneller doorgevoerd worden, omdat langdurige handmatige beoordelingen bij training overbodig zijn.
# Toepassing en classificatie Het LLM analyseert automatisch nieuwe verslagleggingen op basis van vooraf ingestelde prompts (richtlijnen of opdrachten die verschillen per controlethema). Het model beoordeelt per verslag of het vermoedelijk rechtmatig of onrechtmatig is, op basis van de kennis en patronen die het uit de getrainde data heeft opgedaan.
# '''Toepassing en classificatie:''' Het LLM analyseert automatisch nieuwe verslagleggingen op basis van vooraf ingestelde prompts (richtlijnen of opdrachten die verschillen per controlethema). Het model beoordeelt per verslag of het vermoedelijk rechtmatig of onrechtmatig is, op basis van de kennis en patronen die het uit de getrainde data heeft opgedaan.
# Presentatie van resultaten De uitkomsten van het LLM worden overzichtelijk gepresenteerd in een actielijst voor de gebruiker. Hierin worden specifiek die casussen getoond waar het model adviseert om een verdere controle of beoordeling uit te voeren.
# '''Presentatie van resultaten:''' De uitkomsten van het LLM worden overzichtelijk gepresenteerd in een actielijst voor de gebruiker. Hierin worden specifiek die casussen getoond waar het model adviseert om een verdere controle of beoordeling uit te voeren.
# Verschil met taalmodellen Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem.
# '''Verschil met taalmodellen:''' Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem.


== Standaard Werkwijze voor LLM-controles ==
== Standaard Werkwijze voor LLM-controles ==
Voor alle controles waarbij een LLM wordt ingezet, volgen we standaard deze aanpak:
Voor alle controles waarbij een LLM wordt ingezet, volgen we standaard deze aanpak:


# '''Analyse van de F1-score''' Eerst bepaalt ValueCare de F1-score van het model o.b.v. een (bestaande) testset. Als instelling al taalmodel controles heeft wordt de bestaande testset hiervan gebruikt.
# '''Analyse van de F1-score:''' Eerst bepaalt ValueCare de F1-score van het model o.b.v. een (bestaande) testset. Als instelling al taalmodel controles heeft wordt de bestaande testset hiervan gebruikt.
# '''LLM uitvoeren over meerdere dagen''' Het model wordt getest en uitgevoerd op data verspreid over enkele dagen (meestal een week) om consistentie te waarborgen.
# '''LLM uitvoeren over meerdere dagen:''' Het model wordt getest en uitgevoerd op data verspreid over enkele dagen (meestal een week) om consistentie te waarborgen.
# '''Iteratief verbeteren''' Op basis van de resultaten doorlopen we een of meerdere iteraties om de werking te optimaliseren.
# '''Iteratief verbeteren:''' Op basis van de resultaten doorlopen we een of meerdere iteraties om de werking te optimaliseren.


Hieronder is het volledige <u>stappenplan</u> te vinden (Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles).
Hieronder is het volledige <u>stappenplan</u> te vinden (Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles).
Regel 30: Regel 30:
'''Volgorde LLM-controles'''
'''Volgorde LLM-controles'''


Aangezien er veel data door het Large Language Model gaat, waarbij die voor consulten ook nog eens van elkaar afhankelijk is, is er besloten om een bepaalde volgorde toe te passen wat betreft het testen en in productie nemen van de controles. De volgorde is als volgt:
Er wordt dagelijks een grote hoeveelheid verslagen opgehaald en middels prompting beoordeeld. Echter, niet alle verslagen hoeven door alle prompts beoordeeld te worden. Bijvoorbeeld: als blijkt uit de verslaglegging dat er geen consult heeft plaatsgevonden, is het logischerwijs ook niet nodig om te beoordelen of er toeslag voor een tolk geregistreerd had mogen worden. Daarom wordt, de in onderstaand figuur beschreven, volgordelijkheid gebruikt. Allereerst wordt beoordeeld of het verslag überhaupt beoordeelbaar is ([[Verslaglegging niet te beoordelen door model (N6499)|N6499]]). Vervolgens wordt beoordeeld of het consult feitelijk is geleverd ([[Verslaglegging duidt op mogelijk onterechte registratie van consult (N6503)|N6503]]). Daarna wordt beoordeeld of er sprake was van een behandelinhoudelijk consult ([[Verslaglegging duidt op mogelijk incorrecte behandelinhoudelijkheid bij registratie van consult (N6502)|N6502]]). Wanneer een verslag deze stappen heeft doorlopen, zonder voor te komen op die controles wordt het verslag dus onderdeel van de controlemassa die door de rest van de prompting controles wordt beoordeeld. Een opsomming van deze overige prompting controles staan [[AI - Automatisering Zorgregistratie (GGZ)|hier]] gedocumenteerd. Dit is dus ook de volgordelijkheid die wordt gebruikt voor het in productie nemen van de AI controles, om een zo zuiver mogelijke controlemassa te genereren voor de prompting controles.
 
[[Bestand:StroomschemaLLM.png|geen|miniatuur|Stroomschema prompting controles]]
'''Stap 1:''' [[N6499]] - Is verslag te beoordelen?
 
  '''Nee''' → Op N6499 (Stop)
 
  '''Ja''' → Volgende stap
 
'''↓'''
 
'''Stap 2:''' [[N6503]] - Blijkt uit verslag dat consult feitelijk is geleverd?
 
  '''Nee''' → Op N6503 (Stop)
 
  '''Ja''' → Volgende stap
 
'''↓'''
 
'''Stap 3:''' [[N6502]] - Blijkt uit verslag dat consult behandelinhoudelijk was?
 
  '''Nee''' → Op N6502 (Stop)
 
  '''Ja''' → Consult goedgekeurd
 
'''↓'''
 
'''Stap 4:''' Verder naar controles:
 
      • Reistijd (N6510)
 
      • Tolk (N6512)
 
      • Diagnostiek/behandeling (N6507/N6508)


== Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles ==
== Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles ==
Regel 70: Regel 39:


# Inrichten en voorbereiden van de LLM-controle
# Inrichten en voorbereiden van de LLM-controle
#* Verwerkingsovereenkomst tussen ValueCare en instelling is ondertekend
#* Verwerkingsovereenkomst tussen ValueCare en instelling is ondertekend. Relevante hardware is bij instelling aangeschaft, of er wordt gebruik gemaakt van een ValueCare server.
#* De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema.
#* De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema.
# Initiële testperiode en evaluatie
# Initiële testperiode en evaluatie
#* Analyse van de F1-score
#* Analyse van de F1-score
#* LLM uitvoeren over meerdere dagen
#* LLM uitvoeren over één week aan data
#* Iteratief verbeteren
#* Prompt verbeteren op basis van validatie van die data
# Goedkeuring en livegang
# Goedkeuring en livegang
#* Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet.
#* Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet.
Regel 103: Regel 72:
# Herhaling en continue cyclus
# Herhaling en continue cyclus
#* Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 5.
#* Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 5.
[[Bestand:AI Prompting Datastromen 2.drawio.png|links|miniatuur|518x518px|AI Prompting Datastromen LLM]]
[[Bestand:GGZZPMDA-2991 v5.drawio.png|geen|miniatuur|448x448px|Prompt verbeter-cyclus]]