GGZ AI - Large Language Models (LLM): verschil tussen versies
Naar navigatie springen
Naar zoeken springen
| (3 tussenliggende versies door een andere gebruiker niet weergegeven) | |||
| Regel 1: | Regel 1: | ||
== Inleiding == | |||
Op deze pagina staat uitgelegd hoe ValueCare Large Language Models (LLM's) inzet bij verslagleggingsanalyse en kwaliteitsborging. Je vindt hier technische achtergrond, het controleproces, kwaliteitsmaatregelen en onze standaard werkwijze voor AI-controles. | |||
== Achtergrond bij AI-techniek: Large Language Models (LLM) == | == Achtergrond bij AI-techniek: Large Language Models (LLM) == | ||
| Regel 9: | Regel 12: | ||
# Verschil met taalmodellen Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem. | # Verschil met taalmodellen Een belangrijk voordeel van het LLM ten opzichte van oudere taalmodellen is dat het geen grote, handmatige trainingsset vereist. Hierdoor bespaart de organisatie veel tijd, omdat medewerkers niet afzonderlijk regels hoeven te beoordelen voor het trainen van het model. Daarnaast geeft het LLM bij elke beoordeling ook een toelichting of onderbouwing (‘reden’) waarom het verslag als rechtmatig of onrechtmatig wordt ingeschat. Dit vergroot de transparantie en het inzicht in de werking van het controlesysteem. | ||
== Standaard Werkwijze voor LLM-controles == | |||
Voor alle controles waarbij een LLM wordt ingezet, volgen we standaard deze aanpak: | |||
# '''Analyse van de F1-score''' Eerst bepaalt ValueCare de F1-score van het model o.b.v. een (bestaande) testset. Als instelling al taalmodel controles heeft wordt de bestaande testset hiervan gebruikt. | |||
# '''LLM uitvoeren over meerdere dagen''' Het model wordt getest en uitgevoerd op data verspreid over enkele dagen (meestal een week) om consistentie te waarborgen. | |||
# '''Iteratief verbeteren''' Op basis van de resultaten doorlopen we een of meerdere iteraties om de werking te optimaliseren. | |||
Hieronder is het volledige <u>stappenplan</u> te vinden (Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles). | |||
== Kwaliteitsborging & Controle op de LLM-technologie == | == Kwaliteitsborging & Controle op de LLM-technologie == | ||
| Regel 18: | Regel 26: | ||
# Oplevering en test: Elke actielijst die op basis van het LLM wordt gegenereerd, wordt door de klant getest in samenwerking met ValueCare. Pas na goedkeuring wordt deze in productie genomen. | # Oplevering en test: Elke actielijst die op basis van het LLM wordt gegenereerd, wordt door de klant getest in samenwerking met ValueCare. Pas na goedkeuring wordt deze in productie genomen. | ||
# Jaarlijkse herbeoordeling: Elk jaar worden er steekproefsgewijs controles uitgevoerd, waarbij menselijke experts opnieuw verslaglegging beoordelen. De resultaten worden vergeleken met de uitkomsten van het LLM, om zo de kwaliteit en betrouwbaarheid continu te blijven monitoren en verbeteren. | # Jaarlijkse herbeoordeling: Elk jaar worden er steekproefsgewijs controles uitgevoerd, waarbij menselijke experts opnieuw verslaglegging beoordelen. De resultaten worden vergeleken met de uitkomsten van het LLM, om zo de kwaliteit en betrouwbaarheid continu te blijven monitoren en verbeteren. | ||
== Stroomschema: LLM op Consulten == | |||
'''Volgorde LLM-controles''' | |||
Aangezien er veel data door het Large Language Model gaat, waarbij die voor consulten ook nog eens van elkaar afhankelijk is, is er besloten om een bepaalde volgorde toe te passen wat betreft het testen en in productie nemen van de controles. De volgorde is als volgt: | |||
'''Stap 1:''' [[N6499]] - Is verslag te beoordelen? | |||
'''Nee''' → Op N6499 (Stop) | |||
'''Ja''' → Volgende stap | |||
'''↓''' | |||
'''Stap 2:''' [[N6503]] - Blijkt uit verslag dat consult feitelijk is geleverd? | |||
'''Nee''' → Op N6503 (Stop) | |||
'''Ja''' → Volgende stap | |||
'''↓''' | |||
'''Stap 3:''' [[N6502]] - Blijkt uit verslag dat consult behandelinhoudelijk was? | |||
'''Nee''' → Op N6502 (Stop) | |||
'''Ja''' → Consult goedgekeurd | |||
'''↓''' | |||
'''Stap 4:''' Verder naar controles: | |||
• Reistijd (N6510) | |||
• Tolk (N6512) | |||
• Diagnostiek/behandeling (N6507/N6508) | |||
== Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles == | == Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles == | ||
| Regel 28: | Regel 73: | ||
#* De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema. | #* De controle wordt ingericht aan de hand van een vooraf ontwikkelde prompt die aansluit bij het betreffende controlethema. | ||
# Initiële testperiode en evaluatie | # Initiële testperiode en evaluatie | ||
#* | #* Analyse van de F1-score | ||
#* | #* LLM uitvoeren over meerdere dagen | ||
#* Iteratief verbeteren | |||
# Goedkeuring en livegang | # Goedkeuring en livegang | ||
#* Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet. | #* Na goedkeuring door de instelling (in overleg met de ValueCare consultant of data-specialist) wordt de controle live gezet. | ||