GGZ AI - Large Language Models (LLM): verschil tussen versies
Naar navigatie springen
Naar zoeken springen
| (3 tussenliggende versies door 2 gebruikers niet weergegeven) | |||
| Regel 30: | Regel 30: | ||
'''Volgorde LLM-controles''' | '''Volgorde LLM-controles''' | ||
Dagelijks worden grote aantallen verslagen opgehaald en via prompting beoordeeld. Niet elk verslag hoeft echter door alle prompts gecontroleerd te worden. Zo is het bijvoorbeeld niet zinvol om te controleren of er een tolktoeslag geregistreerd had mogen worden als uit het verslag al blijkt dat er geen consult heeft plaatsgevonden. | |||
[[Bestand:StroomschemaLLM.png|geen|miniatuur|Stroomschema prompting controles]] | |||
Daarom wordt er gewerkt met een vaste volgorde, zoals weergegeven in onderstaand schema. De controle begint altijd met de vraag of een verslag überhaupt beoordeeld kan worden ([[Verslaglegging niet te beoordelen door model (N6499)|N6499]]). Daarna wordt vastgesteld of er daadwerkelijk een consult heeft plaatsgevonden ([[Verslaglegging duidt op mogelijk onterechte registratie van consult (N6503)|N6503]]). Vervolgens wordt gekeken of het om een behandelinhoudelijk consult gaat ([[N6502]]). | |||
Alleen de verslagen die deze eerste stappen doorstaan, komen in aanmerking voor de verdere prompting controles (zoals N6507, N6508, N6510, N6511, N6518, etc.; zie ook: [[AI - Automatisering Zorgregistratie (GGZ)|AI - Automatisering Zorgregistratie]]). Een overzicht van deze vervolgstappen is in de documentatie opgenomen. Deze volgordelijkheid wordt ook toegepast bij het implementeren van de prompting controles. Zo creëer je namelijk een zo zuiver mogelijke controle-massa voor de volgende controles die in productie genomen worden. [[Bestand:StroomschemaLLM.png|geen|miniatuur|Stroomschema prompting controles]] | |||
== Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles == | == Stappenplan: In Productie Nemen en Bijtrainen van LLM-controles == | ||
| Regel 72: | Regel 75: | ||
# Herhaling en continue cyclus | # Herhaling en continue cyclus | ||
#* Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 5. | #* Het markeren van beoordelingen en signaleren van verbeterpunten blijft doorlopen. Zodra opnieuw de drempel voor optimalisatie bereikt wordt, start het proces weer bij stap 5. | ||
[[Bestand: | [[Bestand:GGZZPMDA-2991 v5.drawio.png|geen|miniatuur|448x448px|Prompt verbeter-cyclus]] | ||
== Beheer AI: modelversies toelichting waarden == | |||
Om de kwaliteit van het taalmodel te beheren maken we gebruik van verschillende indicatoren die bepalend zijn voor het voorspellend vermogen van het taalmodel voor verslaglegging. Om een score te koppelen aan de kwaliteit van het model gebruiken we de F1 score. | |||
'''F1 score:''' de F1 score is een metriek die wordt gebruikt bij binaire classificatie en informatieopslag om de voorspellende prestaties te beoordelen. Het combineert precisie en recall tot een gemiddelde, waarbij beide even belangrijk worden geacht. De waarde varieert van 0 (slechtst) tot 1 (best), waarbij een score van 1 perfecte precisie en recall aangeeft. | |||
* '''Precisie''''':'' hoe vaak klopt het als het model iets als 'positief' aanduidt ten opzichte van alle voorspellingen. Oftewel: het aandeel positieven onder de voorspelde positieven. | |||
* '''Recall''' ''(volledigheid):'' hoeveel van de echte positieve gevallen heeft het model gevonden. Oftewel: het aandeel echte positieven dat is gevonden door het model onder de werkelijke positieven. Dit is belangrijk als je er zeker van wilt zijn dat je niets belangrijks mist. | |||
* '''Accuratesse''''':'' het percentage van alle gevallen (zowel positief als negatief) dat een model correct voorspelt. Het kijkt naar de totale prestaties van het model dus hoeveel van alle voorspellingen juist zijn. | |||
* '''Specificiteit''''':'' een waarde die de kans op een negatief resultaat weergeeft, ook wel '''true negative rate'''. Deze waarde geeft aan hoe vaak de afwezigheid van een bepaalde factor correct wordt geïdentificeerd. | |||
* '''Aantal prediction categorieën''': hoeveel klassen er zijn die voorspeld worden, bij de controles nu; behandelinhoudelijk correct of incorrect = 2. | |||