FAQ - Digitale Assistent GGZ: verschil tussen versies
Naar navigatie springen
Naar zoeken springen
| Regel 102: | Regel 102: | ||
De Digitale Assistent neemt een gesprek op, transcribeert het gesprek met een AI taalmodel en maakt op basis van de transcriptie een samenvattend verslag met een generatief AI taalmodel. Al deze stappen samen bepalen de kwaliteit van de verslagen. Hieronder volgt een uitleg van de borging van de kwaliteit. | De Digitale Assistent neemt een gesprek op, transcribeert het gesprek met een AI taalmodel en maakt op basis van de transcriptie een samenvattend verslag met een generatief AI taalmodel. Al deze stappen samen bepalen de kwaliteit van de verslagen. Hieronder volgt een uitleg van de borging van de kwaliteit. | ||
'''Opnemen gesprek (audio)''' | '''<u>Opnemen gesprek (audio)</u>''' | ||
Factoren als een gebrekkige microfoon of een te grote afstand tot de microfoon beïnvloeden de kwaliteit van de audio. De User Interface van de Digitale Assistent geeft aan of het geluid voldoende sterk is. | Factoren als een gebrekkige microfoon of een te grote afstand tot de microfoon beïnvloeden de kwaliteit van de audio. De User Interface van de Digitale Assistent geeft aan of het geluid voldoende sterk is. | ||
'''Transcriberen gesprek''' | '''<u>Transcriberen gesprek</u>''' | ||
De | ValueCare staat voor kwalitatief goede transcripties. De kwaliteit van de transcripties borgen we door: | ||
Analyses op testaudio tonen aan dat het ValueCare speech-to-text model een WER tussen de 1.5% en 4.5% heeft, de transcripties zijn dus minstens 95% accuraat! | * '''Inzet state of art taalmodellen''' '''- Testen en evalueren van nieuwe taalmodellen''': We gebruiken momenteel Whisper Turbo, we volgen nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het transcriberen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze transcripties verder te verhogen. | ||
* '''Finetuning van taalmodel (Whisper):''' We voeren een aanvullende training uit op een eigen dataset. Deze dataset bevat audio-opnames en transcripties die gericht zijn op domeinspecifieke termen, zoals "intakegesprek", "lorazepam" of bv “WMO”. In de regel ontwikkelen we elke kwartaal een volgend verbeterd taalmodel om zo de Word Error Rate (WER) verder te verlagen. Indien nodig, kunnen we snel schakelen als er bepaalde woorden structureel verkeerd getranscribeerd worden die belangrijk zijn voor de kwaliteit van het verslag. | |||
* '''Kwaliteitsmeting transcriptie''': ValueCare meet de kwaliteit van transcripties middels de Word Error Rate (WER). Deze maatstaf wordt gebruikt om een gegenereerde transcriptie te vergelijken met een zelfgemaakte benchmark-transcriptie (ground-truth). De WER geeft aan welk percentage van de woorden in de gegenereerde transcriptie niet overeenkomt met de benchmark. De WER wordt berekend met de volgende formule: (#Substituties+#Invoegingen+#Verwijderingen) / (#Woorden in benchmark transcriptie) Met: - Substituties: Woorden in de transcriptie die verschillen van de benchmark. - Invoegingen: Woorden die in de transcriptie staan maar niet in de benchmark - Verwijderingen: Woorden die in de benchmark staan maar ontbreken in de transcriptie. Analyses op testaudio tonen aan dat het ValueCare speech-to-text model een WER tussen de 1.5% en 4.5% heeft, de transcripties zijn dus minstens 95% accuraat! Naast deze geaggregeerde analyse heeft ValueCare ook een tool ontwikkeld om de substituties, invoegingen en verwijderingen te kunnen analyseren. Het gros hiervan betreft non-informatieve woorden, die geen negatieve invloed op het uiteindelijke verslag hebben. Soms betreft het domeinspecifieke woorden zoals medicijnnamen en ziektebeelden die wel informatief zijn. ValueCare verzamelt deze woorden en gebruikt ze om het taalmodel te finetunen en zo tot een nog lagere WER en nog betere verslagen te komen. | |||
'''<u>Maken samenvattend verslag</u>''' | |||
ValueCare staat voor kwalitatief goede transcripties. De kwaliteit van de transcripties borgen we door: | |||
* '''Inzet state of art taalmodellen - Testen en evalueren van nieuwe taalmodellen''': We gebruiken momenteel GPT-4o van OpenAI. Dit taalmodel an sich kunnen we zelf niet verder trainen. Wel volgen we nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het genereren van verslagen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze verslagen verder te verhogen. | |||
* '''Aanpassing van prompts op basis van feedback''': We verzamelen doorlopend feedback bij behandelaren en doen analyses op de wijzigingen die worden gemaakt op onze verslagen. Daarop passen we onze prompts aan. Dit proces helpt ons om steeds nauwkeurigere en relevantere verslagen te maken die beter aansluiten bij de verwachtingen van de gebruikers. | |||
* '''AI-evaluator voor controle op verslagen''': We gebruiken een zelf ontwikkeld LLM-Evaluator tool dat automatisch controleert of er in een verslag informatie staat die niet in de oorspronkelijke transcriptie te vinden is (hallucinaties). Deze evaluator beoordeelt voor elk {transcriptie, verslag}-koppel of er hallucinaties zijn opgetreden. Door dit te benchmarken met een betrouwbare referentieset waarvan we zeker weten of er gehallucineerd is of niet, kunnen we voor nieuwe verslagen met een 95%-foutmarge aangeven of een verslag hallucinaties bevat (en zo ja, wat de hallucinaties zijn). Deze AI-evaluator wordt ook verder ontwikkeld voor andere meetdomeinen, zoals volledigheid, relevantie, beknoptheid etc. | |||
Bij het beoordelen van een samenvattend verslag zijn de volgende punten van belang: | Bij het beoordelen van een samenvattend verslag zijn de volgende punten van belang: | ||
* Hallucinaties: heeft het taalmodel tekst toegevoegd die onjuist, onzinnig of misleidend is? | * Hallucinaties: heeft het taalmodel tekst toegevoegd die onjuist, onzinnig of misleidend is? | ||
| Regel 131: | Regel 134: | ||
ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken". | ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken". | ||
'''Technisch geslaagd''' | '''<u>Technisch geslaagd</u>''' | ||
Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd". | Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd". | ||