FAQ - Digitale Assistent GGZ: verschil tussen versies
Naar navigatie springen
Naar zoeken springen
| Regel 98: | Regel 98: | ||
* Verslag voltooid, na fouten | * Verslag voltooid, na fouten | ||
== | ==Kwaliteit en resultaten== | ||
===Hoe wordt de kwaliteit van de verslagen | ===Hoe wordt de kwaliteit van de verslagen van de Digitale Assistent geborgd?=== | ||
De Digitale Assistent neemt een gesprek op, transcribeert het gesprek met een AI taalmodel en maakt op basis van de transcriptie een samenvattend verslag met een generatief AI taalmodel. Al deze stappen samen bepalen de kwaliteit van de verslagen. Hieronder volgt een uitleg van de borging van de kwaliteit. | |||
'''Opnemen gesprek (audio)''' | |||
Factoren als een gebrekkige microfoon of een te grote afstand tot de microfoon beïnvloeden de kwaliteit van de audio. De User Interface van de Digitale Assistent geeft aan of het geluid voldoende sterk is. | |||
'''Transcriberen gesprek''' | |||
ValueCare staat voor kwalitatief goede transcripties. Daarom meet ValueCare de kwaliteit van transcripties middels de Word Error Rate (WER). Deze maatstaf wordt gebruikt om een gegenereerde transcriptie te vergelijken met een zelfgemaakte benchmark-transcriptie (ground-truth). De WER geeft aan welk percentage van de woorden in de gegenereerde transcriptie niet overeenkomt met de benchmark. | |||
De WER wordt berekend met de volgende formule: | |||
(#Substituties+#Invoegingen+#Verwijderingen)/(#Woorden in benchmark transcriptie) | |||
Met | |||
Substituties: Woorden in de transcriptie die verschillen van de benchmark. | |||
Invoegingen: Woorden die in de transcriptie staan maar niet in de benchmark. | |||
Verwijderingen: Woorden die in de benchmark staan maar ontbreken in de transcriptie. | |||
Analyses op testaudio tonen aan dat het ValueCare speech-to-text model een WER tussen de 1.5% en 4.5% heeft, de transcripties zijn dus minstens 95% accuraat! | |||
Naast deze geaggregeerde analyse heeft ValueCare ook een tool ontwikkeld om de substituties, invoegingen en verwijderingen te kunnen analyseren. Het gros hiervan betreft non-informatieve woorden, die geen negatieve invloed op het uiteindelijke verslag hebben. Soms betreft het domeinspecifieke woorden zoals medicijnnamen en ziektebeelden die wel informatief zijn. ValueCare verzamelt deze woorden en gebruikt ze om het taalmodel te finetunen en zo tot een nog lagere WER en nog betere verslagen te komen. | |||
'''Maken samenvattend verslag''' | |||
Bij het beoordelen van een samenvattend verslag zijn de volgende punten van belang: | |||
* Hallucinaties: heeft het taalmodel tekst toegevoegd die onjuist, onzinnig of misleidend is? | |||
* Relevantie: heeft het taalmodel de relevante informatie opgepikt en geen niet nuttige informatie toegevoegd? | |||
* Volledigheid: is het taalmodel volledig in het weergeven van de relevante informatie? | |||
ValueCare heeft een LLM-Evaluator gemaakt die test op Hallucinaties. De LLM-Evaluator neemt als input een transcriptie en toetst of de output onwaarheden bevat tov de input (zogenoemde hallucinaties). De LLM-Evaluator beoordeelt de verslagen op het al dan niet voorkomen van hallucinaties. De LLM-Evaluator is gebenchmarkt met echte gegevens in een confusion matrix. Aanname is dat de gebruikte prompt in orde is. | |||
ValueCare heeft daarnaast de mogelijkheid om de gebruiker te vragen om een oordeel. Via de feedbacktabel "Beheer Digitale Assistent - Analyse gesprekken" kan de gebruiker aangeven wat de kwaliteit van het verslag was, hoeveel tijd er bespaard is en opmerkingen over het verslag teruggeven. Deze manier heeft als nadeel dat de gebruiker een extra inspanning wordt gevraagd. | |||
ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken". | |||
'''Technisch geslaagd''' | |||
Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd". | |||
===Hoe wordt de tijdswinst bij het maken van verslagen gemeten?=== | ===Hoe wordt de tijdswinst bij het maken van verslagen gemeten?=== | ||
ValueCare heeft de mogelijkheid om de gebruiker te vragen om een oordeel. Via de feedbacktabel "Beheer Digitale Assistent - Analyse gesprekken" kan de gebruiker aangeven wat de kwaliteit van het verslag was, hoeveel tijd er bespaard is en opmerkingen over het verslag teruggeven. Deze manier heeft als nadeel dat de gebruiker een extra inspanning wordt gevraagd. ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. | ValueCare heeft de mogelijkheid om de gebruiker te vragen om een oordeel. Via de feedbacktabel "Beheer Digitale Assistent - Analyse gesprekken" kan de gebruiker aangeven wat de kwaliteit van het verslag was, hoeveel tijd er bespaard is en opmerkingen over het verslag teruggeven. Deze manier heeft als nadeel dat de gebruiker een extra inspanning wordt gevraagd. ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. | ||