FAQ - Digitale Assistent GGZ: verschil tussen versies
Naar navigatie springen
Naar zoeken springen
| Regel 120: | Regel 120: | ||
* '''Inzet state of art taalmodellen - Testen en evalueren van nieuwe taalmodellen''': We gebruiken momenteel GPT-4o van OpenAI. Dit taalmodel an sich kunnen we zelf niet verder trainen. Wel volgen we nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het genereren van verslagen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze verslagen verder te verhogen. | * '''Inzet state of art taalmodellen - Testen en evalueren van nieuwe taalmodellen''': We gebruiken momenteel GPT-4o van OpenAI. Dit taalmodel an sich kunnen we zelf niet verder trainen. Wel volgen we nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het genereren van verslagen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze verslagen verder te verhogen. | ||
* '''Aanpassing van prompts op basis van feedback''': We verzamelen doorlopend feedback bij behandelaren en doen analyses op de wijzigingen die worden gemaakt op onze verslagen. Daarop passen we onze prompts aan. Dit proces helpt ons om steeds nauwkeurigere en relevantere verslagen te maken die beter aansluiten bij de verwachtingen van de gebruikers. | * '''Aanpassing van prompts op basis van feedback''': We verzamelen doorlopend feedback bij behandelaren en doen analyses op de wijzigingen die worden gemaakt op onze verslagen. Daarop passen we onze prompts aan. Dit proces helpt ons om steeds nauwkeurigere en relevantere verslagen te maken die beter aansluiten bij de verwachtingen van de gebruikers. | ||
* '''AI-evaluator voor controle op verslagen''': We gebruiken een zelf ontwikkeld LLM-Evaluator tool dat automatisch controleert of er in een verslag informatie staat die niet in de oorspronkelijke transcriptie te vinden is (hallucinaties). Deze evaluator beoordeelt voor elk {transcriptie, verslag}-koppel of er hallucinaties zijn opgetreden. Door dit te benchmarken met een betrouwbare referentieset waarvan we zeker weten of er gehallucineerd is of niet, kunnen we voor nieuwe verslagen met een 95%-foutmarge aangeven of een verslag hallucinaties bevat (en zo ja, wat de hallucinaties zijn). Deze AI-evaluator wordt ook verder ontwikkeld voor andere meetdomeinen, zoals volledigheid, relevantie, beknoptheid etc. | * '''AI-evaluator voor controle op verslagen''': We gebruiken een zelf ontwikkeld LLM-Evaluator tool dat automatisch controleert of er in een verslag informatie staat die niet in de oorspronkelijke transcriptie te vinden is (hallucinaties). Deze evaluator beoordeelt voor elk {transcriptie, verslag}-koppel of er hallucinaties zijn opgetreden. Door dit te benchmarken met een betrouwbare referentieset waarvan we zeker weten of er gehallucineerd is of niet, kunnen we voor nieuwe verslagen met een 95%-foutmarge aangeven of een verslag hallucinaties bevat (en zo ja, wat de hallucinaties zijn). Deze AI-evaluator wordt ook verder ontwikkeld voor andere meetdomeinen, zoals volledigheid, relevantie, beknoptheid etc. | ||
Het meten van de kwaliteit doen we op de volgende manieren: | |||
* '''Oordeel gebruiker vragen'''. ValueCare heeft de mogelijkheid om de gebruiker te vragen om een oordeel. Via de feedbacktabel "Beheer Digitale Assistent - Analyse gesprekken" kan de gebruiker aangeven wat de kwaliteit van het verslag was, hoeveel tijd er bespaard is en opmerkingen over het verslag teruggeven. Deze manier heeft als nadeel dat de gebruiker een extra inspanning wordt gevraagd. | |||
* '''Meten percentage aanpassingen'''. ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken". | |||
* '''Meten "Technisch geslaagd".''' Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd". | |||
ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken". | |||
''' | |||
Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd". | |||
===Hoe wordt de tijdswinst bij het maken van verslagen gemeten?=== | ===Hoe wordt de tijdswinst bij het maken van verslagen gemeten?=== | ||