Versie van 21 nov 2024 08:31

Inleiding

Behoefte

Door toenemend personeelstekort en stijgende wachtlijsten is de druk op behandelaren groot. Verwachting is dat deze trend zich door vergrijzing en uitstroom zal voortzetten en daarmee komt ook de (toegankelijkheid van) zorg aan cliënten in de knel.

Om dit te keren willen de GGZ-instellingen in het netwerk van ValueCare met behulp van AI-technologie en digitalisering de administratieve lastendruk bij behandelaren sterk verminderen. Dit moet leiden tot een transformatie in de manier van werken van behandelaren én daarmee een enorme besparing op indirecte tijd, meer tijd voor de cliënt en meer werkplezier.

Oplossing: de digitale assistent voor de behandelaar

ValueCare ontwikkelt een digitale assistent voor de behandelaar waarmee ondersteuning wordt geboden op de volgende gebieden:

Voorbereiding: samenvatting eerdere gesprekken met cliënt, koppeling aan doelen
Verslaglegging: opnemen gesprek met cliënt en automatisch aanmaken verslag
Auto-registratie: administratieve afhandeling na gesprek met cliënt (registratieve verplichtingen).

Wat toont deze wiki?

Deze wiki geeft antwoorden op veelgestelde vragen over de ValueCare Digitale Assistent GGZ.

Digitale Assistent: verslaglegging

Algemene vragen

Wat doet de Digitale Assistent ter ondersteuning van verslaglegging?

De Digitale Assistent is een hulpmiddel dat gebruikt wordt in de GGZ voor het opnemen en transcriberen van intakegesprekken, behandelgesprekken, triagegesprekken en algemene gesprekken. Het systeem kan deze opnames vervolgens samenvatten op basis van specifieke opbouw (prompts) die relevant zijn voor het gekozen type gesprek.

Hoe werkt de Digitale Assistent ter ondersteuning van verslaglegging?

De assistent neemt het gesprek op, zet de opname om in tekst (transcriptie), en gebruikt dan vooraf ingestelde prompts om de belangrijkste punten en besluiten samen te vatten.

Is de Digitale Assistent veilig en vertrouwelijk?

Ja, de assistent voldoet aan de strenge beveiligings- en privacyrichtlijnen van de GGZ instelling. Alle opnames en transcripties worden veilig opgeslagen en zijn alleen toegankelijk voor geautoriseerd personeel. Insteek is daarnaast dat het EPD de juiste plek voor het bewaren van de gespreksverslagen is. Zodra het verslag in het EPD staat, worden gegevens in de Digitale Assistent verwijderd.

Hoe kan ik het beste uitleg geven aan de cliënt?

Het is erg belangrijk om de cliënt goed te informeren. Via de volgende link is een voorbeeld tekst beschikbaar voor communicatie met de cliënt: FAQ - Digitale Assistent GGZ cliënt informatie

Instructie Digitale Assistent ter ondersteuning van verslaglegging

De instructie voor het gebruik van de Digitale Assistent kunt u vinden in de volgende PDF: Instructie Digitale Assistent.pdf

Vragen bij gebruik van de Digitale Assistent ter ondersteuning van verslaglegging

Hoe start ik een opname op een laptop voor een face2face gesprek?

U kunt een opname starten door naar de website van de Digitale Assistent te gaan, de opname knop in te drukken, de benodigde gegevens zoals cliëntnaam en cliëntnummer in te vullen, het type gesprek te kiezen en op de opnameknop te drukken. Zorg ervoor dat alle deelnemers aan het gesprek op de hoogte zijn van de opname en hun toestemming hebben gegeven.

Voor welke type gesprekken kan ik automatisch verslagen maken?

Op dit moment is het mogelijk om voor de meest voorkomende gesprekken automatisch verslagen te maken. De bibliotheek aan type gesprekken wordt voortdurend uitgebreid. Ga voor een inzicht in de beschikbare type gesprekken naar de volgende pagina: Digitale Assistent GGZ - Bibliotheek

Hoe start ik een opname op een telefoon voor een face2face gesprek??

U volgt dezelfde procedure als op een laptop. U gaat dus via een web browser naar de website van de Digitale Assistent. Er is geen speciale app nodig.

Hoe start ik een opname op een telefoon voor een telefoon gesprek?

Voorlopig is de volgende werkwijze van toepassing: u start een opname op uw laptop, u belt uw cliënt per telefoon en zet de telefoon op speaker.

Hoe zie ik dat de opname daadwerkelijk loopt?

Er verschijnt een ring rond de opname knop. Die beweegt met het geluid. Let er op dat het geluid van alle aanwezigen een beweging van de ring geeft.

Is er speciale opname apparatuur nodig?

Nee. Vaak is de microfoon van de laptop goed genoeg. Bij desktops is de microfoon vaak geblokkeerd. Bij oudere desktops is het verstandig een externe microfoon te gebruiken. Er zijn goedkopere microfoons en wat duurdere (Jabra =100 EUR). De microfoon van telefoons is in de regel ook goed genoeg.

Kan ik mijn laptop dichtklappen tijdens de opname?

Nee, dat kan niet. Dan stopt de opname.

Kan ik de opname pauzeren of stoppen?

Ja, tijdens het gesprek kunt u de opname op elk moment pauzeren of stoppen door op de desbetreffende knoppen te drukken. Dit is vooral handig voor langere gesprekken, pauzes of gesprekken in verschillende delen.

Kan ik een gespreksopname starten zonder internet verbinding (wifi)?

Nee, dat kan niet. De gegevens worden niet op het locale apparaat (laptop, telefoon, tablet) opgeslagen, maar op een server van de instelling.

Is het een probleem als er gebruik gemaakt wordt van een hotspot bij een cliënt?

Nee, dat is geen probleem. In de regel is alleen een open internet verbinding nodig. Bij enkele zorginstellingen is daarnaast nog een VPN nodig, maar deze onnodige stap wordt samen met deze zorginstellingen binnen afzienbare tijd verwijderd.

Wat gebeurt er als de wifi verbinding uitvalt tijdens de opname?

Dan loopt de opname gewoon door. De opname wordt gebufferd. Zodra er weer wifi is, dan wordt de opname weer op de server opgeslagen.

Is er een probleem met de laptop in slaapstand?

De applicatie zorgt er voor dat de laptop niet in slaapstand gaat.

Wat gebeurt er nadat het gesprek is opgenomen?

Na de opname wordt het gesprek automatisch getranscribeerd en omgezet in een verslag op basis van het gekozen verslagtype. U ontvangt het verslag en het is mogelijk de transcriptietekst in te zien door op 'Toon transcriptie' te drukken.

Kan ik eerdere opnames terugvinden?

Ja, alle opnames worden veilig opgeslagen en kunnen worden teruggevonden via de knop 'Toon opnames' in de interface van de digitale opname assistent. U kunt alleen uw eigen opgenomen gesprekken inzien.

Hoe gebruik ik de Assistent in combinatie met Microsoft Teams?

Ga voor een beschrijving naar de volgende pagina: FAQ - Digitale Assistent MS Teams

Transcripties en Samenvattingen

Hoe lang duurt het voordat de transcriptie klaar is?

De tijd die nodig is voor het transcriberen van een gesprek kan variëren, maar meestal ontvangt u de transcriptie binnen enkele minuten na afloop van het gesprek.

Kan ik de transcriptie en samenvatting aanpassen?

Ja, u kunt de transcriptie en samenvatting doorlezen en waar nodig aanpassingen maken. Het is belangrijk dat u de inhoud controleert op juistheid en volledigheid.

Hoe kies ik het juiste type verslag voor mijn gesprek?

Bij het starten van een opname kunt u kiezen uit verschillende types. Selecteer de type die het beste past bij het doel van uw gesprek.

Technische Ondersteuning

Wat moet ik doen als de opname assistent niet werkt?

Controleer eerst of uw apparaat is verbonden met het internet en dat de microfoon correct functioneert. U kunt controleren of de microfoon werkt door te kijken of de blauwe cirkel groter of kleiner wordt tijdens de opname. Als het probleem aanhoudt, neem dan contact op met de technische ondersteuning van de GGZ-instelling en/of de contactpersoon van ValueCare.

Wat moet ik doen als mijn geluid niet wordt opgenomen bij gebruik van de browser Chrome?

Check eerst of het geluid wel goed wordt opgenomen met de browser Edge. Als het geluid nu wel goed wordt opgenomen, dan ligt het niet aan een algemene setting van de laptop/desktop. Neem contact op met uw ICT helpdesk om de instellingen in Chrome goed te zetten.

Wat moet ik doen na inloggen bij langdurig bericht "Bezig met laden"?

Er zou een cache probleem kunnen zijn. De browser gebruikt eerst opgeslagen pagina's in de cache en probeert daarna pas een nieuwe pagina op te halen. Het helpt meestal om dan de pagina met het bericht "Bezig met laden" opnieuw te laden met Ctrl-F5. Je forceert dan dat de pagina niet uit de cache wordt gehaald. Mocht dit niet werken, dan helpt het om eerst de cache te verwijderen via Ctrl-Shift-Del.

Hoe kan ik contact opnemen met technische ondersteuning?

Voor technische ondersteuning kunt u contact opnemen via het interne ondersteuningsportaal van de GGZ of telefonisch via [telefoonnummer].

Welke statussen van een gesprek kent de applicatie aan de techniek kant?

In de lijst met opnames is de status van een opname in te zien door administrators. De volgende statussen worden gebruikt in de applicatie:

Aan het opnemen
Bezig met transcriberen
Transcriberen mislukt
Transcriptie voltooid
Bezig met genereren verslag
Verslag genereren mislukt
Verslag voltooid
Verslag voltooid, na fouten

Kwaliteit en resultaten

Hoe wordt de kwaliteit van de verslagen van de Digitale Assistent geborgd?

De Digitale Assistent neemt een gesprek op, transcribeert het gesprek met een AI taalmodel en maakt op basis van de transcriptie een samenvattend verslag met een generatief AI taalmodel. Al deze stappen samen bepalen de kwaliteit van de verslagen. Hieronder volgt een uitleg van de borging van de kwaliteit.

Opnemen gesprek (audio)

Factoren als een gebrekkige microfoon of een te grote afstand tot de microfoon beïnvloeden de kwaliteit van de audio. De User Interface van de Digitale Assistent geeft aan of het geluid voldoende sterk is.

Transcriberen gesprek

ValueCare staat voor kwalitatief goede transcripties. De kwaliteit van de transcripties borgen we door:

Inzet state of art taalmodellen - Testen en evalueren van nieuwe taalmodellen: We gebruiken momenteel Whisper Turbo, we volgen nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het transcriberen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze transcripties verder te verhogen.
Finetuning van taalmodel (Whisper): We voeren een aanvullende training uit op een eigen dataset. Deze dataset bevat audio-opnames en transcripties die gericht zijn op domeinspecifieke termen, zoals "intakegesprek", "lorazepam" of bv “WMO”. In de regel ontwikkelen we elke kwartaal een volgend verbeterd taalmodel om zo de Word Error Rate (WER) verder te verlagen. Indien nodig, kunnen we snel schakelen als er bepaalde woorden structureel verkeerd getranscribeerd worden die belangrijk zijn voor de kwaliteit van het verslag.
Kwaliteitsmeting transcriptie: ValueCare meet de kwaliteit van transcripties middels de Word Error Rate (WER). Deze maatstaf wordt gebruikt om een gegenereerde transcriptie te vergelijken met een zelfgemaakte benchmark-transcriptie (ground-truth). De WER geeft aan welk percentage van de woorden in de gegenereerde transcriptie niet overeenkomt met de benchmark. De WER wordt berekend met de volgende formule: (#Substituties+#Invoegingen+#Verwijderingen) / (#Woorden in benchmark transcriptie) Met: - Substituties: Woorden in de transcriptie die verschillen van de benchmark. - Invoegingen: Woorden die in de transcriptie staan maar niet in de benchmark - Verwijderingen: Woorden die in de benchmark staan maar ontbreken in de transcriptie. Analyses op testaudio tonen aan dat het ValueCare speech-to-text model een WER tussen de 1.5% en 4.5% heeft, de transcripties zijn dus minstens 95% accuraat! Naast deze geaggregeerde analyse heeft ValueCare ook een tool ontwikkeld om de substituties, invoegingen en verwijderingen te kunnen analyseren. Het gros hiervan betreft non-informatieve woorden, die geen negatieve invloed op het uiteindelijke verslag hebben. Soms betreft het domeinspecifieke woorden zoals medicijnnamen en ziektebeelden die wel informatief zijn. ValueCare verzamelt deze woorden en gebruikt ze om het taalmodel te finetunen en zo tot een nog lagere WER en nog betere verslagen te komen.

Maken samenvattend verslag

ValueCare staat voor kwalitatief goede transcripties. De kwaliteit van de transcripties borgen we door:

Inzet state of art taalmodellen - Testen en evalueren van nieuwe taalmodellen: We gebruiken momenteel GPT-4o van OpenAI. Dit taalmodel an sich kunnen we zelf niet verder trainen. Wel volgen we nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het genereren van verslagen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze verslagen verder te verhogen.
Aanpassing van prompts op basis van feedback: We verzamelen doorlopend feedback bij behandelaren en doen analyses op de wijzigingen die worden gemaakt op onze verslagen. Daarop passen we onze prompts aan. Dit proces helpt ons om steeds nauwkeurigere en relevantere verslagen te maken die beter aansluiten bij de verwachtingen van de gebruikers.
AI-evaluator voor controle op verslagen: We gebruiken een zelf ontwikkeld LLM-Evaluator tool dat automatisch controleert of er in een verslag informatie staat die niet in de oorspronkelijke transcriptie te vinden is (hallucinaties). Deze evaluator beoordeelt voor elk {transcriptie, verslag}-koppel of er hallucinaties zijn opgetreden. Door dit te benchmarken met een betrouwbare referentieset waarvan we zeker weten of er gehallucineerd is of niet, kunnen we voor nieuwe verslagen met een 95%-foutmarge aangeven of een verslag hallucinaties bevat (en zo ja, wat de hallucinaties zijn). Deze AI-evaluator wordt ook verder ontwikkeld voor andere meetdomeinen, zoals volledigheid, relevantie, beknoptheid etc.

Bij het beoordelen van een samenvattend verslag zijn de volgende punten van belang:

Hallucinaties: heeft het taalmodel tekst toegevoegd die onjuist, onzinnig of misleidend is?
Relevantie: heeft het taalmodel de relevante informatie opgepikt en geen niet nuttige informatie toegevoegd?
Volledigheid: is het taalmodel volledig in het weergeven van de relevante informatie?

ValueCare heeft een LLM-Evaluator gemaakt die test op Hallucinaties. De LLM-Evaluator neemt als input een transcriptie en toetst of de output onwaarheden bevat tov de input (zogenoemde hallucinaties). De LLM-Evaluator beoordeelt de verslagen op het al dan niet voorkomen van hallucinaties. De LLM-Evaluator is gebenchmarkt met echte gegevens in een confusion matrix. Aanname is dat de gebruikte prompt in orde is.

ValueCare heeft daarnaast de mogelijkheid om de gebruiker te vragen om een oordeel. Via de feedbacktabel "Beheer Digitale Assistent - Analyse gesprekken" kan de gebruiker aangeven wat de kwaliteit van het verslag was, hoeveel tijd er bespaard is en opmerkingen over het verslag teruggeven. Deze manier heeft als nadeel dat de gebruiker een extra inspanning wordt gevraagd.

ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken".

Technisch geslaagd

Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd".

Hoe wordt de tijdswinst bij het maken van verslagen gemeten?

ValueCare heeft de mogelijkheid om de gebruiker te vragen om een oordeel. Via de feedbacktabel "Beheer Digitale Assistent - Analyse gesprekken" kan de gebruiker aangeven wat de kwaliteit van het verslag was, hoeveel tijd er bespaard is en opmerkingen over het verslag teruggeven. Deze manier heeft als nadeel dat de gebruiker een extra inspanning wordt gevraagd. ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen.

Gegevens opslag

Welke data wordt opgeslagen?

De opname, de transcriptie en het gespreksverslag worden opgeslagen op de ValueCare server gedurende de bewaartermijn. Ter info: De bewaartermijn kan worden ingesteld per instelling. Insteek is dat het EPD de juiste plek voor het bewaren van de gespreksverslagen is.

Hoelang worden de opname, transcriptie en gespreksverslag opgeslagen?

De opname, de transcriptie en het gespreksverslag worden opgeslagen op de ValueCare server gedurende de bewaartermijn. De bewaartermijn kan worden ingesteld per instelling. Insteek is dat het EPD de juiste plek voor het bewaren van de gespreksverslagen is.

Wie kunnen er bij de opname, transcriptie en gespreksverslag?

Een gebruiker kan alleen zijn eigen gegevens zien. Een gebruiker kan gedurende de bewaartermijn de transcriptie en het gespreksverslag inzien. De audio is niet toegankelijk voor gebruikers.

Worden de data binnen de EU opgeslagen?

Ja, er wordt voldaan aan de wettelijke bepalingen rond het opslaan van gegevens.

Beveiliging en privacy

Welke maatregelen zijn getroffen voor beveiliging en privacy rondom Networked AI?

Eigen dedicated machines in eigen datacenter: Voor zware AI-taken gebruikt ValueCare speciale machines met hoge rekenkracht, waardoor taken sneller en efficiënter worden uitgevoerd zonder dat de gegevens de beveiligde omgeving verlaten.
Private AI Instances: Grote AI-modellen draaien op een privé-instantie van de Open AI Azure-service, wat betekent dat de gegevens niet worden gedeeld of gebruikt voor training buiten de specifieke toepassing. Er wordt dus gegarandeerd dat de data niet wordt verspreid.
Strikte Beheersingsmaatregelen: Er zijn meerdere lagen van beveiliging, zoals firewalls en toegangsbeheer, om ervoor te zorgen dat gegevens veilig blijven binnen het ValueCare-netwerk.
Interne toetsing: Elk ValueCare AI-systeem is intern uitgebreid getoetst en is geaccordeerd door de klant voorafgaand aan de in productie name.
Externe Toetsing: ValueCare laat haar AI-systemen toetsen door een externe IT-auditor om te garanderen dat de gegevens veilig en correct worden gebruikt. De rapportages van de audits zijn voor klanten beschikbaar.

Kort samengevat: Voor elke klant een geïsoleerde, strikt gescheiden gegevensverwerking, conform NEN 7512 met meerdere lagen afgeschermd.

Welke gegevens worden gebruikt om de taalmodellen te trainen?

Er zijn 2 taalmodellen:

Transcriptie taalmodel.
Samenvatting taalmodel.

Het generieke transcriptie taalmodel kent bepaalde woorden niet. Deze woorden worden door ValueCare toegevoegd aan het generieke taalmodel. Dat noem je finetunen. Per klant wordt een aparte instantie van het generieke taalmodel gebruikt. Hiermee worden datastromen van klanten apart gehouden, een voorwaarde uit beveiliging oogpunt. Aan elke instantie wordt een generieke ValueCare finetuning toegevoegd. De input voor de finetuning komt uit transcripties bij de diverse klanten. De volgende elementen uit de transcripties worden gebruikt voor het finetunen van het AI transcriptie taalmodel: namen van instellingen, medicijnen, GGZ specifieke termen, klant specifieke termen. Er worden dus GEEN cliënt- en medewerker namen gebruikt!

De performance van het generieke samenvatting taalmodel wordt vooral verbeterd met betere prompts. Input voor de verbetering zijn de wijzigingen die gebruikers maken in de verslagen. Er worden geen privacy gevoelige gegevens gebruikt bij deze verbeteringen. Prompts bevatten simpelweg geen privacy gevoelige gegevens.

@@ Regel 102: / Regel 102: @@
 De Digitale Assistent neemt een gesprek op, transcribeert het gesprek met een AI taalmodel en maakt op basis van de transcriptie een samenvattend verslag met een generatief AI taalmodel. Al deze stappen samen bepalen de kwaliteit van de verslagen. Hieronder volgt een uitleg van de borging van de kwaliteit.
-'''Opnemen gesprek (audio)'''
+'''<u>Opnemen gesprek (audio)</u>'''
 Factoren als een gebrekkige microfoon of een te grote afstand tot de microfoon beïnvloeden de kwaliteit van de audio. De User Interface van de Digitale Assistent geeft aan of het geluid voldoende sterk is.
-'''Transcriberen gesprek'''
+'''<u>Transcriberen gesprek</u>'''
-ValueCare staat voor kwalitatief goede transcripties. Daarom meet ValueCare de kwaliteit van transcripties middels de Word Error Rate (WER). Deze maatstaf wordt gebruikt om een gegenereerde transcriptie te vergelijken met een zelfgemaakte benchmark-transcriptie (ground-truth). De WER geeft aan welk percentage van de woorden in de gegenereerde transcriptie niet overeenkomt met de benchmark.
-De WER wordt berekend met de volgende formule:
+ValueCare staat voor kwalitatief goede transcripties. De kwaliteit van de transcripties borgen we door:
-(#Substituties+#Invoegingen+#Verwijderingen)/(#Woorden in benchmark transcriptie)
-Met
-	Substituties: Woorden in de transcriptie die verschillen van de benchmark.
-	Invoegingen: Woorden die in de transcriptie staan maar niet in de benchmark.
-	Verwijderingen: Woorden die in de benchmark staan maar ontbreken in de transcriptie.
-Analyses op testaudio tonen aan dat het ValueCare speech-to-text model een WER tussen de 1.5% en 4.5% heeft, de transcripties zijn dus minstens 95% accuraat!
+* '''Inzet state of art taalmodellen''' '''- Testen en evalueren van nieuwe taalmodellen''': We gebruiken momenteel Whisper Turbo, we volgen nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het transcriberen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze transcripties verder te verhogen.
+* '''Finetuning van taalmodel (Whisper):''' We voeren een aanvullende training uit op een eigen dataset. Deze dataset bevat audio-opnames en transcripties die gericht zijn op domeinspecifieke termen, zoals "intakegesprek", "lorazepam" of bv “WMO”. In de regel ontwikkelen we elke kwartaal een volgend verbeterd taalmodel om zo de Word Error Rate (WER) verder te verlagen. Indien nodig, kunnen we snel schakelen als er bepaalde woorden structureel verkeerd getranscribeerd worden die belangrijk zijn voor de kwaliteit van het verslag.
+* '''Kwaliteitsmeting transcriptie''': ValueCare meet de kwaliteit van transcripties middels de Word Error Rate (WER). Deze maatstaf wordt gebruikt om een gegenereerde transcriptie te vergelijken met een zelfgemaakte benchmark-transcriptie (ground-truth). De WER geeft aan welk percentage van de woorden in de gegenereerde transcriptie niet overeenkomt met de benchmark. De WER wordt berekend met de volgende formule: (#Substituties+#Invoegingen+#Verwijderingen) / (#Woorden in benchmark transcriptie) Met:  - Substituties: Woorden in de transcriptie die verschillen van de benchmark. - Invoegingen: Woorden die in de transcriptie staan maar niet in de benchmark - Verwijderingen: Woorden die in de benchmark staan maar ontbreken in de transcriptie. Analyses op testaudio tonen aan dat het ValueCare speech-to-text model een WER tussen de 1.5% en 4.5% heeft, de transcripties zijn dus minstens 95% accuraat! Naast deze geaggregeerde analyse heeft ValueCare ook een tool ontwikkeld om de substituties, invoegingen en verwijderingen te kunnen analyseren. Het gros hiervan betreft non-informatieve woorden, die geen negatieve invloed op het uiteindelijke verslag hebben. Soms betreft het domeinspecifieke woorden zoals medicijnnamen en ziektebeelden die wel informatief zijn. ValueCare verzamelt deze woorden en gebruikt ze om het taalmodel te finetunen en zo tot een nog lagere WER en nog betere verslagen te komen.
+'''<u>Maken samenvattend verslag</u>'''
+ValueCare staat voor kwalitatief goede transcripties. De kwaliteit van de transcripties borgen we door:
+* '''Inzet state of art taalmodellen - Testen en evalueren van nieuwe taalmodellen''': We gebruiken momenteel GPT-4o van OpenAI. Dit taalmodel an sich kunnen we zelf niet verder trainen. Wel volgen we nauwlettend de ontwikkelingen in de markt van taalmodellen. Als er nieuwe modellen verschijnen, voeren we kwalitatieve testen uit om te beoordelen of ze beter presteren in het genereren van verslagen. Wanneer een nieuw model beter blijkt te zijn, nemen we deze in productie om de kwaliteit van onze verslagen verder te verhogen.
+* '''Aanpassing van prompts op basis van feedback''': We verzamelen doorlopend feedback bij behandelaren en doen analyses op de wijzigingen die worden gemaakt op onze verslagen. Daarop passen we onze prompts aan. Dit proces helpt ons om steeds nauwkeurigere en relevantere verslagen te maken die beter aansluiten bij de verwachtingen van de gebruikers.
+* '''AI-evaluator voor controle op verslagen''': We gebruiken een zelf ontwikkeld LLM-Evaluator tool dat automatisch controleert of er in een verslag informatie staat die niet in de oorspronkelijke transcriptie te vinden is (hallucinaties). Deze evaluator beoordeelt voor elk {transcriptie, verslag}-koppel of er hallucinaties zijn opgetreden. Door dit te benchmarken met een betrouwbare referentieset waarvan we zeker weten of er gehallucineerd is of niet, kunnen we voor nieuwe verslagen met een 95%-foutmarge aangeven of een verslag hallucinaties bevat (en zo ja, wat de hallucinaties zijn). Deze AI-evaluator wordt ook verder ontwikkeld voor andere meetdomeinen, zoals volledigheid, relevantie, beknoptheid etc.
-Naast deze geaggregeerde analyse heeft ValueCare ook een tool ontwikkeld om de substituties, invoegingen en verwijderingen te kunnen analyseren. Het gros hiervan betreft non-informatieve woorden, die geen negatieve invloed op het uiteindelijke verslag hebben. Soms betreft het domeinspecifieke woorden zoals medicijnnamen en ziektebeelden die wel informatief zijn. ValueCare verzamelt deze woorden en gebruikt ze om het taalmodel te finetunen en zo tot een nog lagere WER en nog betere verslagen te komen.
-'''Maken samenvattend verslag'''
 Bij het beoordelen van een samenvattend verslag zijn de volgende punten van belang:
 * Hallucinaties: heeft het taalmodel tekst toegevoegd die onjuist, onzinnig of misleidend is?
@@ Regel 131: / Regel 134: @@
 ValueCare heeft ook de mogelijkheid om te meten wat het verschil is tussen het door de Digitale Assistent gegenereerde verslag en het verslag zoals het door de gebruiker is aangepast en verwerkt in het EPD/ECD. Het verschil geeft aan wat de tijdsinspanning was die de gebruiker heeft moeten doen om het verslag aan te passen. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage wijzgingen gesprekken".
-'''Technisch geslaagd'''
+'''<u>Technisch geslaagd</u>'''
 Gebruikers willen dat de Digitale Assistent altijd werkt. Dit aspect wordt gemeten door te checken of de audio, de transcriptie en het verslag zijn gegenereerd. De uitkomsten worden toegelicht in het dashboard "Digitale Assistent - Gebruiksoverzicht". De belangrijkste KPI is de tegel met daarin "Percentage gesprekken succesvol uitgevoerd".

FAQ - Digitale Assistent GGZ: verschil tussen versies