Artikel geschreven door (27 januari, 2020)
Je komt thuis na een dag lang oeverloos vergaderen en home assistent Siri vraagt hoe je dag was. ‘Kon niet beter’, verzucht je, terwijl je je tas kreunend in de hoek smijt. Een invoelende assistent hoort aan de toon van je stem dat je in een slecht humeur bent. Hij raadt je de laatste aflevering van je favoriete serie aan en zegt, gezien je aanleg voor depressies, dat het misschien een goed idee is om je therapeut weer eens op te zoeken. Met onder meer dit beeld voor ogen werken allerlei wetenschappers en bedrijven aan technologieën die onze apparaten emotionele voelsprieten moeten geven, gebruikmakend van ons stemgeluid. Maar hoe realistisch is dit toekomstbeeld en zitten we eigenlijk wel op te wachten op automatische emotieherkenners?
Depressieve stem
Waarschijnlijk hoor je zelf wel of een collega ontzettend vrolijk is, of depressief. Zonder erbij na te denken, maak je aan de stem op of iemand zich ergert, of opgewonden is. Voor psychiaters geldt hetzelfde. Als ze tijdens een gesprek beoordelen hoe een patiënt eraan toe is, doen ze dat deels op basis van indrukken die lastig in regels zijn te vatten: hoe zit een patiënt erbij, hoe kijkt hij uit zijn ogen, wat heeft hij te vertellen? Ook het stemgeluid speelt een rol. Zo spreekt een depressieve persoon meestal monotoner, trager, zachter en minder veel dan iemand die zich kiplekker voelt. Waarschijnlijk zijn er ook verschillen in het stemgebruik die de psychiater niet oppikt. Bij het Universitair Medisch Centrum in Utrecht onderzoeken Janna de Boer en haar collega’s welke stemeigenschappen iets zeggen over ons geestelijk welzijn. Zelflerende computerprogramma’s analyseren allerlei aspecten van opgenomen gesprekken: geluidsaspecten zoals de spreeksnelheid, de intonatie, de pauzes en de toonhoogte van de stem, maar ook inhoudelijke aspecten zoals de samenhang en de complexiteit van de zin, de zinslengte en de grammaticale opbouw van een fragment. ‘Een psychiater kan tijdens een gesprek niet turven hoeveel pauzes iemand laat vallen, of hoeveel bijzinnen hij gebruikt tot hij tot zijn punt komt’, legt De Boer uit. ‘Een computer is daar juist heel goed in.’
Het is niet de bedoeling dat de computer de psychiater gaat vervangen - daarvoor is een diagnose nog veel te complex. Wel hopen de onderzoekers dat de technologie de psychiater in de toekomst kan ondersteunen. ‘Een derde van de mensen die een psychose ervaart, krijgt niet nogmaals een psychose’, zegt De Boer. ‘Toch krijgt iedereen na een psychose anti-psychosemedicatie, omdat we nog niet kunnen voorspellen wie er wel of niet gevoelig voor is.’ Als algoritmes dit wel kunnen doen op basis van de spraak (stemgeluid en woordkeuzes), zouden patiënten een app kunnen gebruiken om een vinger aan de pols te houden. Ze zouden om de zoveel tijd een spraakopname kunnen maken, die vervolgens inschat of de kans op terugval groot is. Hetzelfde geldt voor mensen met een depressie. Bij mensen met dementie of Alzheimer zou de app wellicht kunnen aangeven hoe ver de ziekte inmiddels al is gevorderd.
Zelflerende computers
De Boer en haar collega’s zijn bepaald niet de enigen in de wereld van de geestelijke gezondheidszorg die met stemanalyse grip proberen te krijgen op aandoeningen als autisme, Parkinson, psychose, posttraumatische stress en ga zo maar door. Dat dit soort toepassingen van stemanalyse juist de afgelopen jaren zo’n vaart neemt, is niet zo vreemd, vertelt Arjan van Hessen, onderzoeker aan de Universiteit Twente. ‘Onderzoek naar emotie gebeurt al heel lang, maar het lukte nooit om emoties in duidelijke regels uit te drukken’, vertelt hij. ‘Sinds 2010 is het onderzoek in de versnelling gekomen door de combinatie van snelle computers, grote hoeveelheden data en het gebruik van neurale netwerken.’ Neurale netwerken zijn zelflerende computerprogramma’s die op basis van heel veel, meestal door de mens gelabelde voorbeelden, zoeken naar verbanden tussen verschillende zaken - bijvoorbeeld het verband tussen een trillende stem en een bepaalde emotie. Omdit te kunnen doen, heb je heel veel spraakopnamen nodig waarvan bekend is op de spreker bv wel of niet depressief is, ofdat de spreker later wel of juist niet weer een psychose gehad heeft. Als er in de spraak cues zijn die redelijk voorspellen of iemand een verhoogde kans heeft op een nieuwe psychose, dan zou een neuraal netwerk kunnen leren om nieuwe spraakopnamen te voorzien van een label “kans op psychose”. Daarbij gaat het vaak om cues in de spraak (bv hogere spreeksnelheid in combinatie met lange pauzes tussen de woorden) waar mensen zelf helemaal niet bewust van zijn. Ook Van Hessen verwacht niet dat deze computerprogramma’s binnen afzienbare tijd zo accuraat zullen zijn, dat ze psychiaters zullen vervangen; het zal voorlopig vooral een artsen ondersteunende technologie zijn. ‘Maar als de technologie “voldoende goed is” en bv in een polshorloge kan worden ingebouwd, dan kan het wel een mooie steun zijn voor verplegend personeel of de patient in kwestie.’
Riccardo Fusaroli, onderzoeker aan de Deense Aarhus University, snapt het enthousiasme over de mogelijkheden van zelflerende computerprogramma’s voor de geestelijke gezondheidszorg. Hij waarschuwt echter voor ‘overfitting’, een verschijnsel dat hij veel tegenkwam bij programma’s die autisme opsporen aan de hand van stemgeluid. Allerlei onderzoeksgroepen claimen dat hun zelflerende algoritmes in zeventig of tachtig procent van de gevallen correct aangeven of iemand wel of niet autistisch is. In werkelijkheid, zegt Fusaroli, blijken die programma’s vooral goed afgestemd op de beperkte hoeveelheid stemmen die tijdens het onderzoek zijn gebruikt. Zodra dezelfde technologie op nieuwe proefpersonen wordt uitgeprobeerd, vallen de resultaten vaak tegen. ‘Er zijn veel startups die apps op dit vlak ontwikkelen, maar we hebben nog te weinig grip op de materie. Het is meer een langetermijn-optie, maar wel een veel belovende.’
Zorgrobots
Ook zorgrobots kunnen wel wat extra emotioneel inschattingsvermogen gebruiken. Om mensen met fysieke beperkingen beter van dienst te kunnen zijn, is het belangrijk om te begrijpen of iemand blij, geïrriteerd of boos op de robot reageert. Onderzoeker Khiet Truong van de Universiteit Twente onderzoekt onder meer wat zo’n robot uit onze stem kan opmaken. Ook zij benadrukt het geduld dat een robot aan de dag kan leggen voor het turven van hoorbare stemkenmerken. Niettemin zullen er belangrijke beperkingen blijven aan het empathische vermogen van een robot, waarschuwt de onderzoeker. ‘Als ik iemand hoor zeggen dat hij een emotieherkenningssysteem heeft ontworpen, gaan bij mij alle alarmbellen af. Op basis van beelden kunnen computerprogramma’s de zes basisemoties - blijdschap, woede, verdriet, angst afschuw en verrassing - wel herkennen. Maar geluid is veel complexer, spraak is erg persoonsafhankelijk. Zelfs als ik twee keer hetzelfde zeg, klinkt dat beide keren anders.’
Computers hebben bijvoorbeeld nog erg veel moeite om blijdschap te onderscheiden van woede, zeker als er allerlei omgevingsgeluiden zijn te horen. Wij mensen maken gretig gebruik van de context: hoe kijkt iemand erbij, waar gaat het gesprek over, wat is de situatie? Voor een computer is het inschatten van die context nog erg lastig. Wanneer de stem en de gezichtsuitdrukking worden gecombineerd, zijn de resultaten wel een stuk beter.
Marketing
Hoe complex de materie ook is, Google, Apple, Amazon en een keur aan startups zetten hun kaarten op automatische emotieherkenning. Niet alle vergezichten zijn alleen even nobel: wat te denken van marketingprogramma’s die stemanalyse gebruiken om meer te verkopen? Of van zorgverzekeraars die de klinkende aanwijzingen over onze gezondheid verwerken in hun polissen? Lambèr Royakkers, onderzoeker ethiek en techniek aan de Technische Universiteit Eindhoven, houdt zijn hart nu al vast.
‘Als gegevens over iemands gezondheid in handen komen van verzekeringsmaatschappijen, of van werkgevers, kunnen die daar misbruik van maken.’ Wat hem nog meer zorgen baart, is dat onze mentale en emotionele privacy onder druk kan komen te staan. ‘Dit soort technologieën zijn makkelijk in een app te implementeren. Stel dat de ander via het mobieltje kan zien hoe ik me voel. Wat ik denk en wat ik voel, wil ik privé houden.’
De ideale home assistent heeft emotionele voelsprieten en houdt rekening met context, maar ook met onze behoefte aan privacy.
Rembrandt’s stem en nep-noodkreten
‘Vooral zeg ik u: niemand, behoudens mij zelf, kan schilderen zoals Rembrandt!’ Begin dit jaar luisterden vele Nederlanders naar dit zinnetje, uitgesproken door ‘de stem van Rembrandt’. De stem was gereconstrueerd door wetenschappers van de Carnegie Mellon University. Dat deden zij door te kijken naar zijn zelfportretten en op basis van fysieke kenmerken met een computerprogramma te voorspellen hoe zijn stem moet hebben geklonken. Normaal doen de onderzoekers het omgekeerde: op basis van de stem trachten ze mensen in beeld te brengen. Hun zelflerende computerprogramma’s maken gebruik van zogenaamde micro-kenmerken van een stem: nauwelijks te horen geluidsnuances, veroorzaakt door, bijvoorbeeld, de breedte van de neusholte, de gebitsvorm, de lengte en het gewicht van de spreker, maar ook hun leeftijd en emotionele staat. Met die programma’s hopen ze onder meer mensen op te sporen die voor de grap bellen naar alarmnummers. |
Empathische auto
Wie dronken, doodmoe of witheet van woede achter het stuur kruipt, is op dat moment misschien niet de beste chauffeur. Verschillende autofabrikanten zoals Volvo, Citroën en BMW ontwikkelen momenteel technologieën om in te schatten hoe de bestuurder zich voelt. Gezichtsherkenning speelt daarbij een grote rol, maar ook stemanalyse kan van pas komen. Wetenschappers van de universiteit van Augsburg ontwikkelden software die woede, blijdschap, verdriet en irritatie uit onze stem kan detecteren. BMW test nu of deze software geschikt is om de chauffeurs van toekomstige BMW-modellen emotioneel te scannen. |
Schoenendoos
Een van de allereerste computers die betekenis uit stemgeluid wist te filteren, was de ‘Shoebox’ van IBM. De computer, die oogde als een schoenendoos, kon zestien gesproken woorden en de cijfers nul tot en met negen herkennen. Aan de zijkant zaten tien kleine lampjes met een cijfer eronder, die oplichtten als iemand het betreffende cijfer uitsprak. De Shoebox was een spraakmakende attractie tijdens de Wereldtentoonstelling in Seattle in 1962. De technologie zou belangrijk blijken voor de ontwikkeling van automatische spraakherkenning. |
DNA
Onze stem is net zo uniek als ons DNA: onze vrienden herkennen we feilloos aan hun stemgeluid zolang we die spraak maar goed kunnen horen (herkennen van sprekers over de ouderwetse telefoonlijnen is al een heel stuk moeilijker. Daar haal je nl. vrij makkelijk vader en zoons of moeder en dochters door elkaar). Ons lichaam is namelijk een uitzonderlijk instrument: de stembanden in je strottenhoofd die de lucht uit je longen de juiste trilling meegeven, je luchtpijp, je mondholte, je borstkas, je schedel, alles heeft invloed op het stemgeluid. Niettemin worden computers steeds beter in het imiteren van die stem. Zo presenteerde het Canadese bedrijf Lyrebird alweer twee jaar geleden een overtuigend geluidsfragment waarin de Amerikaanse president Trump een gezellig gesprek had met zijn voorganger Barack Obama. Het gesprek had nooit plaatsgevonden, maar was met behulp van zelflerende computerprogramma’s in elkaar geknutseld. |
Dit artikel is verschenen in Quest.