Hoe werkt het?

Stemklonen is de laatste hype binnen kunstmatige intelligentie. Zogenoemde synthetische stemmen kun je alles laten zeggen wat je maar wilt. Ook door beroemdheden. Hoe werkt dat? Hoe kun je de technologie nuttig gebruiken en wat zijn de gevaren? De Volkskrant ging zelf op onderzoek.

Door Laurens Verhagen en Simoon Hermus

Illustraties Sophia Twigt

Originele artikel 8 juli 2023, 05:00

Om iemand woorden in de mond leggen moet je sluwe retorische trucs uithalen, of iemand die zich veilig waant met een opname-apparaatje in je zak verleiden tot boude uitspraken. Althans, dat was zo. Nu kun je door een computer slechts enkele minuten van iemands stemgeluid te voeren al een behoorlijk realistische kloon maken met behulp van kunstmatige intelligentie – met enkele uren aan materiaal en de juiste technieken wordt die zelfs levensecht. Een synthetische versie van een stem, die je vervolgens alles kunt laten zeggen. Of zelfs zingen. Zo wil Paul McCartney de stem van John Lennon via AI oppoetsen om een nieuwe Beatles-opname te maken.

Hoe klinkt dat dan, zo’n synthetische stem?

Wat is een stemkloon?

Even terug naar de basis. Stemklonen, AI-stemmen, synthetische stemmen – waar hebben we het eigenlijk over? Een synthetische stem is een stem die niet wordt uitgesproken door een mens, maar die volledig is gegenereerd door computersoftware.

Om zo’n stem te maken moet je een algoritme trainen met grote hoeveelheden spraakdata. Het algoritme analyseert deze data en herkent vervolgens patronen zoals uitspraak, intonatie en klemtoon. Software past deze patronen toe om woorden uit te spreken. Een paar van deze stemmen ken je al: denk maar aan de stem in je navigatiesysteem of Google, die tekst in een vreemde taal aan je voor kan lezen. Het gaat om tekst-naar-spraaksystemen: geschreven tekst die door een synthetische stem wordt voorgelezen.

Een stemkloon is ook een synthetische stem, maar een stuk geavanceerder – deze klinkt, indien op de juiste manier verwerkt, precies als het menselijke origineel waar ze op is gebaseerd. Vervolgens kun je die stem van alles laten zeggen: in het Nederlands, maar ook in het Engels. Om zo’n stem te maken moet er van de persoon die gekloond wordt genoeg audiomateriaal bestaan. Hoe meer, hoe beter.

Hoe ga je te werk?

ElevenLabs, Descript, Resemble: online zijn er nu al veel progamma’s te vinden waarmee iedereen kan experimenteren met stemklonen. Zo kun je bij MetaVoice een halve minuut inspreken, om vervolgens jouw stem te transformeren tot een diepe, mannelijke bas of een hoge vrouwenstem – een leuk trucje, maar echt natuurlijk klinkt het niet.

Om zelf een overtuigende kloon te maken heb je wat meer nodig. Maikel van der Wouden en Phoebe Ohayon doen dit bij Whoozy, een bedrijf dat aanvankelijk ‘geluidjes’ maakte (de piepjes van een koffiezetapparaat, de notificaties van Flitsmeister) en zich nu vooral richt op synthetische stemmen.

Zij duiken de studio in met de persoon die gekloond wordt om vier uur bruikbaar materiaal te verzamelen – hoe snel het gaat, hangt af van het talent van de spreker die een speciaal script voorleest. Ohayon: ‘We weten precies wat iemand allemaal moet zeggen, om alles te kunnen zeggen wat je níét gezegd hebt.’ Het gaat hier niet alleen om de woorden, waarmee het algoritme leert hoe je bepaalde klanken uitspreekt, maar ook om intonatie: hoe klink jij als je boos bent, of enthousiast?

‘Nijvere hobbyisten hebben bijvoorbeeld de stem van Jay-Z gekloond, aan de hand van zijn nummers, maar als je hem een normale tekst wilt laten voorlezen klinkt dat heel raar. Want er is veel te weinig data beschikbaar van hoe hij dat doet’, zegt Van der Wouden.

Met de opgenomen data wordt een AI-model getraind, dat voorspellingen doet (in dit geval van de klank) op basis van de trainingsdata. Met een zogenoemd tekst-naar-spraak-systeem kan je de synthetische stem iets laten voorlezen wat je hebt ingetypt. Of je legt de kloon als een stemfilter over de opname van iemand anders heen. In het eerste geval zul je, voor een natuurlijk resultaat, een goed getraind model nodig hebben en waarschijnlijk zelf nog het een en ander moeten bijstellen; hier en daar een pauze inlassen, de toon iets hoger of juist lager draaien. Een mens voelt in een tekst aan waar de klemtonen moeten liggen, of een zin enthousiast of juist onheilspellend moet aanvoelen. Voor een algoritme is zoiets een stuk lastiger. Maar door de kloon over geluidsopname te leggen, kun je de kloon precies die intonatie laten volgen – dat klinkt een stuk natuurlijker.

Om nu echt een goede stem na te maken, heb je én een geluidsopname van hoge kwaliteit nodig, én de juiste software (die alleen kan draaien op krachtige computers) én iemand die handig is in het bewerken van audiofragmenten om oneffenheden weg te poetsen. Maar: de ontwikkelingen gaan heel hard. In het Engels kom je met huis-tuin-en-keukenapparatuur en -apps al een heel eind, omdat er veel meer audiomateriaal in die taal beschikbaar is en taalprogramma’s daarmee getraind zijn. Het zal niet lang duren voordat dit ook voor Nederlandse stemmen het geval zal zijn, voorspellen experts.

Wat is een stem eigenlijk?

Rob van SonHet klonen van een stem kun je volgens Rob van Son vergelijken met het maken van een karikatuur. Van Son is stemonderzoeker bij het Antoni van Leeuwenhoek-ziekenhuis in Amsterdam. ‘Imitators bootsen niet álles na van iemands stem, dat kan ook niet. Ze pakken de karakteristieke dingen eruit, de dingen die afwijken.’ Want wát een stem nu precies uniek maakt, is volgens Van Son nog een mysterie. ‘Ik heb ooit meegedaan aan een wedstrijd waarbij onderzoekers probeerden een stem anoniem te maken zonder intonatie of accent kwijt te raken. Dat bleek verbazingwekkend moeilijk. En als mensen ‘m niet meer herkennen, doet een computer dat vaak nog wel.’

Voor een geloofwaardige synthetische stem is een boel nodig, maar een menselijke stem is dan ook erg ingewikkeld. Van Son werkt onder meer met mensen die door keelkanker hun stembanden zijn verloren. ‘Je stembanden produceren een geluid dat een beetje klinkt alsof je op een trompet blaast’, zegt Van Son. Pfffft, doet hij voor door de telefoon, als een nijdig zoemende wesp.

Dat gezoem wordt vervolgens gefilterd door onder meer je keel-, neus- en mondholte – zo produceer je klinkers. Met je tong, tanden, kaak, lippen en wangen maak je van diezelfde onderbroken luchtstroom medeklinkers. ‘Jouw unieke geluid is een product van de anatomie van je gezicht en de manier waarop je deze spraakorganen beweegt. Dat is dan weer afhankelijk van waar je vandaan komt: de g of r wordt in verschillende delen van Nederland weer heel anders uitgesproken.’

Waarvoor worden stemklonen gebruikt?

Je hebt een goede kloon gemaakt (of er een van internet geplukt). Maar wat kun je er mee? Het laten voorlezen van tekst, zoals een krantenartikel, podcastscript of boek, is ineens veel minder arbeidsintensief, en dus een stuk goedkoper. NRC laat sinds kort artikelen voorlezen door de gekloonde stemmen van twee van de eigen auteurs. Er zijn al synthetische stemmen die e-books voorlezen, zoals bij Apple, maar nu kan de auteur dit ook zelf doen met maar een paar uurtjes werk. Straks kies je zelf je favoriete voorlezer – hoewel dit voor de stemacteur in kwestie natuurlijk een flinke aderlating betekent. Die is na een paar uur voorlezen niet meer nodig.

Bij podcasts hoef je niet meer opnieuw de studio in als je iets kleins bent vergeten op te nemen of kies je er misschien wel in z’n geheel voor om met synthetische stemmen een productie op te zetten. Of je laat ‘m door een bedrijf als het Nederlandse Resonar in het Engels, Spaans en Chinees vertalen om een hele nieuwe doelgroep te bereiken. Oprichter Diede van Vree legt uit hoe: ‘Met behulp van AI maak ik eerst een transcriptie van de podcast. Als ik de taal niet spreek, laat ik de tekst door een ander vertalen: eerst door AI, waarna een vertaler de tekst aanvult en aanpast waar nodig.’ Naast een goede vertaling houdt Van Vree rekening met culturele verschillen en geeft hij extra context waar nodig. De vertaalde tekst laat hij vervolgens door een synthetische stem of een kloon van de oorspronkelijke podcastmaker voorlezen.

Nog een stap verder is het maken van podcasts met de stemmen van beroemdheden, zonder dat ze die teksten ooit hebben uitgesproken. Dat kan zelfs met overledenen, als er maar genoeg audiomateriaal beschikbaar is. Met dank aan de overal beschikbare oude opnamen van Steve Jobs’ stem, vooral van productpresentaties, werd vorig jaar bijvoorbeeld de stem van de oprichter van Apple tot leven gewekt. In een podcast babbelde hij vrijuit over de laatste technologische ontwikkelingen.

Tot nu toe zijn het vooral de lollige toepassingen die de aandacht van het grote publiek trekken. Neem het duet Heart on My Sleeve van popsterren Drake en The Weeknd, dat in april TikTok, YouTube en Spotify veroverde, totdat de platenmaatschappij ingreep en de platforms dwong het liedje offline te halen. Drake en the Weeknd wisten immers niets van het nieuwe liedje: een TikTokker gebruikte hun gekloonde stemmen. Met hetzelfde principe kun je bestaande hits coveren: Elvis Presley die Dré Hazes zingt, John Lennon die Oasis covert of Mark Rutte die losgaat op Take on Me.

Wat zijn de gevaren?

Rutte die (ietwat vals) een jarentachtigliedje zingt, is nog grappig en onschuldig, maar er kunnen hem even goed veel gevaarlijkere dingen in de mond worden gelegd. Niet gek dat experts waarschuwen voor het gebruik van AI als instrument om desinformatie te verspreiden, en dat dit hoog op de (Europese) politieke agenda staat.

Een ander probleem is de inzet van AI voor criminele doeleinden. In de Verenigde Staten waarschuwen security-specialisten al langer voor het gebruik van stemklonen om mensen te misleiden. De meeste mensen kennen inmiddels de WhatsApp-fraude waarbij criminelen zich uitgeven voor een bekende van de ontvanger en op die manier geld proberen af te troggelen: ‘Hé pap, dit is mijn nieuwe nummer. Ik kan niet bij mijn bank, dus kan je even geld overmaken.’ Met AI gaat een nieuw tijdperk in met (in dit geval) de stem van de zoon in plaats van een geschreven tekst. Voor Nederlandse stemmen is er nog wel vrij veel basiskennis, tijd en moeite nodig om dit tot een goed resultaat te brengen, maar dit kan volgende maand al weer anders zijn.

Bovendien: ‘We geloven het ook best graag, hè’, zegt onderzoeker Van Son. ‘Dat een stem echt is. En zeker als je het wat ruisend hoort, door een telefoon, dan trap je er snel in. Een computersysteem voor de gek houden is al een stuk lastiger. ’

Mag het allemaal zomaar?

Wereldwijd zijn veel plagiaatzaken waarin kunstwerken centraal staan die te veel op het origineel zouden lijken. De rechter kijkt dan of originele elementen zijn gekopieerd. Maar hoe zit het eigenlijk met het klonen van andermans stemmen? Volgens Dirk Visser, advocaat en hoogleraar intellectueel eigendom, is dit nog een vrij onontgonnen terrein. Zo bestaat er niet zoiets als een auteursrecht op een stem. En ook niet een stemvariant van het portretrecht. Maar er is wel Europese regelgeving die consumenten beschermt tegen misleiding en oneerlijke handelspraktijken. ‘Die geldt voor iedere vorm van commerciële misleiding, ook via stemklonen’, aldus Visser. In dit geval: een stem die pretendeert van iemand anders te zijn.

Verder kunnen rechters teruggrijpen naar de Algemene verordening gegevensbescherming, waarin staat wat organisaties en bedrijven met persoonsgegevens mogen doen. Visser: ‘Een stem is zo’n gegeven, ook als die met AI is gemaakt.’ Zomaar een kopie maken van iemands stem of deze online zetten, is daarmee niet toegestaan, al zijn er ook weer uitzonderingen voor journalistiek of artistiek gebruik. Ook geldt deze privacybescherming niet voor overleden mensen.

De rechter zal de afweging moeten maken tussen enerzijds vrijheid van meningsuiting en anderzijds misleiding. ‘Als je een gekloonde stem van een beroemde politicus iets onschuldigs laat zeggen en het ook duidelijk is dat het een parodie is, zal dat geen probleem zijn. Maar je mag geen verwarring zaaien’, stelt Visser.

En hoe zit het dan met een gekloonde Kurt Cobain die de eurodance-hit What Is Love zingt? Mag dat zomaar? Visser: ‘Cobain is in dat geval niet wettelijk beschermd.’ Ten onrechte, meent de advocaat, die het redelijk zou vinden om de bestaande wetgeving rondom uitvoerende kunstenaars breder wordt geïnterpreteerd zodat deze ook geldt voor stemklonen van artiesten.

Hoe ziet de toekomst eruit?

Of het nou gaat om het maken van parodieën, podcasts, muziekcovers of het in real time spreken van een andere taal via de eigen stem: de komende tijd zal het alleen maar eenvoudiger worden en zullen er meer apps komen die dit mogelijk maken. Ook zien de grote techbedrijven in dat hier veel mogelijkheden liggen. Neem Google, dat onlangs een ‘Universele Vertaler’ aankondigde die voor bijvoorbeeld YouTube kan worden ingezet. Deze machine vertaalt iedere video in een taal naar keuze, inclusief de juiste intonatie en lipbewegingen.

De technologie zou ook voor Googles online vergaderplatform Meet kunnen worden ingezet. Google is echter nog huiverig dit alles op de markt te brengen omdat dezelfde technologie ook voor minder mooie doeleinden gebruikt zou kunnen worden. Bijvoorbeeld om politici teksten te laten uitspreken die ze in werkelijkheid nooit hebben gedaan. Vandaar dat het bedrijf nog nadenkt over de vangrails die het wil inbouwen om misbruik te voorkomen. Hoe die er precies uit moeten zien, is nog niet duidelijk.

Apple zoekt het ondertussen in een iets andere richting. Nog dit jaar introduceert het bedrijf Personal Audio. Hiermee kunnen bezitters van een iPhone een eigen synthetische stem maken na het inspreken van een kwartier audio. Apple noemt als voorbeeld mensen die als gevolg van een spierziekte hun stem dreigen te verliezen, en via deze technologie ook in de toekomst kunnen blijven praten.

Maar de volgende stap laat zich ook raden: misschien vinden mensen het een aardig idee om hun stem na hun dood achter te laten voor hun nabestaanden, in combinatie met een persoonlijke bot die is getraind met dagboekteksten of social media-posts. Dat is al geen toekomstmuziek meer.

Het originele artikel verscheen in de Volkskrant van 8 juli 2023