BRS85 - Spraakinterfaces in Bots

De visuele gebruikersinterface krijgt er een geduchte concurrent bij. De zwaargewichten van de IT-industrie werken aan een opvolger die de mens natuurlijker past. Dat krijgt consequenties voor de manier waarop organisaties zich (kunnen) profileren op het web.

Tegen 2020 zullen consumenten nog nauwelijks apps gebruiken op hun smartphone of tablet, voorspelt hoofd onderzoek Peter Sondergaard van Gartner. Sterker nog, ze zullen vergeten zijn wat dat ook weer was, een app. Sondergaard overdreef wel enigszins, ‘voor de bühne’; hij deed deze uitspraak onlangs tijdens de keynote van het Symposium ITxpo in Barcelona. Officieel houdt Gartner het erop dat in 2020 40 procent van de interacties met mobiele apparaten via slimme virtuele assistenten verloopt. Google Now, Apples Siri, Microsofts Cortana en Amazons Echo zijn er vroege voorbeelden van, stelt Gartner. Slimme assistenten zullen de wensen van gebruikers begrijpen, hun vertrouwen winnen en uiteindelijk ook autonoom in het belang van de gebruiker handelen.

Vergezocht? Hoofdrolspelers op dit terrein denken van niet. Microsoft-topman Satya Nadella zei bijvoorbeeld op de O’Reilly Next:Economic Summit, afgelopen november: “De golf slimme assistenten die aan komt rollen, gaat de manier waarop wij het web gebruiken veranderen. Je zult nog wel het web afstruinen, maar dat doe je niet meer met een browser. Je stelt vragen aan je virtuele assistent.”

Ook Alexandre Lebrun en Adam Cheyer onderstreepten op die conferentie dat natuurlijke taal als nieuwe gebruikersinterface in opkomst is. En dat zijn wel mannen die gewicht in de schaal leggen. Lebrun is Facebooks goeroe op het gebied van kunstmatige intelligentie, Cheyer stond aan de wieg van Apples virtuele assistent Siri en werkt nu aan verbetering van spraakherkenning middels machineleren.

De suggestie dat we in de toekomst veel meer tegen apparaten gaan praten dan we nu gewend zijn, lijkt op het eerste gezicht wellicht een boude veronderstelling. Spraakherkenningssoftware is er immers al lang, zonder dat daar intensief gebruik van wordt gemaakt. Een enkeling zal in de auto de mogelijkheid gebruiken om met spraakcommando’s zaken in werking te zetten. In gespecialiseerde, vaak medische, toepassingen speelt spraakherkenning wel al een belangrijke rol. Maar dat zijn feitelijk niet-interactieve systemen waar de communicatie volgens vaste patronen verloopt. Spraakherkenning in de auto of een medische vastleggingsapplicatie werkt omdat de toegestane woordenschat beperkt is.

Slimme assistenten beloven meer. Maar wat Siri, Cortana en vergelijkbare systemen te bieden hebben, is niet op natuurlijke wijze interactief. De systemen werken op de achtergrond met scripts om veel voorkomende vragen te kunnen beantwoorden. Buiten de gebaande paden raak je daardoor al snel verzeild in een irritante Babylonische spraakverwarring. Als mensen tegen hun telefoon praten, kun je er daarom bijna vergif op innemen dat ze aan het bellen zijn – tenzij ze het gefrustreerd uitschreeuwen omdat hun systeem hen weer eens niet begrijpt.

Maar praten is en blijft voor mensen wel een natuurlijker, handiger en sneller communicatiemiddel dan tikken. Als spraakherkenning en -verwerking kwalitatief beter wordt, zal het gebruik ervan ongetwijfeld snel stijgen.

Spraakdoorbraak

Die kwalitatief betere spraakinterface zit eraan te komen. Amazon, Google, Apple, Microsoft en Facebook investeren allemaal in kunstmatige intelligentie en adaptief lerende systemen om de interactie te verbeteren. Ook IBM kan mogelijk een rol gaan spelen op dit terrein. Met zijn Deep Blue- en Watson-technologieën heeft het als eerste grote stappen vooruit gezet op het gebied van intelligente machines. Dat bewees IBM door in 1996 wereldkampioen schaken Gary Kasparov te verslaan en door het winnen van de kennisquiz Jeopardy van menselijke tegenstanders in maart 2011. Of IBM een factor wordt in de aanstaande machtsstrijd is onzeker. Het lijkt zijn inspanningen de laatste tijd meer te richten op gerichte zakelijke toepassingsgebieden, en niet op de gebruikersinterface.

Waar de bedrijven die actief zijn op dit terrein aan werken, piept soms naar buiten als er een spectaculair nieuwtje te melden is. Eind januari meldde Facebooks Zuckerberg bijvoorbeeld triomfantelijk dat Facebook een AI-systeem heeft ontwikkeld dat bijna in staat is om de mens te verslaan bij het notoir lastige bordspel Go.

Google deed een dag later haasje over met het bericht dat zijn AI-bedrijf DeepMinds een programma heeft ontwikkeld dat Europees Go-kampioen Fan Hui vijf maal achter elkaar wist te verslaan. AlphaGo ‘leerde’ Go spelen door 30 miljoen zetten van sterke spelers te analyseren.

Een Go-programma is niet het enige waar Google in investeert. Het werkt al jaren aan het verbeteren van zijn vertaalprogramma Google Translate, gebruikt AI-technieken om zijn Google Now te verbeteren, en de Google Photos-app kan dankzij het zelflerende systeem TensorFlow beelden rangschikken op thema.

Bij Apple trokken de overnames van Perceptio en VocalIQ de aandacht. Perceptio ontwikkelt kunstmatig intelligente AI-modules die aan apps kunnen bijdragen zonder over databergen te beschikken. Gezichtsherkenning is één van de toepassingen waar Perceptio aan werkte voor de overname. VocalIQ maakt spraakherkenning die door toepassing van kunstmatig intelligente technieken actief leert uit conversaties. Deze leert zo onderkennen wat een spreker echt bedoelt, in plaats van alleen maar te herkennen wat hij zegt. Apple nam ook tientallen experts op het gebied van kunstmatige intelligentie aan, vorig jaar.

Microsoft liet een glimp zien van zijn activiteiten op het gebied van machineleren en aanverwante technologieën via zijn Project Oxford. In dat project zijn een aantal concrete ontwikkeldoelen gesteld om Microsofts persoonlijke assistent Cortana te verbeteren. Ook hier speelt beeldherkenning een rol; de voortgang op dat terrein presenteerde Microsoft vorig jaar in een app die de leeftijd afleidt uit een portretfoto. Een stap verder is computerzicht, waarbij de computer ook andere beelden leert herkennen en interpreteren. Een derde terrein waar Microsoft vol op inzet is verbetering van de omzetting van tekst in spraak en vice versa. En ten slotte werkt Microsoft in het projectonderdeel LUIS aan intelligente spraakherkenning. Een eerste voorbeeld van waar het ontwikkelwerk toe leidt geeft de nieuwe functionaliteit die Microsoft heeft ingebakken in Cortana. De slimme assistent leest nu in een bètaversie desgewenst je mail na om je tijdig te waarschuwen als het nakomen van gemaakte afspraken in het gedrang komt.

Amazon zet zijn kaarten op Echo, een apparaat dat behalve muziek afspelen ook thuis vragen kan beantwoorden en commando’s kan verwerken. Het slaat de visuele interface voor het gemak meteen maar over; de Echo is alleen met de stem te bedienen. Bij de lancering, vorig jaar zomer, richtte Amazon meteen ook een investeringsfonds op om ontwikkelaars van diensten rond de Echo aan financiering te helpen. Om te beginnen stortte het 100 miljoen dollar in het fonds, dat naar de virtuele assistent in Echo Alexa Fund heet. Amazon ontwikkelt Echo verder met slimmigheidjes bij het bestellen van boodschappen, zoals de Dash-button die je op huishoudelijke artikelen en voedingsmiddelen kunt plakken om met een druk op de knop bij te bestellen, en speciaal voor dierenliefhebbers Petnet, met dezelfde functie. Amazon gaat, met andere woorden, aan kop in de race om het slimme huis. En door het gratis ter beschikking stellen van Alexa aan derden, lijkt Amazon met reuzenschreden een Alexa-ecosystem te creëren waar de concurrenten nog een hele kluif aan krijgen.

Van Amazons verdere plannen is minder bekend. Wel viel op dat Amazon TenMarks overnam, een specialist met een via een adaptief leersysteem ontwikkelde app voor wiskunde-onderwijs op middelbare scholen.

Facebook investeert ook fors in AI; het heeft daar zoals gezegd een aparte afdeling voor opgericht. Facebook voert momenteel ook een opmerkelijk experiment uit in de Bay Area in Californië. Het beproeft en verfijnt M, een kunstmatig intelligente assistent die onderdeel is van de Messenger-app. M kan handelingen zoals het bestellen van bloemen voor je partner, het reserveren van een tafeltje in een restaurant of het boeken van een reis voor je uitvoeren. Het bijzondere van het systeem is dat het vervolgvragen kan stellen als een deel van de conversatie niet duidelijk is. M leert ook van eerdere gesprekken. En als M er niet uitkomt, heeft Facebook een aantal menselijke trainers klaarstaan die het systeem voordoen hoe het dat probleemgeval moet aanpakken.

Vergaande repercussies

Deze ontwikkelingen krijgen op termijn een aantal belangrijke repercussies voor veel organisaties die zich op het web manifesteren. De eerste is al genoemd. Apps worden minder belangrijk. Over enkele jaren klik je niet op een app om je volgende treinreis te plannen. Je zegt gewoon tegen je smartphone wanneer je waar naartoe wilt en hoe laat je daar wilt zijn. Je smartphone vertelt je vervolgens in gewonemensentaal hoe laat je weg moet en wat je eerstvolgende tussendoel is. Tijdens de hele interactie licht je scherm niet één keer op. Ander voorbeeld, van Adam Cheyer: het kopen van een fles wijn, als je bij iemand te eten bent gevraagd. Een virtuele assistent kan een geschikte wijn suggereren als je weet wat de gastheer serveert, een winkel aanraden waar die wijn te koop is zonder al te ver om te rijden, en de tijd berekenen die het kost om op tijd bij je afspraak te zijn als je eerst nog de wijn gaat ophalen.

Verschillende categorieën apps zullen belangrijk blijven. Spelletjes, bijvoorbeeld. Maar apps die op de een of andere manier een vraag van de gebruiker beantwoorden, zullen in de nabije toekomst via een spraakinterface gepasseerd worden. Het is in deze gevallen zaak, scherp af te wegen hoe lang het nog verantwoord is om in apps te investeren. Gartners voorspelling van een omslag in 2020 biedt slechts beperkt houvast. De concurrentie is hevig, en dat jaagt de ontwikkelingen aan. Op sommige toepassingsgebieden kunnen apps al eerder dan 2020 hun nut verliezen.

Technisch lijkt de transitie niet veel om de hakken te krijgen. De api’s die nu in ontwikkeling zijn, maken gebruik van protocollen die voor webontwikkelaars bekend terrein zijn. Maar wat ontsluiting van hun informatie betreft, zullen organisaties waarschijnlijk wel een slag moeten maken. Informatie zal meer vraaggestuurd aangeboden moeten worden, als een slimme assistent voor een bezoeker de eerste ingang is. Zoekmachineoptimalisatie wordt nog belangrijker dan het al is; het effect van de kunstmatig intelligente technieken die worden toegepast, zal ongetwijfeld een complicatie vormen bij het vindbaar maken en houden van sites.

Slimme assistent als poortwachter

Daarbij zal succes in de markt in veel hogere mate dan nu bepaald worden door optimalisatie voor een of meer slimme assistenten. Want het is onwaarschijnlijk dat deze dezelfde methode van informatie vergaren en zeven zullen hanteren. Moet u straks uw kaarten op vindbaarheid door Siri zetten, of is Alexa een betere keus? Nu ben je al spekkoper als je bij Google of Bing op de eerste pagina met 10 zoekresultaten terechtkomt. Straks tast de smartphone van je potentiële klant, als die opgeeft een tv te willen kopen, eerst zijn wensen af: beeldgrootte, beeldkwaliteit, noem maar op. Om dan terug te komen met de mededeling:

‘De tv die het beste bij jouw wensen past is Merk A model B. Die komt ook goed uit verschillende testen. Je kunt deze tv voor 849 euro kopen bij webwinkel W. De levertijd is drie dagen; bij webwinkel W kun je geen afspraken maken over het aflevertijdstip. Bij winkel Y is de tv op voorraad; hij kost daar 899 euro. Winkel Y is 10 minuten hier vandaan; parkeren is betaald. Winkel Z biedt de tv 25 euro goedkoper en heeft hem ook op voorraad; winkel Z heeft wel een iets minder goede reputatie op het gebied van service. Winkel Z is een kwartiertje rijden, parkeren is gratis. Wil je de tv bij één van deze winkels reserveren, of wil je eerst meer informatie?’

De vindkans neemt dus af. En het rechtstreekse contact met potentiële klanten wordt ook minder als er een slimme assistent tussen zit die voorkomt dat je via het zoekresultaat een uitnodigende webpagina presenteert. Omgekeerd wordt de macht van de aanbieders van de platformen waarop die slimme assistenten draaien groter. En – nog zo’n repercussie om te wegen – die zullen daar zeker wel een verdienmodel uit weten te persen, eentje dat u mogelijk geld kost.