https://seeklogo.com/images/O/open-ai-logo-560B8FFD24-seeklogo.com.png Herfst 2022 kwam er, na het een paar maanden daarvoor vrijgegeven Wav2Vec2 (van Facebook), weer een nieuwe spraakherkenner uit: Whisper. Deze software komt van het bedrijf OpenAI en is (opnieuw) een behoorlijke revolutie. Fout marges halveren (of beter) en de transcripties kun je behalve in de gesproken taal ook direct in het Engels krijgen. Ook is het resultaat inclusief punten, komma's en andere leestekens!

Whisper is als Open Source beschikbaar, heeft 9 "modellen" beschikbaar en kan in principe door iedereen gebruikt worden, mits...
Je hebt wel enige programmeerkennis nodig en natuurlijk een redelijk snelle computer.

Software

Er komen gelukkig steeds meer Open Source pakketten beschikbaar die Whisper "draaien". Zo is er SubtitleEdit (voor Windows) en MacWhisper (voor Apple) waarmee je je eigen AV-files uitstekend kunt herkennen. Let er wel op dat voor een snelle herkenning je eigenlijk een GPU nodig hebt. Bij de Mac zijn dat de nieuwe computers met een M1, M2 of M3 chip en voor Windows zijn dat de computers met een losse grafische kaart (een zogeheten GPU). Als je wilt weten of je computer een GPU heeft, doe je het volgende:

  • Ga met je muis op de startbalk staan.
  • Klik met je rechtermuisknop op die balk.
  • Open taakbeheer.
  • Er opent nu een tabblad, klik eventueel op ”meer details” en dan op ''prestaties''
  • Hier vind je de GPU, ofwel je videokaart.

 

Whisper

Whisper wordt, zoals de auteurs het in het abstracht van hun paper schrijven, het best omschreven als:


Robuuste spraakherkenning via grootschalige zwakke supervisie

Alec Radford *1 Jong Wook Kim*1 Tao Xu1 Greg Brockman1 Christine McLeavey1 Ilya Sutskever1

* Equal contribution
1 OpenAI, San Francisco, CA 94110, USA

Abstract

We bestuderen de mogelijkheden om spraakverwerking systemen te trainen via eenvoudigweg grote hoeveelheden transcripties van audio op het internet. Wanneer geschaald naar 680.000 uur meertalig en multitask supervisie, generaliseren de resulterende modellen goed voor de standaard benchmarks en zijn ze vaak concurrerend met eerdere volledig gecontroleerde resultaten, maar dan in een zero-overdracht zonder de noodzaak van fijnafstemming.
In vergelijking met mensen benaderen de modellen hun nauwkeurigheid en robuustheid. Wij geven de modellen en inferentiecode om te gebruiken als als basis voor verder werk aan robuuste spraak verwerking.


whisperOverzicht van de werking van Whisper. Een sequentie-naar-sequentie Transformer-model wordt getraind op veel verschillende spraakverwerkingstaken, waaronder meertalige spraakherkenning, spraakvertaling, gesproken taalidentificatie en stemactiviteitdetectie.
Al deze taken worden gezamenlijk voorgesteld als een reeks tokens die door de decoder moeten worden voorspeld, waardoor één enkel model vele verschillende stadia van een traditionele spraakverwerkingspijplijn kan vervangen. Het multitask trainingsformaat gebruikt een reeks speciale tokens die dienen als taakspecificatoren of classificatiedoelen.

Modellen

OpenAI heeft 9 modellen beschibaar voor Whisper.

SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large-v1 1550 M N/A large ~10 GB 1x
large-v2 1550 M N/A large ~10 GB 1x
large-v3 1550 M N/A large ~10 GB 1x

De voor mij belangrijke modellen zijn het medium en tegenwoordig vooral het Large-v2 model die beide goed draaien op mijn GPU (grafische kaart). Beide modellen werken zo goed, dat er eigenlijk niets meer te wensen over blijft. :-). Large v3 zou in principe het noog beter moeten doen, maar het lijkt erop dat v3 meer hallucinaties geeft.

 

  • Laatste aanpassing website: zondag 27 juli 2025, 14:23:54.
  • Copyright @2023 Arjan van Hessen