Open menu
  • Home
  • Schrijfsels
    • Blogs
    • Populaire
    • Wetenschappelijk
    • Drenten
  • In de Media
    • AV
    • Web
    • Krant
    • Lezingen
    • AV-Lezingen
    • Televisie
  • Werk
    • TST & AI
      • Spraakherkenning
      • AI
      • Whisper
      • Knowledge Navigator
      • Showcases
      • LIPS
      • UvN
      • Maastricht
      • Diplomaten
      • TTS
      • URaad
      • Preek
    • Affiliaties
      • UTwente
      • UU
      • Telecats
      • Overige Werkgevers
    • Netwerken
      • NOTaS
      • CLST
      • Levende Herinneringen
      • SOS
    • Infrastructuur
      • CLARIN - NL
      • CLARIAH
      • CLARIN - EU
      • DARIAH
      • CHAT
      • Listen
      • Levend Verleden
    • Projecten
    • Programming
    • Software
    • Over mij
    • LOT 2023
    • NTU
    • Workshop(s)
  • Persoonlijk
    • Arjan
      • Arjan
      • Ouders
      • Zus en Broer
      • Neven en Nicht
      • Grootouders
      • Foto's
    • Brigitte
    • Drentsche Patrijshonden
    • Huizen
      • Samen
        • Burg. Reigerstraat (2010 - ...)
        • Steve Biko (2009 - 2010)
        • Baarnseweg (2007 - 2009)
        • Poortstraat (1994 - 2007)
      • Arjan
        • Poortstraat (1977 - 1994)
        • Sweelincklaan (1972 - 1977)
        • Soestdijkseweg (1965 - 1972)
        • Biltzigt (1958 - 1965)
      • Brigitte
        • Thijssenlaan (1985 - 1994)
        • Braamstraat (1981 - 1984)
        • Voorstraat (1980 - 1981)
        • Hopakker (1980 - 1980)
        • Kemperstraat (1979 - 1979)
        • Verwerstraat (1968 - 1979)
        • Oude Raadhuisstraat (1961 - 1968)
        • Drostlaan (1960 - 1961)
    • Rolanda
      • Levensverhalen
      • Rolanda 85
      • Afnemende Gezondheid
      • Begrafenis Rolanda
  • Interessant
    • Tekst-naar-Spraak
    • Zips Law
    • Conversatie Regels
  • Extra Activiteit

Open menu
  • 2026
  • 2025
  • 2024
  • 2023
  • 2022
  • 2021
  • 2020
  • 2019
  • 2018
  • 2017
  • 2016
  • 2015
  • 2014

blogs

Jacco zit aan tafel

Jacco zit aan tafel

23-12-2015

Jacco zit gezellig aan tafel bij z'n opa en oma in Frankrijk.  

Kerstdiner 2015

Kerstdiner 2015

18-12-2015

Voorbereiding Vrijdagochtend na de laatste vergadering begonnen met de voorbereidingen van Het Kerstdiner 2015. We hadden op de BRS85 nog 2.8 kg lamsbout liggen maar volgens BB was dat absoluut te...

Taal in Bedrijf 2015

Taal in Bedrijf 2015

14-12-2015

“Het gaat niet om weten wat kan, maar om weten wat je wilt” Dagvoorzitter Arjan van Hessen is een bekend gezicht binnen de wereld van de taal- en spraaktechnologie. Hij werkt zowel in de...

Sinterklaasje kom maar…

Sinterklaasje kom maar…

07-12-2015

6 december: het zit er weer op. De jaarlijkse Sinterklaas stress is weer met goed gevolg doorstaan, pakjesavond was weer erg gezellig en moe maar voldaan zijn we ’s avonds weer in bed gekropenIeder...

Rolanda 85!

Rolanda 85!

29-11-2015

Eindelijk was het zover: de verjaardag van “Tante Rool”. Vanwege haar verslechterende gezondheid hadden wij (van Hessentjes) besloten het iets rustiger te doen dan 5 jaar geleden. Van de kant van de...

Taal in Bedrijf 2015

Arjan TiB 2015

“Het gaat niet om weten wat kan, maar om weten wat je wilt”

Dagvoorzitter Arjan van Hessen is een bekend gezicht binnen de wereld van de taal- en spraaktechnologie. Hij werkt zowel in de academische wereld als in het bedrijfsleven, en heeft een duidelijke mening over de toekomst van technologie en wetenschap. “Wij moeten begrijpen wat beide kampen willen en bedoelen.”

Begrip tussen beide partijen

“Er is een kloof tussen techniek en wetenschap, terwijl ze steeds meer met elkaar te maken hebben, maar alfa’s en bèta’s spreken een andere taal.

IBM stopt de laatste paar jaar heel veel geld in de geesteswetenschappen. De laatste paar jaar zijn computers zo veel beter geworden in het waarnemen en analyseren van menselijk gedrag. Techniek en geesteswetenschappen komen elkaar daarin dus tegen. Die werelden raken elkaar ineens. Dan is er een vertaalslag nodig.

Om de wereld van de taal en de techniek goed met elkaar te laten samenwerken, moet er bewustwording gecreëerd worden. En er moet begrip zijn tussen beide partijen. Wanneer je als taalkundige een app laat bouwen, moet je dikwijls aan de app-bouwers uitleggen wat ‘voltooid verleden tijd’ is. Daar kun je je aan storen, maar je kunt ook bedenken dat je allebei een ander specialisme hebt.

De mensen die deze verbintenis tussen techneuten en gebruikers moeten maken, moeten mensen zijn die affiniteit en ervaring hebben met beide groepen. Die zijn dun gezaaid, maar ze zijn er wel. Mensen die zowel met de alfa-wereld als de bèta-wereld vertrouwd zijn, die moeten we hebben. Wij moeten begrijpen wat beide kampen willen en bedoelen.

De techniek is er al

We moeten daarbij vooral aandacht besteden aan wat de vrager wil; iemand die een tweede taal wil leren, bijvoorbeeld. We hebben mensen nodig die vragers en aanbieders met elkaar in contact brengen, die ervoor zorgen dat ze dezelfde taal spreken, dat ze elkaar echt begrijpen.

En we moeten de doelgroep kennen. Wat willen de cliënten van Bartiméus bijvoorbeeld? Waar heb je behoefte aan wanneer je bijvoorbeeld doof én blind bent?

En vaak is het ook zo dat de techniek om bepaalde zaken makkelijker te maken, er al is. We kunnen een auto al zichzelf laten inparkeren. Dan moet het toch ook lukken om een elektrische rolstoel gemakkelijk door een deuropening te laten sturen? Je moet alleen wel weten wat de rolstoelgebruiker wil. Die wil waarschijnlijk niet met twintig kilometer per uur door de gangen scheuren, ook al kan dat wel ontwikkeld worden.

“We hebben mensen nodig die vrager en aanbieder in contact met elkaar brengen.”
Arjan Hessen

Door kunstmatige intelligentie verandert de wereld, veranderen onze banen. Hoe meer techniek in onze banen geïmplementeerd wordt, hoe slimmer mensen moeten zijn. Men denkt vaak dat het andersom is: dat techniek onze banen makkelijker zou moeten maken. Het simpele gedeelte wordt inderdaad geautomatiseerd, maar de mensen die met die technische innovaties werken, die in de laag daarboven zitten, die moeten echt steeds slimmer zijn.

Respecteer elkaars belangen

Niet alleen techniek en taal moeten meer begrip voor elkaar hebben, dat geldt ook voor mensen uit de wetenschap en mensen uit het bedrijfsleven. Zij moeten elkaar ook verstaan en respecteren. Soms als ik op pad ben met mijn collega’s uit het bedrijfsleven, snappen zij de wetenschappers niet: “Waarom moet je nog weten waarom het werkt. Het werkt toch?” En andersom maak ik ook mee, met mijn academische collega’s. Die klagen dan dat mensen uit het bedrijfsleven altijd meteen willen weten wat het doet en wat het kost. Je moet elkaars belangen respecteren. De wetenschap doet nu eenmaal onderzoek, het bedrijfsleven wil geld verdienen.

Er kan tegenwoordig zo veel, en verschillende werelden lopen steeds meer door elkaar. Het gaat niet meer om weten wat kan, maar om weten wat je wilt. En daar kunnen wij elkaar bij helpen.”

Het volledige verslag van Taal-in-Bedrijf staat hier.

Interview werd gedaan door Nynke de Jong

De wet van Zipf

Met een kleine woordenschat, spreek je al een aardig mondje mee!

Laatst kreeg ik mijn dagelijkse nieuwsbrief “De Bicker” in de mail met daarin een enthousiasmerend stuk over de “Wet van Zipf” en het "Pareto-principe" (u weet wel van die 80-20 regel) en een link naar een 21-minuten durend geweldig boeiende en humoristische filmpje waarin het wordt uitgelegd en aannemelijk gemaakt waarom het zo is.
En dan niet alleen voor het vóórkomen van woorden maar ook voor andere zaken zoals populariteit, sneeuwballen en rijkdom.
Deze door George Kingsley Zipf gevonde wetmatigheid wordt ook wel de "Wet van Zipf" genoemd.

De krant lezen in een jou redelijk onbekende taal

Het zal de meeste mensen wel zijn opgevallen dat, ergens op vakantie in een land waarvan je de taal niet goed spreekt, je met enige oefening en een beetje geduld al snel de krant zo kunt lezen dat je in ieder geval begrijpt waarover men zich die dag druk maakt.

Maar komt dat nu omdat ik zo slim ben of schrijven die buitenlandse kranten voor heeeel eenvoudige mensen?
Dat laatste kan natuurlijk waar zijn (net als het eerste :-)) maar het ligt waarschijnlijk net iets anders.

Experimentje: verdeling woorden in de taal

De verdeling van de woorden in een taal (hoe vaak wordt elk woord gebruikt) volgt een soort wetmatigheid. Het meest voorkomende woord (in het het Nederlands is dat "de") komt heel veel voor.
Om te zien of het allemaal klopt, heb ik een lang artikel uit de Correspondent genomen (50 min leestijd, 2690 unieke woorden en 12775 woorden totaal). De berekening van de woordfrequenties geeft het volgende resultaat.

Als we de tabel met de meest gebruikte woorden bekijken, dan zien we dat de 5 populairste die samen al meer dan 18% van het totaal aantal woorden vormen. In de grafiek zien we dat als we de helft van de woorden willen “kennen”, we slechts 75 woorden hoeven te leren. Als we naar 80% willen gaan, dan volstaan "slechts" 642 woorden.
Dus met een beetje oefenen kent zo’n artikel bijna geen geheimen meer.

 

rangorde woord aantal % gesommeerd %
1 de 914 7,155% 7,155%
2 van 482 3,773% 10,928%
3 het 381 2,982% 13,910%
4 in 312 2,442% 16,352%
5 een 289 2,262% 18,614%
  ...      
75 had 26 0,204% 50,137%
  ...      
642 draadloos 3 0,023% 80,016%

 woordverdelingWoordfrequentie van een krantenartikel uit de Correspondent. 12775 woorden waarvan 2690 uniek.

Spreken & Schrijven

Maar, hoe zit dat met de spraaktaal? De wetmatigheid blijft maar de rangorde verandert een beetje. Voor gesproken taal kan er gekeken worden naar het Corpus Gesproken Nederlands (CGN) waarin zo'n 900 uur spreektaal is opgenomen en elk woord werd uitgeschreven. Voor geschreven taal is er het  PAROLE-corpus: een verzameling van zo'n 20 miljoen woorden uit boeken, kranten en tijdschriften, uit de periode 1982-1998.

CGN ja dat de en uh ik een is die van
PAROLE dat van het een en in is te dat op

 

Voor en Achternamen

Gerrit Bloothooft (UU, Meerten Instituut) heeft in een boeiend artikel laten zien dat de Wet van Zipf ook geldt voor het voorkomen van voor- en achternamen. Door het aantal en de frequentie op een dubbel-logarithmische schaal te plotten, krijg je een keurig rechte lijn: een Zipf-verdeling.

Verdeling van voor en achternamen

Conclusie

Als we de sommatie van de zipf-verdeling nemen, dan zien we direct dat je met kennis van een paar honderd veel voorkomende woorden al heel veel teksten kunt lezen. Natuurlijk zullen er in die tekst ook weinig voorkomende en wellicht belangrijke woorden staan die ervoor zorgen dat je net niet begrijpt wat er precies staat. Maar de algemene betekenis haal je meestal wel uit de context. Het verklaart in ieder geval wel waarom je, met slechts een geringe woordenschat, toch die krant of dat boek kunt lezen. En de "Wet van Zipf" geldt voor veel meer zaken, zoals in het filmpje wordt duidelijk gemaakt.

Pagina 9 van 9

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • Laatst gewijzigd: donderdag 18 juni 2026 16:49:25
  • Copyright @2026 Arjan van Hessen