Een ontzettend leuk filmpje op YouTube over Zipf's Law. Vooral in dl menselijke taal, maar ook daarbuiten. Het laat zien hoe de verdeling van woorden in een taal geheel wiskundig te verklaren valt: laat een aap op een typemachine los en je krijgt zo'n Zip-verdeling.
Het effect, ook wel bekend als het Pareto-principe, "verklaart" de 80-20 verdeling die zo dikwijls optreedt. Je ziet dit in contact centres waar 80% van de klachten van 20% van de bellers komt, in de welvaartsverdeling in de maatschappij waar 20% van de mensen 80% van de rijkdom heeft en in veel en veel meer situaties.
Natuurlijke Taal
Je ziet dit verschijnsel ook in natuurlijke taal. De Wet van Zipf is oorspronkelijk de door George Kingsley Zipf[1] geconstateerde en naar hem genoemde wetmatigheid in de taalkunde. Het beschrijft het fenomeen dat in natuurlijke taal de frequentie van vóórkomen van een woord ruwweg omgekeerd evenredig is met de rang van het woord in de frequentietabel, en wel zo dat het meest frequente woord ongeveer twee keer zo vaak voorkomt als het op een na frequentste woord en dat weer twee keer zo vaak als het vierde frequentste woord, enz.
Met de Wet van Zipf worden tegenwoordig kansverdelingen aangeduid die de vorm van een machtswet hebben. De wet kan gekarakteriseerd worden door het lineaire verband tussen de logaritmen van rangnummer en kans of frequentie. Uitgezet op dubbellogaritmisch-papier is het verband een rechte lijn waar ook 20% van de bestaande woorden 80% van de teksten beslaat.
Zeer de moeite waard en in 4K.