Zipfs lag

Från Wikipedia
Hoppa till: navigering, sök
Diskret fördelning av Zipf plottad i ett log-logdiagram. Funktionens värde för k=1 anger sannolikheten för den vanligaste värdet, k=2 det näst vanligaste, osv. Observera att frekvensfunktionen endast är definierad för heltalsvärden av index k (den horisontella axeln), även om illustrationen innehåller sammanbindande linjer. Parametern (exponenten) s = 1 motsvarar Zipf-lagens ursprungliga formulering.
Fördelningsfunktion av Zipffördelningen. Funktionens värde för ranking k=1 anger sannolikheten för det vanligaste ordet eller värdet, k=2 för de två vanligaste, osv. Parametern (exponenten) s = 1 motsvarar Zipf-lagens ursprungliga formulering.

Zipfs lag (uttalas zɪfs) är en empiriskt visad statistisk lag som säger att inom många tillämpningsområden inom såväl samhällsvetenskap som naturvetenskap gäller att vid stora mängder diskreta data är rankingfrekvensen (förekomsten av det vanligaste värdet, näst vanligaste värdet, osv) approximativt Zipffördelade. Lagen är bland annat giltig på frekvensen av ord i ett språk eller en längre text, på städers folkmängd i ett land, på massmediers popularitet, på webbplatsers besöksstatistik, på inkomststorlekar, företagsstorlekar, med mera. Lagen återspeglar att det finns några få mycket vanliga ord och många ovanliga, få stora städer och många små, och så vidare.

Zipfs lag är uppkallad efter lingvisten George Kingsley Zipf som föreslog lagen (Zipf 1935, 1949) för att beskriva förekomsten av olika ord i språk. Emellertid tycks JB Estoup ha lagt märke till detta mönster innan Zipf.[1][2]Fördelningen av städers folkningsmängd studerades av Felix Auerbach redan 1913.[3]

Zipfs ursprungliga formulering av lagen säger att frekvensen av, eller sannolikheten för, ett visst ord eller värde är omvänt proportionell mot dess ranking. Det näst vanligaste värdet inträffar således hälften så ofta som det vanligaste värdet och så vidare. Idag är emellertid lagen generaliserad så att frekvensrankingen är upphöjd med en exponent s. Exponentens värde bestäms empiriskt och skiljer mellan olika tillämpningsområden. Lagens ursprungliga formulering motsvaras av s=1, medan s=0 motsvarar likformig sannolikhetsfördelning. Exempelvis vid städers befolkningstal har god matchning visats med s = 1,07. Vid webbplatsers besöksstatistik är s ungefär 2.

Zipffördelningen tillhör en familj av besläktade diskreta potenslagsfördelningar, som samtliga karaktäriseras av skalinvarianta egenskaper.


Tillämpning inom lingvistik[redigera | redigera wikitext]

Enligt Zipfs lag gäller att vid en viss korpus (stor och strukturerad samling av uttryck inom ett naturligt språk), så är frekvensen av ett visst ord omvänt proportionell mot ordets frekvensranking. Det mest frekventa ordet inträffar således ungefär dubbelt så ofta som det näst vanligaste ordet, tre gånger så ofta som det tredje vanligaste ordet, etc. Till exempel är i modern engelska (enligt Browns korpus) "the" det mest frekventa ordet, med en förekomst på 6,9%, medan det näst vanligaste ordet, "of", står för drygt 3,6% av ord (överensstämmer approximativt med 6,9%/2=3,4% enligt Zipfs lag), följt av "and" med 2,8% av förekomsterna (borde vara 6,9%/3=2,3% enligt Zipfs lag).

Matematisk formulering[redigera | redigera wikitext]

Antag att N olika värden eller ord förekommer, och att det vanligaste värdet (värdet med ranking 1) har frekvensen f_1, det näst vanligaste (med ranking 2) frekvensen f_2, osv. Rankingtalen kan ha värdena k \in \{1,2,\ldots,N\}.

Om värdenas följer Zipfs lag har de approximativt följande diskreta fördelning:

f_k = \Pr(k) = \frac{c}{k^s},

där c=\frac{1}{\sum_{k=1}^N \frac{1}{k^s}}.

Om antalet värden N är oändligt måste exponenten s vara större än 1 för att summan av fördelningen ska konvergera.

Analys av datamängd[redigera | redigera wikitext]

En datamängd kan testas empiriskt för att se om den följer Zipfs lag genom att plotta värdenas frekvens som funktion av deras ranking (1 för vanligaste värdet, 2 för näst vanligaste värdet, osv) i ett log-logdiagram. Om resultatet approximativt är en rät linje uppfyller värdena Zipfs lag. Matematisk innebär det att man gör regressionanalys på följande samband:

 \log k=\log c - s \log f_k ,

där k är datats ranking och f_k dess statistiska frekvens. Parametrarna log c (linjens nollgenomgång) samt s (linjens lutning) estimeras med linjär regressionsanalys. För att Zipfs ursprungliga formulering ska vara tillämplig skall parametern s vara 1.

En modifierad variant av Zips lag förekommer där exponenten s antas ha olika värden i olika delintervall, exempelvis ett lågt värde för rankingtal under en viss brytpunkt, och ett högt värde vid högre rankingtal. I log-logdiagrammet motsvarar det en bruten linje.

Se även[redigera | redigera wikitext]

Källor[redigera | redigera wikitext]

  1. ^ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0262133609, p. 24
  2. ^ JB Estoup, Gammes sténographiques (3d ed. 1912)
  3. ^ Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76
Venn A intersect B.svg Matematikportalen – portalen för matematik på svenskspråkiga Wikipedia.