Sannolikhetsfördelning

Från Wikipedia
Hoppa till: navigering, sök

Sannolikhetsfördelning är ett begrepp inom sannolikhetsteori, statistik och matematisk statistik som betecknar ett uttryck (ofta en funktion) för hur sannolika olika utfall i ett utfallsrum är.

Normalfördelningen är en mycket vanligt förekommande sannolikhetsfördelning i statistiska modeller.

Sannolikhetsfördelningar, ibland kallade bara "fördelning", förekommer i både diskreta och kontinuerliga utfallsrum, och kallas därför ibland diskret fördelning eller kontinuerlig fördelning för att man skall förstå vilket utfallsrum det handlar om.

Exempelvis är en likformig fördelning en fördelning där alla utfall är lika sannolika, vilket är fallet till exempel vid en dragning av ett nummer i en lottorad: där är alla utfall i det diskreta utfallsrummet [1, 2, 3, ... 34, 35] lika sannolika med sannolikheten 1/35.

Matematisk beskrivning[redigera | redigera wikitext]

En sannolikhetsfördelning tilldelar varje intervall tillhörande de reella talen en sannolikhet sådan att sannolikhetsaxiomen är uppfyllda. I tekniska termer är en sannolikhetsfördelning en sannolikhetsrymd vars underliggande σ-algebra är Borel-algebran på de reella talen.

Varje slumpvariabel ger upphov till en sannolikhetsfördelning, och denna fördelning innehåller den viktigaste informationen om variabeln. Om X är en slumpvariabel så tilldelar motsvarande sannolikhetsfördelning intervallet [a, b] sannolikheten P(aXb), d.v.s sannolikheten att variabeln X kommer att anta ett värde i intervallet [a, b].

Sannolikhetsfördelningen för variabeln X kan beskrivas unikt genom sin kumulativa fördelningsfunktion F(x), vilken definieras som


F(x) = P \left( X \le x \right)

för varje x i R.

En fördelning kallas diskret om dess kumulativa fördelningsfunktion består av en sekvens av ändliga steg (hopp), vilket innebär att den tillhör en diskret slumpvariabel X: en variabel som endast kan anta värden från en ändlig eller uppräknelig mängd. En fördelning kallas kontinuerlig om dess kumulativa fördelningsfunktion är kontinuerlig, vilket innebär att den tillhör en kontinuerlig slumpvariabel X för vilken det gäller att P( X = x ) = 0 för alla x i R.

De så kallade absolut kontinuerliga sannolikhetsfördelningarna kan beskrivas med en täthetsfunktion (ibland frekvensfunktion): en icke-negativ integrerbar funktion f definierad på de reella talen så att


F(x) = P \left( X \le x \right) = \int_{-\infty}^x f(t) dt

för alla x i R. Diskreta fördelningar tillåter inte en sådan täthetsfunktion, vilket inte är särskilt förvånande, men det finns kontinuerliga fördelningar som djävulens trappa som inte heller tillåter en täthetsfunktion.

Två viktiga karakteristika för en sannolikhetsfördelning är fördelningens väntevärde och dess varians.

Stödet för en fördelning är den minsta slutna mängd vars komplement har sannolikheten noll.

Flera sannolikhetsfördelningar är så viktiga att de har fått särskilda namn. Några av dessa redovisas nedan.

Diskreta fördelningar[redigera | redigera wikitext]

  • Med ändligt stöd
    • Den degenererade fördelningenx0, där X antar värdet x0. Detta ser inte slumpmässigt ut, men det uppfyller definitionen för en slumpvariabel. Detta är användbart, eftersom det sätter deterministiska variabler och slumpvariabler i samma formalism.
    • Tvåpunktsfördelningen där det bara finns två utfall.
    • Den diskreta likformiga sannolikhetsfördelningen, där alla utfall i ett ändligt utfallsrum är lika sannolika.
    • Bernoullifördelningen, ett specialfall av tvåpunktsfördelningen, som antar värdet 1 med sannolikheten p och värdet 0 med sannolikheten q=1-p.
    • Binomialfördelningen, vilken beskriver antalet lyckade försök i en serie av oberoende ja/nej-försök.
    • Multinomialfördelningen, vilken beskriver antalet lyckade försök i en serie av oberoende försök med flera möjliga utfall.
    • Hypergeometriska fördelningen, som anger sannolikheten för att få k antal träffar när man drar utan återläggning m element ur en population med given andel element med en viss egenskap.
  • Med oändligt stöd

Kontinuerliga fördelningar[redigera | redigera wikitext]

  • Med stöd på ett ändligt intervall
    • Den kontinuerliga likformiga sannolikhetsfördelningen eller rektangulärfördelningen på [a,b], där alla värden i ett ändligt intervall är lika sannolika.
    • Betafördelningen på [0,1], av vilken rektangulärfördelningen är ett specialfall, och som är användbar för att skatta sannolikheten för lyckade försök.
  • Med stöd på semi-oändliga intervall, vanligen [0,∞)
    • Exponentialfördelningen, som beskriver tiden mellan slumpmässiga oberoende händelser.
    • Gammafördelningen, vilken beskriver tiden till dess att n sällsynta slumpmässiga händelser inträffar.
    • Extremvärdesfördelningen, beskriver variabler vilkas sällsynta extremvärden är av intresse; exempel: högsta vattenståndet i Themsenmynningen, hållfastheten hos en kedjas svagaste länk.
    • Lognormalfördelningen, beskriver variabler som kan modelleras som produkten av många små oberoende positiva variabler.
    • Weibullfördelningen, använd bland annat till att modellera livstiden för tekniska anordningar. Har en parameter som kan modellera olika grader av skevhet hos fördelningen: vänster, symmetrisk, höger.
    • Chitvåfördelningen, χ2-fördelning, vilket kvadratsumman av n oberoende normalfördelade slumpvariabler. Det är ett specialfall av gammafördelningen, och används mycket vid statistiska fördelningstest.
  • Med stöd på hela den reella tallinjen
    • Normalfördelningen, också kallad gaussisk fördelning eller klockkurva. Den är allmänt förekommande i naturen och statistiken genom centrala gränsvärdessatsen (CGS): alla variabler som kan modelleras som summan av många små oberoende variabler är approximativt normalfördelade.
    • Students t-fördelning, användbar till att skatta okända medelvärden och konfidenser för små stickprov ur normalfördelningspopulationer. Vid små stickprov är nämligen stickprovets standardavvikelse en dålig skattning av populationens standardavvikelse.
    • Cauchyfördelningen, ett exempel på en fördelning som inte har något väntevärde eller varians. Inom fysiken kallas den vanligen Lorentzfördelning och är till exempel fördelningen för ett instabilt tillstånd inom kvantmekaniken.

Måtteoretisk definition[redigera | redigera wikitext]

Det finns också en definition för sannolikhetsfördelning som använder Andrej Kolmogorovs axiomatiska måtteori.[1] Här är sannolikhetsfördelningen ett bildmått med avseende på en stokastisk variabel. Mer precist är en sannolikhetsfördelning för en stokastik variabel  X : (\Omega,\mathcal{F},P) \rightarrow \R formellt ett sannolikhetsmått P_X : \mathrm{Bor}\,\R\rightarrow [0,1], definierat som:

P_X (A) = P(X^{-1} (A))\,,

för en Borelmängd A \subset \R. Formellt innebär detta att sannolikhetsfördelningen är bildmåttet X_\# P.

En kumulativ fördelningsfunktion för X är P_X\,-måttet för intervallet (-\infty,x]\,, dvs

F(x) = P_X ((-\infty,x])

för varje x i R eftersom X^{-1}(-\infty,x] = \{X \leq x\}\,.

Det finns också en abstrakt definition för en sannolikhetsfördelnings täthetsfunktion. Om sannolikhetsfördelningen för X är absolutkontinuerligt med avseende på Lebesguemåttet \mathcal{L}^1, dvs

om \mathcal{L}^1(A) = 0 så är P_X(A) = 0\, ,

Radon-Nikodyms sats säger att det finns en icke-negativ L^1-funktion f : \R \rightarrow \R med egenskapen att

P_X (A) = \int_A f(x)\,dx

för alla Borelmängder A i R. Det här innebär att funktionen f är Radon-Nikodym derivata för P_X\, med avseende på 1-dimensionella Lebesguemåttet, dvs

f = \frac{dP_X}{d\mathcal{L}^1}.

Funktionen f är en täthet för sannolikhetsfördelningen X. "Täthet" är ett resonligt namn eftersom för A = (-\infty,x]\, så är

\int_{-\infty}^x f(x)\,dx = \int_A \, f(x) dx = P_X(A) = P_X((-\infty,x]) = F(x),

dvs. den kumulativa fördelningsfunktionen för X.

Exempel[redigera | redigera wikitext]

Låt X : (\Omega,\mathcal{F},P) \rightarrow \R vara en stokastik variabel så att den är normalfödelad med väntevärdet \mu och variansen \sigma^2, det vill säga X \sim N(\mu,\,\sigma^2). Det här innebär att sannolikhetsfördelningen för X, det vill säga måttet P_X = X_\# P\,, är

P_X = N(\mu,\,\sigma^2)\,.

Här karakteriseras normalfördelningen av måttet N(\mu,\,\sigma^2) : \mathrm{Bor}\,\R \rightarrow [0,1], definierat som:

N(\mu,\,\sigma^2)(A) = \int_A {1 \over \sigma\sqrt{2\pi} }\,e^{-{(x-\mu )^2 \over 2\sigma^2}} \, dx

för alla Borelmängder A i R.

Måttet N(\mu,\,\sigma^2)\, är absolutkontinuerligt med avseende på Lebesguemåttet. Så det finns en täthetsfunktion f för X. Definitionen ovan säger att f måste vara

f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{-{(x-\mu )^2 \over 2\sigma^2}}

för alla x i R

Se även[redigera | redigera wikitext]

Referenser[redigera | redigera wikitext]

  1. ^ Williams, David. Probability with martingales, Cambridge University Press, 1991.
Venn A intersect B.svg Matematikportalen – portalen för matematik på svenskspråkiga Wikipedia.