Korrelation

Från Wikipedia
Hoppa till: navigering, sök

Korrelation är ett begrepp inom statistik som anger styrkan och riktningen av ett samband mellan två variabler. Det kallas även korrelationskoefficient, eller bivariat analys.

Korrelationen uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man - eller annorlunda uttryckt, ju lyckligare man är, desto rikare är man. En stark negativ korrelation, som -0,9, betyder i stället att ju rikare man är, desto mindre lycklig är man. En korrelation på eller nära 0 betyder att det inte finns något linjärt samband mellan de två variablerna. Däremot är ett korrelationsvärde på eller nära 0 möjligt att få när det finns ett icke-linjärt samband. Ett exempel på detta vore om både höga och låga värden på rikedom hade samband med höga värden på lycka. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband.

En korrelation säger ingenting om orsakssamband, eller kausalitet. I det ovan nämnda exemplet säger en stark positiv korrelation alltså inte att man är lycklig på grund av att man är rik. Det kan lika gärna vara så att man är rik på grund av att man är lycklig, eller att en tredje variabel (till exempel social bakgrund) orsakar både lycka och rikedom.

Det finns många olika sätt att beräkna korrelationen, och den lämpligaste formen att använda beror bland annat på vilken skala variablerna är angiva i. Den mest välkända och vanligaste formen är Pearsons produktmomentkorrelationskoefficient, där korrelationen beräknas som kovariansen mellan de två variablerna dividerat med de båda variablernas standardavvikelse. Metoden är döpt efter statistikern Karl Pearson, men beskrevs först av Francis Galton. Denna korrelation, som i allmänhet betecknas ρX, Y, mellan två stokastiska variabler X och Y med väntevärde μX och μY och standardavvikelse σX och σY definieras som:


\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}.

Ett specialfall av Pearsons korrelation ges av Spearmans rangkorrelation, som är Pearsons korrelation uträknat på rangen av X- och Y-värdena. En annan form av korrelation ges av Kendalls tau, som beräknas som en funktion av antal konkordanta och diskordanta par av observationer i materialet.

Se även[redigera | redigera wikitext]