Korrelation

Från Wikipedia
Hoppa till: navigering, sök

Korrelation är ett begrepp inom statistik som anger styrkan och riktningen av ett samband mellan två eller fler variabler. Korrelationen anges ofta med en så kallad korrelationskoefficient. En metod för att bestämma korrelationen mellan två variabler är bivariat analys.

Korrelationskoefficienten uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man. Det kan även uttryckas omvänt; ju lyckligare man är, desto rikare är man. En stark negativ korrelation, som -0,9, betyder i stället att ju rikare man är, desto mindre lycklig är man. En korrelationskoefficient på eller nära 0 betyder att det inte finns någon korrelation mellan de två variablerna. Det kan ändå finnas ett samband, vilket kan exemplifieras med sambandet mellan smaklighet och sälta i mat. Om både mycket låga och höga värden på mängd salt ger låga värden på bedömd smak, medan värden däremellan ger höga värden på bedömd smak, finns ett icke-linjärt, eller "krökt", samband. Korrelationsvärdet skulle dock vara nära 0. I föregående exempel skulle detta gälla om både höga och låga värden på rikedom hade samband med höga värden på lycka. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband och bara användbar när det finns anledning att förutsätta ett linjärt samband, dvs "ju mer desto bättre" eller tvärt om.

En korrelation säger ingenting om orsakssamband, eller kausalitet. I det första exemplet ovan säger en stark positiv korrelation alltså inte att man är lycklig på grund av att man är rik. Det kan lika gärna vara så att man är rik på grund av att man är lycklig, eller att en tredje variabel (till exempel social bakgrund) orsakar både lycka och rikedom.

Det finns många olika sätt att beräkna korrelationen, och den lämpligaste formen att använda beror bland annat på vilken skala variablerna är angiva i. Den mest välkända och vanligaste formen är Pearsons produktmomentkorrelationskoefficient, där korrelationen beräknas som kovariansen mellan de två variablerna dividerat med de båda variablernas standardavvikelse. Metoden är döpt efter statistikern Karl Pearson, men beskrevs först av Francis Galton. Denna korrelation, som i allmänhet betecknas ρX, Y, mellan två stokastiska variabler X och Y med väntevärde μX och μY och standardavvikelse σX och σY definieras som:


\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}.

Ett specialfall av Pearsons korrelation ges av Spearmans rangkorrelation, som är Pearsons korrelation uträknat på rangen av X- och Y-värdena. En annan form av korrelation ges av Kendalls tau, som beräknas som en funktion av antal konkordanta och diskordanta par av observationer i materialet.

Se även[redigera | redigera wikitext]