Principalkomponentanalys

Från Wikipedia
Hoppa till: navigering, sök
PCA av en multivariabel Gaussfördelning centrerad vid (1,3) med standardavvikelse 3. Vektorerna är egenvektorerna av kovariansmatrisen skalad med kvadratroten ur respektive egenvärde, och flyttade så att de utgår från datans medelvärde.

Principalkomponentanalys, ofta förkortat PCA av engelskans principal component analysis, är en linjär ortogonal transform som gör att den transformerade datans dimensioner är ortogonala; det vill säga att de är oberoende och inte har någon kovarians (eller korrelation). PCA introducerades 1901 av Karl Pearson.[1] Alternativa namn är Karhunen–Loève transform (KLT), Hotellingtransform och proper orthogonal decomposition (POD). PCA har likheter med faktoranalys som till skillnad från PCA inte är en ortogonal transform.

Typiskt beräknar man PCA på kovariansmatrisen eller korrelationsmatrisen av datan. PCA innebär nu att hitta en linjär transform av datan så att kovariansmatrisen blir diagonal, dvs i vilka riktningar data varierar mest. PCA beräknas genom singulärvärdesuppdelning där man beräknar egenvektorerna och dess egenvärden. Egenvektorerna utgör basen för den transformerade datan, dessa kallas för principalkomponenter eller principalaxlar och utgör de nya dimensionerna; ett nytt koordinatsystem. Detta förfarande kallas även diagonalisering av kovariansmatrisen. Egenvärdena utgör variansen längs med den komponenten. På det här sättet behåller man så mycket som möjligt av variansen i datan samtidigt som de nya dimensionerna hålls oberoende. Det betyder att den första komponenten representerar den största oberoende variansen i datan.

Det är vanligt att man använder PCA för att reducera antalet dimensioner i datan. Eftersom komponenterna är valda efter storlek av oberoende varians så antar man att man kan behålla mycket av informationen i datan genom att använda enbart de komponenter som representerar en stor del av variansen. Man antar ofta att komponenterna som representerar de lägsta nivåerna av varians utgör brus i datan. Genom att använda de första komponenterna och exkludera de övriga så kan man representera en stor del av variansen i datan. Om man antar att informationen av intresse utgörs av varians så är detta ett sätt att reducera antalet dimensioner i datan. Denna egenskap kan användas för att lättare hitta samband, kompression, visualisering, utforskande analys av datan, eller för att underlätta vidare statistisk analys.

Exempel[redigera | redigera wikitext]

Låt x vara en n-dimensionell vektor med attribut, till exempel från ett bildigenkänningsproblem. x skulle kunna bestå av tre färgvärden för en pixel. Samla N>n exempel på x, till exempel från alla pixlar i en given bild. Kovariansmatrisen benämns C.

Punkter i två dimensioner
De två första komponenterna av samma punkter efter PCA



Olinjär PCA[redigera | redigera wikitext]

Genom att formulera PCA endast uttryckt i skalärprodukter kan man hitta principalkomponenter i rum av mycket högre dimension än den ursprungliga datan, utan att beräkna vektorerna i detta rum explicit.[2] Figurerna visar ett exempel på detta. Färgerna på punkterna och rutnätet är bara till för att bättre illustrera metoden; de har ingen betydelse för algoritmen. Kärnan som användes var gaussisk, dvs k(\boldsymbol{x},\boldsymbol{y}) = e^\frac{-||\boldsymbol{x} - \boldsymbol{y}||)^2}{2\sigma^2}. Kärnan är skalärprodukten av de två vektorerna i R2 av högre dimension.

Punkter i två dimensioner
De två första komponenterna av samma punkter efter olinjär PCA med en gaussisk kärna.


Se även[redigera | redigera wikitext]

Referenser[redigera | redigera wikitext]

  1. ^ Pearson, K. (1901). ”On Lines and Planes of Closest Fit to Systems of Points in Space” (PDF). Philosophical Magazine "2" (6): sid. 559–572. http://stat.smmu.edu.cn/history/pearson1901.pdf. 
  2. ^ Nonlinear Component Analysis as a Kernel Eigenvalue Problem (PDF) En bra beskrivning av hur kärnor kan användas till att genomföra olinjär PCA

Externa länkar[redigera | redigera wikitext]