Korsvalidering

Från Wikipedia

Korsvalidering är en algoritm inom statistiken för att estimera prediktionsfel. På engelska kallas metoden cross-validation (CV). Många statistiska metoder behöver tränas (kalibreras) på kända data (värden), för att sedan valideras (testas) på separat data. Korsvalidering kan till exempel användas om det inte finns tillräckligt med data för att dela upp datan i fasta delar för träning och validering. Korsvalidering används ofta för att välja parameter för en statistisk metod (kalibrering). Korsvalidering kan också användas för att jämföra olika prediktionsmetoder (vanligtvis klassificerare eller regressionsanalys). Efter korsvalideringen används med fördel separat valideringsdata för att ge ett ärligt estimat av prediktionsfelet.[1][2]

Vanliga typer[redigera | redigera wikitext]

K delar[redigera | redigera wikitext]

Den vanligaste varianten av korsvalidering är k-delad (på engelska: k-fold) korsvalidering som delar in datan i delar för träning och validering där varje k:e värde används som validering. Indelningen av mätvärdena görs slumpmässigt i k ungefär lika stora delar. Så k-1 delar används för träning och en del för validering. Detta repeteras sedan k gånger och medelvärdet av de k prediktionsfelen används som estimat av felet. Typiska val av k är 5, 7 och 10. Till exempel om antal mätvärden n = 120 och k = 10 så delas datan in slumpmässigt i 10 lika stora delar med 12 mätvärden i varje. Sedan används datan i 9 delar (108 mätvärden) till träning och den återstående delen till validering (12 mätvärden). Detta repeteras 10 gånger så att alla delar används till validering varsin gång. Man får då 10 olika prediktionsfel som medelvärdesbildas till ett estimat av prediktionsfelet.[2]

Utelämna en[redigera | redigera wikitext]

Använder man k = n så innebär det att man enbart använder ett mätvärde som validering åt gången och de övriga mätvärdena som träning. Detta repeteras n gånger. Denna variant av korsvalidering innebär att man utelämnar ett mätvärde för validering åt gången, och kallas på engelska för leave-one-out cross-validation (LOOCV). I detta fall är felet nästan utan metodfel för det sanna prediktionsfelet, men har däremot hög varians eftersom alla träningsdelar är så lika varandra. Denna variant har fördelen att den är repeterbar utan någon slumpfaktor. LOOCV används ofta för mindre mängder med mätvärden och har visats vara optimistisk för stora mängder data då träningsdelarna är så lika varandra.[3] Den tar också längre tid att beräkna än vanlig k-delad korsvalidering, när k är mindre än n.[2] Denna typ av korsvalidering ger samma resultat som generaliserad korsvalidering.

Den del av datan som systematiskt utelämnas för validering kan väljas slumpmässigt eller genom att man väljer logiska delmängder av datan för att utreda hur de olika delarna spelar in på resultatet. Till exempel om mätvärden är gjorda under flera dagar kan man utelämna en dag i taget och därmed undersöka om det spelar någon roll från vilken dag mätvärdena är tagna, samt undersöka repeterbarheten av prediktionen. Då motsvarar en validerings-del en dag.[4]

Multipel indelning[redigera | redigera wikitext]

Multipel indelning kallas även repeterad slumpmässig sub-samplings-validering. Denna variant innebär att man delar in datan i slumpmässiga indelningar för varje iteration. Jämfört med k-delar så har den fördelen att proportionen av träning- och valideringsdelarna inte är beroende av antalet iterationer (delar). Nackdelen är att vissa mätvärden kanske aldrig blir valda för validering, medan andra kan bli valda mer än en gång. Detta betyder att valideringsdelarna kan överlappa varandra.[2]

Se även[redigera | redigera wikitext]

Korsvalidering har likheter med metoder som bootstrap och omsampling.[2]

Referenser[redigera | redigera wikitext]

  1. ^ Nationalencyklopedin http://www.ne.se/korsvalidering (Hämtad 2013-02-23)
  2. ^ [a b c d e] Hastie, Trevor; Robert Tibshirani, Jerome Friedman (2009) (på engelska). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2). Springer. sid. 763. ISBN 0387848584. http://www-stat.stanford.edu/~tibs/ElemStatLearn/. Läst 23 februari 2013  Arkiverad 10 november 2009 hämtat från the Wayback Machine.
  3. ^ Tran, Minh Ngoc (2009). ”Penalized maximum likelihood principle for choosing ridge parameter”. Communication in Statistics - Simulation and Computation 38 (8): sid. 1610-1624. doi:10.1080/03610910903061014. http://www.tandfonline.com/doi/abs/10.1080/03610910903061014. 
  4. ^ Bro-Jørgensen, Rasmus; Kjeldahl, Karin; Smilde, A.K.; Kiers, H.A.L. (2008). ”Cross-validation of component models: a critical look at current methods”. Analytical and Bioanalytical Chemistry 390 (5): sid. 1241-1251. doi:10.1007/s00216-007-1790-1. Arkiverad från originalet den 29 april 2013. https://archive.is/20130429105608/http://curis.ku.dk/portal-life/en/publications/crossvalidation-of-component-models(97e36ca0-d388-11dd-9473-000ea68e967b).html. Läst 23 februari 2013.