Investor's wiki

Överanpassning

Överanpassning

Vad Àr övermontering?

Överanpassning Ă€r ett modelleringsfel i statistik som uppstĂ„r nĂ€r en funktion Ă€r för nĂ€ra inriktad med en begrĂ€nsad uppsĂ€ttning datapunkter. Som ett resultat Ă€r modellen anvĂ€ndbar endast med avseende pĂ„ dess initiala datamĂ€ngd och inte till nĂ„gra andra datamĂ€ngder.

Att överanpassa modellen tar i allmÀnhet formen av att man gör en alltför komplex modell för att förklara egenheter i de data som studeras. I verkligheten har data som studeras ofta en viss grad av fel eller slumpmÀssigt brus i sig. SÄledes kan ett försök att fÄ modellen att överensstÀmma för nÀra till nÄgot felaktiga data infektera modellen med vÀsentliga fel och minska dess prediktiva kraft.

FörstÄ övermontering

Ett vanligt problem Àr till exempel att anvÀnda datoralgoritmer för att söka i omfattande databaser med historiska marknadsdata för att hitta mönster. Givet tillrÀckligt med studier Àr det ofta möjligt att utveckla utarbetade satser som verkar förutsÀga avkastningen pÄ aktiemarknaden med stor noggrannhet.

Men nÀr de tillÀmpas pÄ data utanför urvalet, kan sÄdana satser sannolikt visa sig vara enbart överanpassning av en modell till vad som i verkligheten var bara slumpmÀssiga hÀndelser. I alla fall Àr det viktigt att testa en modell mot data som ligger utanför det urval som anvÀnds för att utveckla den.

Hur man förhindrar övermontering

SÀtt att förhindra överanpassning inkluderar korsvalidering, dÀr data som anvÀnds för att trÀna modellen kapas i veck eller partitioner och modellen körs för varje veck. Sedan berÀknas ett medelvÀrde för den totala feluppskattningen. Andra metoder inkluderar ensembling: förutsÀgelser kombineras frÄn minst tvÄ separata modeller, dataförstÀrkning, dÀr den tillgÀngliga datamÀngden görs för att se mÄngsidig ut, och dataförenkling, dÀr modellen strömlinjeformas för att undvika överanpassning.

Finansiella proffs mÄste alltid vara medvetna om farorna med att över- eller undermontera en modell baserad pÄ begrÀnsad data. Den ideala modellen bör vara balanserad.

Överanpassning i maskininlĂ€rning

Överanpassning Ă€r ocksĂ„ en faktor i maskininlĂ€rning. Det kan uppstĂ„ nĂ€r en maskin har lĂ€rt sig att skanna efter specifik data pĂ„ ett sĂ€tt, men nĂ€r samma process tillĂ€mpas pĂ„ en ny uppsĂ€ttning data Ă€r resultaten felaktiga. Detta beror pĂ„ fel i modellen som byggdes, eftersom den sannolikt visar lĂ„g bias och hög varians. Modellen kan ha haft redundanta eller överlappande funktioner, vilket resulterade i att den blev onödigt komplicerad och dĂ€rför ineffektiv.

Övermontering vs. undermontering

En modell som Ă€r övermonterad kan vara för komplicerad, vilket gör den ineffektiv. Men en modell kan ocksĂ„ vara undermonterad, vilket innebĂ€r att den Ă€r för enkel, med för fĂ„ funktioner och för lite data för att bygga en effektiv modell. En overfit-modell har lĂ„g bias och hög varians, medan en underfit-modell Ă€r motsatsen – den har hög bias och lĂ„g varians. Att lĂ€gga till fler funktioner i en för enkel modell kan hjĂ€lpa till att begrĂ€nsa fördomar.

Övermonteringsexempel

Till exempel bestÀmmer ett universitet som ser ett avhopp frÄn högskolor som Àr högre Àn vad det skulle vilja att det vill skapa en modell för att förutsÀga sannolikheten att en sökande kommer att ta sig hela vÀgen fram till examen.

För att göra detta trĂ€nar universitetet en modell frĂ„n ett dataset med 5 000 sökande och deras resultat. Den kör sedan modellen pĂ„ den ursprungliga datamĂ€ngden – gruppen pĂ„ 5 000 sökande – och modellen förutsĂ€ger resultatet med 98 % noggrannhet. Men för att testa dess noggrannhet kör de ocksĂ„ modellen pĂ„ en andra datamĂ€ngd – 5 000 fler sökande. Men den hĂ€r gĂ„ngen Ă€r modellen bara 50 % korrekt, eftersom modellen var för nĂ€ra anpassad till en smal dataundergrupp, i det hĂ€r fallet de första 5 000 ansökningarna.

Höjdpunkter

  • Överanpassning Ă€r ett fel som uppstĂ„r i datamodellering som ett resultat av att en viss funktion Ă€r för nĂ€ra en minimal uppsĂ€ttning datapunkter.

– NĂ€r en modell har Ă€ventyrats av överutrustning kan modellen förlora sitt vĂ€rde som ett prediktivt verktyg för att investera.

– En datamodell kan ocksĂ„ vara undermonterad, vilket innebĂ€r att den Ă€r för enkel, med för fĂ„ datapunkter för att vara effektiv.

– Finansiella proffs riskerar att överanpassa en modell som bygger pĂ„ begrĂ€nsad data och att fĂ„ resultat som Ă€r felaktiga.

– Överanpassning Ă€r ett vanligare problem Ă€n underpassning och uppstĂ„r vanligtvis som ett resultat av att man försöker undvika överanpassning.