Investor's wiki

Ylisovitus

Ylisovitus

Mitä on yliasennus?

Ylisovitus on mallinnusvirhe tilastoissa, joka tapahtuu, kun funktio on liian tarkasti kohdistettu rajoitettuun tietopisteiden joukkoon. Tämän seurauksena malli on hyödyllinen viitattaessa vain alkuperäiseen tietojoukkoon, ei muihin tietojoukkoon.

Mallin liiallinen sovittaminen tapahtuu yleensä liian monimutkaisen mallin tekemisenä selittämään tutkittavan datan omituisuuksia. Todellisuudessa tutkittavassa datassa on usein jonkinasteista virhettä tai satunnaista kohinaa. Siten mallin yrittäminen mukauttaa liian tarkasti hieman epätarkkoja tietoja voi saastuttaa mallin merkittävillä virheillä ja vähentää sen ennustevoimaa.

Ymmärtää liiallinen sovitus

Esimerkiksi yleinen ongelma on käyttää tietokonealgoritmeja etsimään laajoista historiallisten markkinatietojen tietokannoista mallien löytämiseksi. Riittävällä tutkimuksella on usein mahdollista kehittää yksityiskohtaisia lauseita, jotka näyttävät ennustavan osakemarkkinoiden tuottoa erittäin tarkasti.

Kuitenkin, kun tällaisia lauseita sovelletaan otoksen ulkopuoliseen dataan, ne voivat todennäköisesti osoittautua vain mallin liialliseksi sovittamiseksi sellaisiin, jotka todellisuudessa olivat vain sattumanvaraisia tapahtumia. Kaikissa tapauksissa on tärkeää testata mallia sen kehittämiseen käytetyn otoksen ulkopuolella olevaa dataa vastaan.

Kuinka estää liiallinen istuminen

Tapoja ylisovituksen estämiseksi ovat ristiinvalidointi, jossa mallin opetukseen käytettävä data pilkotaan taiteiksi tai osioihin ja mallia ajetaan jokaiselle taitolle. Sitten kokonaisvirhearvio lasketaan keskiarvosta. Muita menetelmiä ovat yhdistäminen: ennusteet yhdistetään vähintään kahdesta erillisestä mallista, datan lisäys, jossa saatavilla oleva tietojoukko saatetaan näyttämään monipuoliselta, ja tiedon yksinkertaistaminen, jossa mallia virtaviivaistetaan ylisovituksen välttämiseksi.

Talousalan ammattilaisten on aina oltava tietoisia rajoitettuun tietoon perustuvan mallin yli- tai alisovittamisen vaaroista. Ihanteellisen mallin tulee olla tasapainossa.

Ylisovitus koneoppimisessa

Yliasennus on myös tekijä koneoppimisessa. Se saattaa ilmetä, kun kone on opetettu skannaamaan tiettyjä tietoja yhdellä tavalla, mutta kun samaa prosessia sovelletaan uuteen tietosarjaan, tulokset ovat virheellisiä. Tämä johtuu rakennetun mallin virheistä, koska siinä on todennäköisesti pieni harha ja suuri varianssi. Mallissa on saattanut olla redundantteja tai päällekkäisiä ominaisuuksia, minkä seurauksena siitä tuli tarpeettoman monimutkainen ja siksi tehoton.

Yliasennus vs. Alassovitus

Ylisovitettu malli voi olla liian monimutkainen, mikä tekee siitä tehottoman. Mutta malli voi myös olla alivarustettu, mikä tarkoittaa, että se on liian yksinkertainen, liian vähän ominaisuuksia ja liian vähän dataa tehokkaan mallin rakentamiseksi. Ylisovitetussa mallissa on alhainen poikkeama ja suuri varianssi, kun taas alimitoitettu malli on päinvastoin – siinä on suuri poikkeama ja pieni varianssi. Lisäominaisuuksien lisääminen liian yksinkertaiseen malliin voi auttaa rajoittamaan harhaa.

Esimerkki yliasennusta

Esimerkiksi yliopisto, joka näkee korkeakoulujen keskeyttämisprosentin, joka on korkeampi kuin se haluaisi, päättää, että se haluaa luoda mallin ennustamaan todennäköisyyttä, että hakija selviää aina valmistumiseen asti.

Tätä varten yliopisto kouluttaa mallin 5 000 hakijan tietojoukosta ja heidän tuloksistaan. Sitten se käyttää mallia alkuperäisellä tietojoukolla – 5 000 hakijan ryhmällä – ja malli ennustaa lopputuloksen 98 prosentin tarkkuudella. Mutta sen tarkkuuden testaamiseksi he käyttävät mallia myös toisessa tietojoukossa – 5 000 hakijaa lisää. Tällä kertaa malli on kuitenkin vain 50 % tarkka, koska malli sovitettiin liian tarkasti kapeaan data-alajoukkoon, tässä tapauksessa ensimmäisiin 5 000 sovellukseen.

##Kohokohdat

  • Ylisovitus on virhe, joka ilmenee tietojen mallintamisessa, koska tietty toiminto kohdistuu liian lähelle minimaalista datapisteiden joukkoa.

  • Kun malli on vaarantunut ylisovittamisen vuoksi, malli saattaa menettää arvonsa ennustevälineenä sijoittamiseen.

  • Tietomalli voi myös olla alisovitettu, eli se on liian yksinkertainen, liian vähän datapisteitä ollakseen tehokas.

  • Rahoitusalan ammattilaiset ovat vaarassa sovittaa liian vähän rajallisiin tietoihin perustuvan mallin ja päätyä virheellisiin tuloksiin.

  • Yliasennus on yleisempi ongelma kuin aliasennus, ja se johtuu tyypillisesti siitä, että yliasennusta yritetään välttää.