Ei-parametriset tilastot
Mitä ovat ei-parametriset tilastot?
Ei-parametriset tilastot viittaavat tilastolliseen menetelmään, jossa tietojen ei oletetaan olevan määrätyistä malleista, jotka määritetään pienellä määrällä parametreja; esimerkkejä tällaisista malleista ovat normaalijakaumamalli ja lineaarinen regressiomalli. Ei-parametriset tilastot käyttävät joskus järjestystietoja, mikä tarkoittaa, että se ei perustu numeroihin, vaan pikemminkin sijoitukseen tai järjestykseen. Esimerkiksi kyselyä, joka välittää kuluttajien mieltymyksiä, jotka vaihtelevat tykkäämisestä ei-tykkään, katsotaan järjestystiedoksi.
Ei-parametriset tilastot sisältävät ei-parametriset kuvaavat tilastot,. tilastolliset mallit, päättelyt ja tilastolliset testit. Ei-parametristen mallien mallirakennetta ei määritellä a priori, vaan se määritetään tiedoista. Termi ei-parametrinen ei tarkoita sitä, että tällaisilta malleilta puuttuisi täysin parametreja, vaan että parametrien määrä ja luonne ovat joustavia eikä niitä ole ennalta määrätty. Histogrammi on esimerkki todennäköisyysjakauman ei-parametrisesta estimaatista.
Ei-parametristen tilastojen ymmärtäminen
Tilastoissa parametriset tilastot sisältävät parametreja, kuten keskiarvon, keskihajonnan, Pearson-korrelaation, varianssin jne. Tämä tilastomuoto käyttää havaittuja tietoja jakauman parametrien arvioimiseen. Parametritilastoissa tietojen oletetaan usein tulevan normaalijakaumasta, jonka parametrit μ (populaatiokeskiarvo) ja σ2 (populaatiovarianssi) ovat tuntemattomia, ja ne sitten estimoidaan käyttämällä otoskeskiarvoa ja otosvarianssia.
Ei-parametriset tilastot eivät ota oletuksia otoksen koosta tai siitä, ovatko havainnot kvantitatiivisia.
Ei-parametriset tilastot eivät oleta, että tiedot on otettu normaalijakaumasta. Sen sijaan jakauman muoto arvioidaan tällä tilastollisella mittausmuodolla. Vaikka on monia tilanteita, joissa normaalijakauma voidaan olettaa, on myös joitain skenaarioita, joissa todellinen tiedon tuottoprosessi on kaukana normaalijakaumasta.
Esimerkkejä ei-parametrisista tilastoista
Ensimmäisessä esimerkissä harkitse rahoitusanalyytikkoa, joka haluaa arvioida sijoituksen Value-at-risk-arvon (VaR). Analyytikko kerää tulostietoja 100:sta samankaltaisesta sijoituksesta samanlaisen aikahorisontin aikana. Sen sijaan, että olettaisivat, että tulot noudattavat normaalijakaumaa, he käyttävät histogrammia jakauman arvioimiseen ei-parametrisesti. Tämän histogrammin 5. prosenttipiste antaa sitten analyytikolle ei-parametrisen VaR-estimaatin.
Toisessa esimerkissä harkitse toista tutkijaa, joka haluaa tietää, onko keskimääräinen unitunti yhdistetty sairastumistiheyteen. Koska monet ihmiset sairastuvat harvoin, jos ollenkaan, ja satunnaisesti toiset sairastuvat paljon useammin kuin useimmat muut, sairauden esiintymistiheyden jakauma on selvästi epänormaali, oikealle vino ja poikkeaville altis. Siten sen sijaan, että käyttäisivät menetelmää, joka olettaa sairauden esiintymistiheyden normaalijakauman, kuten tehdään esimerkiksi klassisessa regressioanalyysissä, tutkija päättää käyttää ei-parametrista menetelmää, kuten kvantiiliregressioanalyysiä.
Erityisiä huomioita
Ei-parametriset tilastot ovat saaneet arvostusta niiden helppokäyttöisyyden vuoksi. Kun parametrien tarve vähenee, data soveltuu entistä laajemmalle valikoimalle testejä. Tämän tyyppisiä tilastoja voidaan käyttää ilman keskiarvoa, otoskokoa, keskihajontaa tai muiden asiaan liittyvien parametrien estimointia, kun mitään näistä tiedoista ei ole saatavilla.
Koska ei-parametriset tilastot tekevät vähemmän oletuksia otostiedoista, sen käyttöalue on laajempi kuin parametristen tilastojen. Tapauksissa, joissa parametrinen testaus on sopivampi, ei-parametriset menetelmät ovat vähemmän tehokkaita. Tämä johtuu siitä, että ei-parametriset tilastot hylkäävät osan tiedoissa saatavilla olevista tiedoista, toisin kuin parametriset tilastot.
##Kohokohdat
Tämän tyyppinen analyysi soveltuu usein parhaiten jonkin järjestyksen pohtimiseen, jossa vaikka numeerinen data muuttuisi, tulokset todennäköisesti pysyvät ennallaan.
Ei-parametriset tilastot ovat helppokäyttöisiä, mutta ne eivät tarjoa muiden tilastomallien tarkkuutta.