Ikke-parametrisk statistikk

Hva er ikke-parametrisk statistikk?

Ikke-parametrisk statistikk refererer til en statistisk metode der dataene ikke antas å komme fra foreskrevne modeller som er bestemt av et lite antall parametere; eksempler på slike modeller inkluderer normalfordelingsmodellen og den lineære regresjonsmodellen. Ikke-parametrisk statistikk bruker noen ganger data som er ordinal, noe som betyr at den ikke er avhengig av tall, men heller på en rangering eller rekkefølge. For eksempel vil en undersøkelse som formidler forbrukerpreferanser som spenner fra liker til misliker, anses som ordinære data.

Ikke-parametrisk statistikk inkluderer ikke-parametrisk beskrivende statistikk,. statistiske modeller, slutninger og statistiske tester. Modellstrukturen til ikke-parametriske modeller er ikke spesifisert a priori, men bestemmes i stedet fra data. Begrepet ikke-parametrisk er ikke ment å antyde at slike modeller fullstendig mangler parametere, men snarere at antallet og arten av parameterne er fleksible og ikke faste på forhånd. Et histogram er et eksempel på et ikke-parametrisk estimat av en sannsynlighetsfordeling.

Forstå ikke-parametrisk statistikk

I statistikk inkluderer parametrisk statistikk parametere som gjennomsnitt, standardavvik, Pearson-korrelasjon, varians, etc. Denne formen for statistikk bruker de observerte dataene til å estimere parametrene for fordelingen. Under parametrisk statistikk antas data ofte å komme fra en normalfordeling med ukjente parametere μ (populasjonsgjennomsnitt) og σ2 (populasjonsvarians), som deretter estimeres ved hjelp av utvalgsgjennomsnittet og utvalgsvariansen.

Ikke-parametrisk statistikk gjør ingen antagelser om utvalgsstørrelsen eller om de observerte dataene er kvantitative.

Ikke-parametrisk statistikk forutsetter ikke at data er hentet fra en normalfordeling. I stedet estimeres formen på fordelingen under denne formen for statistisk måling. Mens det er mange situasjoner der en normalfordeling kan antas, er det også noen scenarier der den sanne datagenereringsprosessen er langt fra normalfordelt.

Eksempler på ikke-parametrisk statistikk

I det første eksemplet, vurder en finansanalytiker som ønsker å estimere verdien-at-risk (VaR) til en investering. Analytikeren samler inn inntektsdata fra 100-vis av lignende investeringer over en lignende tidshorisont. I stedet for å anta at inntjeningen følger en normalfordeling, bruker de histogrammet til å estimere fordelingen ikke-parametrisk. Den 5. persentilen til dette histogrammet gir deretter analytikeren et ikke-parametrisk estimat av VaR.

For et annet eksempel, tenk på en annen forsker som ønsker å vite om gjennomsnittlige timers søvn er knyttet til hvor ofte man blir syk. Fordi mange mennesker blir syke sjelden, om i det hele tatt, og av og til blir andre syke langt oftere enn de fleste andre, er fordelingen av sykdomshyppigheten klart ikke-normal, rettskjev og utsatt for avvik. I stedet for å bruke en metode som forutsetter en normalfordeling for sykdomsfrekvens, slik det for eksempel gjøres i klassisk regresjonsanalyse, bestemmer forskeren seg for å bruke en ikke-parametrisk metode som kvantilregresjonsanalyse.

Spesielle hensyn

Ikke-parametrisk statistikk har fått verdsettelse på grunn av deres brukervennlighet. Ettersom behovet for parametere avlastes, blir dataene mer anvendelige for et større utvalg av tester. Denne typen statistikk kan brukes uten gjennomsnitt, utvalgsstørrelse, standardavvik eller estimering av andre relaterte parametere når ingen av denne informasjonen er tilgjengelig.

Siden ikke-parametrisk statistikk gjør færre antakelser om prøvedataene, er anvendelsen bredere enn parametrisk statistikk. I tilfeller der parametrisk testing er mer hensiktsmessig, vil ikke-parametriske metoder være mindre effektive. Dette er fordi ikke-parametrisk statistikk forkaster noe informasjon som er tilgjengelig i dataene, i motsetning til parametrisk statistikk.

##Høydepunkter

– Denne typen analyser egner seg ofte best når man vurderer rekkefølgen til noe, der selv om de numeriske dataene endres, vil resultatene sannsynligvis forbli de samme.

Ikke-parametrisk statistikk er enkel å bruke, men gir ikke den nøyaktige nøyaktigheten til andre statistiske modeller.