Ikke-parametrisk statistik
Hvad er ikke-parametrisk statistik?
Ikke-parametrisk statistik refererer til en statistisk metode, hvor dataene ikke antages at komme fra foreskrevne modeller, der er bestemt af et lille antal parametre; eksempler på sådanne modeller omfatter normalfordelingsmodellen og den lineære regressionsmodel. Ikke-parametrisk statistik bruger nogle gange data, der er ordinal, hvilket betyder, at den ikke er afhængig af tal, men snarere på en rangering eller rækkefølge. For eksempel vil en undersøgelse, der formidler forbrugerpræferencer, der spænder fra kan lide til ikke lide, blive betragtet som ordinære data.
Ikke-parametrisk statistik omfatter ikke-parametrisk beskrivende statistik,. statistiske modeller, inferens og statistiske test. Modelstrukturen for ikke-parametriske modeller er ikke specificeret a priori, men er i stedet bestemt ud fra data. Udtrykket ikke-parametrisk er ikke ment at antyde, at sådanne modeller fuldstændig mangler parametre, men snarere at antallet og arten af parametrene er fleksible og ikke faste på forhånd. Et histogram er et eksempel på et ikke-parametrisk estimat af en sandsynlighedsfordeling.
Forstå ikke-parametrisk statistik
I statistik omfatter parametrisk statistik parametre som middelværdi, standardafvigelse, Pearson-korrelation, varians osv. Denne form for statistik bruger de observerede data til at estimere fordelingens parametre. Under parametrisk statistik antages data ofte at komme fra en normalfordeling med ukendte parametre μ (populationsmiddelværdi) og σ2 (populationsvarians), som derefter estimeres ved hjælp af stikprøvegennemsnittet og stikprøvevariansen.
Ikke-parametrisk statistik gør ingen antagelser om stikprøvestørrelsen eller om de observerede data er kvantitative.
Ikke-parametrisk statistik antager ikke, at data er trukket fra en normalfordeling. I stedet estimeres fordelingens form under denne form for statistisk måling. Mens der er mange situationer, hvor en normalfordeling kan antages, er der også nogle scenarier, hvor den sande datagenereringsproces langt fra er normalfordelt.
Eksempler på ikke-parametrisk statistik
I det første eksempel skal du overveje en finansanalytiker, der ønsker at estimere en investerings værdi-at-risiko (VaR). Analytikeren indsamler indtjeningsdata fra 100-vis af lignende investeringer over en lignende tidshorisont. I stedet for at antage, at indtjeningen følger en normalfordeling, bruger de histogrammet til at estimere fordelingen ikke-parametrisk. Den 5. percentil af dette histogram giver derefter analytikeren et ikke-parametrisk estimat af VaR.
For et andet eksempel, overvej en anden forsker, der ønsker at vide, om gennemsnitlige timers søvn er forbundet med, hvor ofte man bliver syg. Fordi mange mennesker sjældent eller overhovedet bliver syge, og andre lejlighedsvis bliver syge langt oftere end de fleste andre, er fordelingen af sygdomshyppigheden klart ikke-normal, idet den er højreskæv og tilbøjelig til afvigelser. I stedet for at bruge en metode, der forudsætter en normalfordeling for sygdomshyppighed, som det f.eks. gøres i klassisk regressionsanalyse, beslutter forskeren sig for at bruge en ikke-parametrisk metode, såsom kvantil regressionsanalyse.
Særlige overvejelser
Ikke-parametriske statistikker har fået anerkendelse på grund af deres brugervenlighed. Efterhånden som behovet for parametre aflastes, bliver dataene mere anvendelige til et større udvalg af tests. Denne type statistik kan bruges uden middelværdi, stikprøvestørrelse, standardafvigelse eller estimering af andre relaterede parametre, når ingen af disse oplysninger er tilgængelige.
Da ikke-parametrisk statistik gør færre antagelser om prøvedataene, er dens anvendelse bredere end parametrisk statistik. I tilfælde, hvor parametrisk test er mere passende, vil ikke-parametriske metoder være mindre effektive. Dette skyldes, at ikke-parametriske statistikker kasserer nogle oplysninger, der er tilgængelige i dataene, i modsætning til parametriske statistikker.
Højdepunkter
Denne type analyse er ofte bedst egnet, når man overvejer rækkefølgen af noget, hvor selv hvis de numeriske data ændres, vil resultaterne sandsynligvis forblive de samme.
Ikke-parametriske statistikker er nemme at bruge, men tilbyder ikke den nøjagtige nøjagtighed af andre statistiske modeller.