Prøveudtagning

Hvad er en stikprøvefordeling?

En stikprøvefordeling er en sandsynlighedsfordeling af en statistik opnået fra et større antal stikprøver fra en bestemt population. Prøvefordelingen af en given population er fordelingen af frekvenser af en række forskellige udfald, der muligvis kan forekomme for en statistik over en population.

I statistik er en population hele den pulje, som en statistisk stikprøve er trukket fra. En befolkning kan referere til en hel gruppe mennesker, genstande, begivenheder, hospitalsbesøg eller målinger. En population kan således siges at være en aggregeret observation af emner grupperet sammen efter et fælles træk.

En stikprøvefordeling er en statistik, der kommer ud gennem gentagen stikprøve fra en større population.

Det beskriver en række mulige udfald af en statistik, såsom middelværdien eller tilstanden af en variabel, da det virkelig eksisterer en population.

Størstedelen af data analyseret af forskere er faktisk trukket fra prøver og ikke populationer.

Forstå stikprøvefordeling

En masse data tegnet og brugt af akademikere, statistikere, forskere, marketingfolk, analytikere osv. er faktisk prøver, ikke populationer. En stikprøve er en delmængde af en population. For eksempel kan en medicinsk forsker, der ønskede at sammenligne gennemsnitsvægten af alle babyer født i Nordamerika fra 1995 til 2005 med dem, der er født i Sydamerika inden for samme tidsperiode, ikke inden for et rimeligt tidsrum trække data for hele befolkningen i over en million fødsler, der fandt sted over den tiårige tidsramme. De vil i stedet kun bruge vægten af f.eks. 100 babyer på hvert kontinent til at konkludere. Vægten af 200 brugte babyer er prøven, og den beregnede gennemsnitlige vægt er prøvegennemsnittet.

Antag nu, at i stedet for kun at tage én prøve på 100 nyfødte vægte fra hvert kontinent, tager den medicinske forskere gentagne tilfældige prøver fra den generelle befolkning og beregner stikprøvegennemsnittet for hver prøvegruppe. Så for Nordamerika henter de data for 100 nyfødte vægte registreret i USA, Canada og Mexico som følger: fire 100 prøver fra udvalgte hospitaler i USA, fem 70 prøver fra Canada og tre 150 registreringer fra Mexico, for i alt af 1.200 vægte af nyfødte babyer grupperet i 12 sæt. De indsamler også en prøvedata på 100 fødselsvægte fra hvert af de 12 lande i Sydamerika.

Hver prøve har sit eget prøvegennemsnit, og fordelingen af prøvegennemsnittet er kendt som prøvefordelingen.

Gennemsnitsvægten beregnet for hvert prøvesæt er prøveudtagningsfordelingen af middelværdien. Ikke kun middelværdien kan beregnes ud fra en prøve. Andre statistikker,. såsom standardafvigelse, varians, proportion og interval, kan beregnes ud fra stikprøvedata. Standardafvigelsen og variansen måler variabiliteten af stikprøvefordelingen.

Antallet af observationer i en population, antallet af observationer i en stikprøve og den procedure, der bruges til at tegne stikprøvesættene, bestemmer variabiliteten af en stikprøvefordeling. Standardafvigelsen af en stikprøvefordeling kaldes standardfejlen. Mens gennemsnittet af en stikprøvefordeling er lig med gennemsnittet af populationen, afhænger standardfejlen af standardafvigelsen af populationen, størrelsen af populationen og størrelsen af stikprøven.

At vide, hvor spredt gennemsnittet af hvert af stikprøvesættene er fra hinanden og fra populationsgennemsnittet, vil give en indikation af, hvor tæt stikprøvegennemsnittet er på populationsgennemsnittet. Standardfejlen for stikprøvefordelingen falder, når stikprøvestørrelsen øges.

Særlige overvejelser

En population eller et stikprøvesæt af tal vil have en normalfordeling. Men fordi en prøveudtagningsfordeling omfatter flere sæt observationer, vil den ikke nødvendigvis have en klokkebuet form.

Efter vores eksempel har befolkningsgennemsnitsvægten for babyer i Nordamerika og Sydamerika en normal fordeling, fordi nogle babyer vil være undervægtige (under gennemsnittet) eller overvægtige (over gennemsnittet), hvor de fleste babyer falder imellem (omkring gennemsnittet) ) ). Hvis gennemsnitsvægten af nyfødte i Nordamerika er syv pund, vil prøvegennemsnitsvægten i hvert af de 12 sæt prøveobservationer, der er registreret for Nordamerika, også være tæt på syv pund.

Men hvis du grafer hvert af gennemsnittet beregnet i hver af de 1.200 prøvegrupper, kan den resulterende form resultere i en ensartet fordeling, men det er svært at forudsige med sikkerhed, hvad den faktiske form vil vise sig at være. Jo flere prøver forskeren bruger fra befolkningen på over en million vægtfigurer, jo mere vil grafen begynde at danne en normalfordeling.