Prøvetakingsdistribusjon
Hva er en prøvedistribusjon?
En utvalgsfordeling er en sannsynlighetsfordeling av en statistikk hentet fra et større antall utvalg trukket fra en bestemt populasjon. Prøvefordelingen for en gitt populasjon er fordelingen av frekvenser for en rekke forskjellige utfall som muligens kan forekomme for en statistikk over en populasjon.
I statistikk er en populasjon hele bassenget som et statistisk utvalg er trukket fra. En populasjon kan referere til en hel gruppe mennesker, gjenstander, hendelser, sykehusbesøk eller målinger. En populasjon kan dermed sies å være en aggregert observasjon av subjekter gruppert sammen etter et fellestrekk.
- En utvalgsfordeling er en statistikk som kommer ut gjennom gjentatt utvalg fra en større populasjon.
- Den beskriver en rekke mulige utfall som for en statistikk, for eksempel gjennomsnittet eller modusen til en variabel, siden det virkelig eksisterer en populasjon.
- Majoriteten av data analysert av forskere er faktisk hentet fra prøver, og ikke populasjoner.
Forstå prøvetakingsdistribusjon
Mye data tegnet og brukt av akademikere, statistikere, forskere, markedsførere, analytikere osv. er faktisk prøver, ikke populasjoner. Et utvalg er en delmengde av en populasjon. For eksempel kan en medisinsk forsker som ønsket å sammenligne gjennomsnittsvekten til alle babyer født i Nord-Amerika fra 1995 til 2005 med de som ble født i Sør-Amerika innenfor samme tidsperiode ikke innen rimelig tid trekke dataene for hele befolkningen av over en million fødsler som skjedde over tiårsperioden. De vil i stedet bare bruke vekten til for eksempel 100 babyer, i hvert kontinent for å konkludere. Vekten på 200 babyer som er brukt er prøven og gjennomsnittsvekten som er beregnet er prøvegjennomsnittet.
Anta nå at i stedet for å ta bare ett utvalg på 100 nyfødtvekter fra hvert kontinent, tar den medisinske forskeren gjentatte tilfeldige prøver fra den generelle befolkningen og beregner prøvegjennomsnittet for hver utvalgsgruppe. Så for Nord-Amerika henter de data for 100 nyfødtvekter registrert i USA, Canada og Mexico som følger: fire 100 prøver fra utvalgte sykehus i USA, fem 70 prøver fra Canada og tre 150 poster fra Mexico, for totalt sett av 1200 vekter av nyfødte babyer gruppert i 12 sett. De samler også inn prøvedata på 100 fødselsvekter fra hvert av de 12 landene i Sør-Amerika.
Hvert utvalg har sitt eget utvalgsgjennomsnitt og fordelingen av utvalgsgjennomsnittet er kjent som utvalgsfordelingen.
Gjennomsnittsvekten beregnet for hvert prøvesett er prøvetakingsfordelingen av gjennomsnittet. Ikke bare gjennomsnittet kan beregnes fra en prøve. Annen statistikk,. for eksempel standardavvik, varians, proporsjon og rekkevidde, kan beregnes fra prøvedata. Standardavviket og variansen måler variasjonen til prøvetakingsfordelingen.
Antall observasjoner i en populasjon, antall observasjoner i et utvalg og prosedyren som brukes for å trekke utvalgssettene bestemmer variasjonen til en prøvefordeling. Standardavviket til en samplingsfordeling kalles standardfeilen. Mens gjennomsnittet av en prøvefordeling er lik gjennomsnittet av populasjonen, avhenger standardfeilen av standardavviket til populasjonen, størrelsen på populasjonen og størrelsen på utvalget.
Å vite hvor spredt gjennomsnittet av hvert av utvalgssettene er fra hverandre og fra populasjonsgjennomsnittet vil gi en indikasjon på hvor nær utvalgets gjennomsnitt er populasjonsgjennomsnittet. Standardfeilen for utvalgsfordelingen avtar etter hvert som utvalgsstørrelsen øker.
Spesielle hensyn
En populasjon eller ett utvalg tall vil ha en normalfordeling. Men fordi en prøvetakingsfordeling inkluderer flere sett med observasjoner, vil den ikke nødvendigvis ha en klokkebuet form.
Etter vårt eksempel har gjennomsnittsvekten for babyer i Nord-Amerika og Sør-Amerika en normal fordeling fordi noen babyer vil være undervektige (under gjennomsnittet) eller overvektige (over gjennomsnittet), med de fleste babyer som faller i mellom (rundt gjennomsnittet) ). Hvis gjennomsnittsvekten til nyfødte i Nord-Amerika er syv pund, vil prøvegjennomsnittsvekten i hvert av de 12 settene med prøveobservasjoner registrert for Nord-Amerika også være nær syv pund.
Men hvis du grafiserer hvert av gjennomsnittene som er beregnet i hver av de 1200 prøvegruppene, kan den resulterende formen resultere i en jevn fordeling, men det er vanskelig å forutsi med sikkerhet hva den faktiske formen vil vise seg å bli. Jo flere prøver forskeren bruker fra populasjonen på over en million vekttall, jo mer vil grafen begynne å danne en normalfordeling.