Investor's wiki

Chi-Square (χ2) Statistikk

Chi-Square (χ2) Statistikk

Hva er en Chi-Square-statistikk?

En kjikvadrat (χ2) ^^statistikk er en test som måler hvordan en modell sammenlignes med faktisk observerte data. Dataene som brukes til å beregne en kjikvadratstatistikk må være tilfeldig, rå, gjensidig utelukkende,. hentet fra uavhengige variabler og trukket fra et stort nok utvalg. For eksempel oppfyller resultatene av å kaste en rettferdig mynt disse kriteriene.

Chi-kvadrat-tester brukes ofte i hypotesetesting. Chi-kvadratstatistikken sammenligner størrelsen på eventuelle avvik mellom de forventede resultatene og de faktiske resultatene, gitt størrelsen på utvalget og antall variabler i forholdet.

For disse testene brukes frihetsgrader for å bestemme om en viss nullhypotese kan forkastes basert på det totale antallet variabler og prøver i eksperimentet. Som med all statistikk, jo større utvalgsstørrelse, desto mer pålitelige er resultatene.

Formelen for Chi-Square er

χc2 =∑(O i−Ei)2Ei</ mfrac></ mtd>hvor: c=FrihetsgraderO=Observerte verdi(er)E=Forventet(e) verdi(er)\begin&\chi^2_c = \sum \frac{(O_i - E_i )^2} \&\textbf\&c=\text\&O=\text{Observerte verdi(er)}\&E =\text{Forventet verdi(er)}\end

Hva forteller en Chi-Square-statistikk deg?

Det er to hovedtyper av kjikvadratprøver: uavhengighetstesten, som stiller et spørsmål om forhold, for eksempel "Er det en sammenheng mellom studentkjønn og kursvalg?"; og godhetstesten,. som spør noe sånt som "Hvor godt samsvarer mynten i hånden med en teoretisk rettferdig mynt?"

Chi-kvadratanalyse brukes på kategoriske variabler og er spesielt nyttig når disse variablene er nominelle (der rekkefølgen ikke spiller noen rolle, som sivilstatus eller kjønn).

Uavhengighet

Når du vurderer studentkjønn og kursvalg, kan en χ2 test for uavhengighet brukes. For å gjøre denne testen, ville forskeren samle inn data om de to valgte variablene (kjønn og valgte kurs) og deretter sammenligne frekvensene som mannlige og kvinnelige studenter velger blant de tilbudte klassene ved å bruke formelen gitt ovenfor og en χ^ 2^ statistisk tabell.

Hvis det ikke er noen sammenheng mellom kjønn og emneutvalg (det vil si hvis de er uavhengige), bør de faktiske frekvensene som mannlige og kvinnelige studenter velger hvert tilbudt emne forventes å være omtrent lik, eller omvendt, andelen mannlige og kvinnelige studenter. kvinnelige studenter i et hvilket som helst utvalgt emne bør være omtrent lik andelen mannlige og kvinnelige studenter i utvalget.

En χ2 test for uavhengighet kan fortelle oss hvor sannsynlig det er at tilfeldigheter kan forklare enhver observert forskjell mellom de faktiske frekvensene i dataene og disse teoretiske forventningene.

Goodness-of-Fit

χ2 gir en måte å teste hvor godt et utvalg av data samsvarer med de (kjente eller antatte) egenskapene til den større populasjonen som utvalget er ment å representere. Dette er kjent som god passform. Hvis prøvedataene ikke passer til de forventede egenskapene til populasjonen vi er interessert i, vil vi ikke bruke dette utvalget til å trekke konklusjoner om den større populasjonen.

Eksempel

Tenk for eksempel på en imaginær mynt med nøyaktig 50/50 sjanse for å lande hoder eller haler og en ekte mynt som du kaster 100 ganger. Hvis denne mynten er rettferdig, vil den også ha lik sannsynlighet for å lande på hver side, og det forventede resultatet av å kaste mynten 100 ganger er at hoder vil komme opp 50 ganger og haler vil komme opp 50 ganger.

I dette tilfellet kan χ2 fortelle oss hvor godt de faktiske resultatene av 100 myntsvingninger er sammenlignet med den teoretiske modellen om at en rettferdig mynt vil gi 50/50 resultater. Selve kastet kan komme opp 50/50, eller 60/40, eller til og med 90/10. Jo lenger unna de faktiske resultatene av de 100 kastene er fra 50/50, desto mindre god passer dette settet med kast til den teoretiske forventningen på 50/50, og jo mer sannsynlig kan vi konkludere med at denne mynten faktisk ikke er en rettferdig mynt.

NÃ¥r du skal bruke en chi-square-test

En kjikvadrattest brukes for å avgjøre om observerte resultater er i tråd med forventede resultater, og for å utelukke at observasjoner skyldes tilfeldigheter. En kjikvadrattest er passende for dette når dataene som analyseres er fra et tilfeldig utvalg,. og når den aktuelle variabelen er en kategorisk variabel. En kategorisk variabel er en som består av valg som type bil, rase, utdanningsnivå, mann vs. kvinne, hvor mye noen liker en politisk kandidat (fra veldig mye til veldig lite), etc.

Disse typer data samles ofte inn via spørreundersøkelser eller spørreskjemaer. Derfor er kjikvadratanalyse ofte mest nyttig for å analysere denne typen data.

Høydepunkter

  • χ2 avhenger av størrelsen pÃ¥ forskjellen mellom faktiske og observerte verdier, frihetsgradene og prøvestørrelsen.

  • En kjikvadrat (χ2) ^^statistikk er et mÃ¥l pÃ¥ forskjellen mellom de observerte og forventede frekvensene av utfallet av et sett med hendelser eller variabler.

  • Chi-kvadrat er nyttig for Ã¥ analysere slike forskjeller i kategoriske variabler, spesielt de som er nominelle.

  • Den kan ogsÃ¥ brukes til Ã¥ teste godheten mellom en observert fordeling og en teoretisk fordeling av frekvenser.

  • χ2 kan brukes til Ã¥ teste om to variabler er relaterte eller uavhengige av hverandre.

FAQ

Brukes kjikvadratanalyse når den uavhengige variabelen er nominell eller ordinær?

En nominell variabel er en kategorisk variabel som er forskjellig etter kvalitet, men hvis numeriske rekkefølge kan være irrelevant. For eksempel, å spørre noen om deres favorittfarge ville produsere en nominell variabel. Å spørre om noens alder, derimot, ville produsere et ordinært sett med data. Chi-kvadrat kan best brukes på nominelle data.

Hvem bruker khikvadratanalyse?

Siden kjikvadrat gjelder kategoriske variabler, er det mest brukt av forskere som studerer undersøkelsessvarsdata. Denne typen forskning kan variere fra demografi til forbruker- og markedsundersøkelser til statsvitenskap og økonomi.

Hva brukes en chi-square-test til?

Chi-square er en statistisk test som brukes til å undersøke forskjellene mellom kategoriske variabler fra et tilfeldig utvalg for å bedømme god passform mellom forventede og observerte resultater.