Konfidensinterval

Hvad er konfidensinterval?

Et konfidensinterval i statistik refererer til sandsynligheden for, at en populationsparameter vil falde mellem et sæt værdier i en vis andel af gange.

Forståelse af konfidensintervaller

Konfidensintervaller måler graden af usikkerhed eller sikkerhed i en stikprøvemetode. De kan tage et vilkårligt antal sandsynlighedsgrænser, hvor den mest almindelige er et 95 % eller 99 % konfidensniveau. Konfidensintervaller udføres ved hjælp af statistiske metoder, såsom en t-test.

Statistikere bruger konfidensintervaller til at måle usikkerhed i en stikprøvevariabel. For eksempel udvælger en forsker forskellige stikprøver tilfældigt fra den samme population og beregner et konfidensinterval for hver prøve for at se, hvordan den kan repræsentere den sande værdi af populationsvariablen. De resulterende datasæt er alle forskellige; nogle intervaller inkluderer den sande populationsparameter, og andre gør ikke.

Et konfidensinterval er et interval af værdier, afgrænset over og under statistikkens middelværdi,. som sandsynligvis ville indeholde en ukendt populationsparameter. Konfidensniveau refererer til procentdelen af sandsynlighed eller sikkerhed for, at konfidensintervallet ville indeholde den sande populationsparameter, når du trækker en tilfældig stikprøve mange gange. Eller i folkemunde, "vi er 99 % sikre på (konfidensniveau), at de fleste af disse prøver (konfidensintervaller) indeholder den sande populationsparameter."

Den største misforståelse med hensyn til konfidensintervaller er, at de repræsenterer procentdelen af data fra en given prøve, der falder mellem de øvre og nedre grænser. For eksempel kan man fejlagtigt fortolke det førnævnte 99% konfidensinterval på 70-til-78 tommer som et tegn på, at 99% af dataene i en tilfældig stikprøve falder mellem disse tal. Dette er forkert, selvom der findes en separat metode til statistisk analyse til at foretage en sådan bestemmelse. Dette indebærer at identificere prøvens middelværdi og standardafvigelse og plotte disse tal på en klokkekurve.

Konfidensinterval og konfidensniveau hænger sammen, men er ikke helt det samme.

Beregning af konfidensinterval

Antag, at en gruppe forskere studerer højderne af high school basketballspillere. Forskerne tager en tilfældig prøve fra befolkningen og fastslår en gennemsnitlig højde på 74 tommer.

Middelværdien på 74 tommer er et punktestimat af befolkningsgennemsnittet. Et punktestimat i sig selv er af begrænset anvendelighed, fordi det ikke afslører den usikkerhed, der er forbundet med estimatet; du har ikke en god fornemmelse af, hvor langt væk denne 74-tommer prøvegennemsnit kan være fra populationsgennemsnittet. Det, der mangler, er graden af usikkerhed i denne enkelte prøve.

Konfidensintervaller giver mere information end punktestimater. Ved at etablere et 95 % konfidensinterval ved hjælp af prøvens middelværdi og standardafvigelse og antage en normalfordeling som repræsenteret ved klokkekurven, når forskerne frem til en øvre og nedre grænse, der indeholder den sande middelværdi 95 % af tiden.

Antag, at intervallet er mellem 72 tommer og 76 tommer. Hvis forskerne tager 100 tilfældige prøver fra befolkningen af high school basketballspillere som helhed, skulle gennemsnittet falde mellem 72 og 76 tommer i 95 af disse prøver.

Hvis forskerne ønsker endnu større tillid, kan de udvide intervallet til 99 % tillid. At gøre det skaber uvægerligt et bredere udvalg, da det giver plads til et større antal prøvemidler. Hvis de fastslår, at 99 % konfidensintervallet er mellem 70 tommer og 78 tommer, kan de forvente, at 99 ud af 100 prøver vurderet indeholder en middelværdi mellem disse tal.

Et 90 % konfidensniveau betyder på den anden side, at vi forventer, at 90 % af intervalestimaterne inkluderer populationsparameteren og så videre.

Højdepunkter

De er oftest konstrueret ved hjælp af konfidensniveauer på 95 % eller 99 %.
Et konfidensinterval viser sandsynligheden for, at en parameter falder mellem et par værdier omkring middelværdien.
Konfidensintervaller måler graden af usikkerhed eller sikkerhed i en stikprøvemetode.

Ofte stillede spørgsmål

Hvad er en almindelig misforståelse om konfidensintervaller?

Den største misforståelse med hensyn til konfidensintervaller er, at de repræsenterer procentdelen af data fra en given prøve, der falder mellem de øvre og nedre grænser. Det ville med andre ord være forkert at antage, at et 99 % konfidensinterval betyder, at 99 % af dataene i en tilfældig stikprøve falder mellem disse grænser. Hvad det faktisk betyder er, at man kan være 99% sikker på, at intervallet vil indeholde befolkningsgennemsnittet.

Hvad er en T-test?

Konfidensintervaller udføres ved hjælp af statistiske metoder, såsom en t-test. En t-test er en type inferentiel statistik, der bruges til at bestemme, om der er en signifikant forskel mellem middelværdierne for to grupper, som kan være relateret til visse funktioner. Beregning af en t-test kræver tre nøgledataværdier. De inkluderer forskellen mellem middelværdierne fra hvert datasæt (kaldet middelforskellen), standardafvigelsen for hver gruppe og antallet af dataværdier for hver gruppe.

Hvad afslører et konfidensinterval?

Et konfidensinterval er en række værdier, afgrænset over og under statistikkens middelværdi, som sandsynligvis ville indeholde en ukendt populationsparameter. Konfidensniveau refererer til procentdelen af sandsynlighed eller sikkerhed for, at konfidensintervallet ville indeholde den sande populationsparameter, når du trækker en tilfældig stikprøve mange gange.

Hvordan bruges konfidensintervaller?

Statistikere bruger konfidensintervaller til at måle usikkerhed i en stikprøvevariabel. For eksempel udvælger en forsker forskellige stikprøver tilfældigt fra den samme population og beregner et konfidensinterval for hver prøve for at se, hvordan den kan repræsentere den sande værdi af populationsvariablen. De resulterende datasæt er alle forskellige, hvor nogle intervaller inkluderer den sande populationsparameter, og andre ikke gør.