Investor's wiki

Kvartil

Kvartil

Hvad er en kvartil?

En kvartil er et statistisk udtryk, der beskriver en opdeling af observationer i fire definerede intervaller baseret på værdierne af dataene, og hvordan de sammenlignes med hele observationssættet.

ForstĂĄ kvartiler

For at forstå kvartilen er det vigtigt at forstå medianen som et mål for central tendens. Medianen i statistik er den midterste værdi af et sæt tal. Det er det punkt, hvor præcis halvdelen af dataene ligger under og over den centrale værdi.

Så givet et sæt på 13 tal, der er sorteret (stigende eller faldende), ville medianen være det syvende tal. De seks tal, der går forud for denne værdi, er de laveste tal i dataene, og de seks tal efter medianen er de højeste tal i det angivne datasæt. Fordi medianen ikke påvirkes af ekstreme værdier eller outliers i fordelingen, foretrækkes den nogle gange frem for middelværdien.

Medianen er en robust estimator af placering, men siger intet om, hvordan dataene på hver side af dens værdi er spredt eller spredt. Det er her kvartilen træder ind. Kvartilen måler spredningen af værdier over og under middelværdien ved at opdele fordelingen i fire grupper.

Hvordan kvartiler virker

Ligesom medianen deler dataene i halvdelen, så 50 % af målingen ligger under medianen og 50 % ligger over den, opdeler kvartilen dataene i kvartaler, således at 25 % af målingerne er mindre end den nedre kvartil, 50 % er mindre end medianen, og 75 % er mindre end den øvre kvartil.

En kvartil opdeler data i tre punkter – en nedre kvartil, median og øvre kvartil – for at danne fire grupper af datasættet. Den nederste kvartil, eller første kvartil, betegnes som Q1 og er det midterste tal, der falder mellem den mindste værdi af datasættet og medianen. Den anden kvartil, Q2, er også medianen. Den øvre eller tredje kvartil, betegnet som Q3, er det centrale punkt, der ligger mellem medianen og det højeste antal af fordelingen.

Nu kan vi kortlægge de fire grupper dannet ud fra kvartilerne. Den første gruppe af værdier indeholder det mindste tal op til Q1; den anden gruppe inkluderer Q1 til medianen; det tredje sæt er medianen til Q3; den fjerde kategori omfatter Q3 til det højeste datapunkt i hele sættet.

Hver kvartil indeholder 25% af de samlede observationer. Generelt er dataene arrangeret fra mindste til største:

  1. Første kvartil: de laveste 25 % af tallene

  2. Anden kvartil: mellem 0 % og 50 % (op til medianen)

  3. Tredje kvartil: 0 % til 75 %

  4. Fjerde kvartil: de højeste 25 % af tallene

Eksempel pĂĄ kvartil

Antag, at fordelingen af matematikresultater i en klasse på 19 elever i stigende rækkefølge er:

  • 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98

Marker først medianen, Q2, som i dette tilfælde er den 10te værdi: 75.

Q1 er det centrale punkt mellem den mindste score og medianen. I dette tilfælde falder Q1 mellem første og femte score: 68. (Bemærk at medianen også kan inkluderes ved beregning af Q1 eller Q3 for et ulige sæt værdier. Hvis vi skulle inkludere medianen på hver side af midtpunktet , så vil Q1 være den midterste værdi mellem den første og 10te score, som er gennemsnittet af den femte og sjette score—(femte + sjette)/2 = (68 + 69)/2 = 68,5).

Q3 er den midterste værdi mellem Q2 og den højeste score: 84. (Eller hvis du inkluderer medianen, Q3 = (82 + 84)/2 = 83).

Nu hvor vi har vores kvartiler, lad os fortolke deres tal. En score på 68 (Q1) repræsenterer den første kvartil og er 25th percentilen. 68 er medianen af den nederste halvdel af scoren sat i de tilgængelige data - det vil sige medianen af scorerne fra 59 til 75.

Q1 fortæller os, at 25 % af resultaterne er mindre end 68, og 75 % af klasseresultaterne er højere. Q2 (medianen) er 50th percentilen og viser, at 50% af scorerne er mindre end 75, og 50% af scorerne er over 75. Endelig afslører Q3, 75th percentilen, at 25% af scoringerne er større, og 75 % er mindre end 84.

Særlige overvejelser

Hvis datapunktet for Q1 er længere væk fra medianen end Q3 er fra medianen, så kan vi sige, at der er en større spredning blandt de mindre værdier af datasættet end blandt de større værdier. Den samme logik gælder, hvis Q3 er længere væk fra Q2, end Q1 er fra medianen.

Alternativt, hvis der er et lige antal datapunkter, vil medianen være gennemsnittet af de to midterste tal. I vores eksempel ovenfor, hvis vi havde 20 elever i stedet for 19, vil medianen af deres score være det aritmetiske gennemsnit af 10th og 11th tallene.

Kvartiler bruges til at beregne interkvartilområdet, som er et mål for variabiliteten omkring medianen. Interkvartilområdet er simpelthen tredje beregnet som forskellen mellem første og kvartil: Q3–Q1. Faktisk er det rækkevidden af den midterste halvdel af dataene, der viser, hvor spredt dataene er.

For store datasæt har Microsoft Excel en KVARTIL-funktion til at beregne kvartiler.

##Højdepunkter

  • En kvartil opdeler data i tre punkter – en nedre kvartil, median og øvre kvartil – for at danne fire grupper af datasættet.

  • Kvartilen mĂĄler spredningen af værdier over og under middelværdien ved at opdele fordelingen i fire grupper.

  • Kvartiler bruges til at beregne interkvartilomrĂĄdet, som er et mĂĄl for variabiliteten omkring medianen.