Kvartil
Hva er en kvartil?
En kvartil er et statistisk begrep som beskriver en inndeling av observasjoner i fire definerte intervaller basert pĂĄ verdiene til dataene og hvordan de sammenlignes med hele settet av observasjoner.
ForstĂĄ kvartiler
For å forstå kvartilen er det viktig å forstå medianen som et mål på sentral tendens. Medianen i statistikk er den midterste verdien av et sett med tall. Det er punktet der nøyaktig halvparten av dataene ligger under og over den sentrale verdien.
Så gitt et sett med 13 tall som er sortert (stigende eller synkende), vil medianen være det syvende tallet. De seks tallene foran denne verdien er de laveste tallene i dataene, og de seks tallene etter medianen er de høyeste tallene i datasettet som er gitt. Fordi medianen ikke påvirkes av ekstreme verdier eller uteliggere i distribusjonen, er den noen ganger foretrukket fremfor gjennomsnittet.
Medianen er en robust estimator av plassering, men sier ingenting om hvordan dataene pĂĄ hver side av verdien er spredt eller spredt. Det er der kvartilen trer inn. Kvartilen mĂĄler spredningen av verdier over og under gjennomsnittet ved ĂĄ dele fordelingen i fire grupper.
Hvordan kvartiler fungerer
Akkurat som medianen deler dataene i halvparten slik at 50 % av målingen ligger under medianen og 50 % ligger over den, deler kvartilen ned dataene i kvartaler slik at 25 % av målingene er mindre enn den nedre kvartilen, 50 % er mindre enn medianen, og 75 % er mindre enn øvre kvartil.
En kvartil deler data i tre punkter – en nedre kvartil, median og øvre kvartil – for å danne fire grupper av datasettet. Den nedre kvartilen, eller første kvartil, er betegnet som Q1 og er det midterste tallet som faller mellom den minste verdien av datasettet og medianen. Den andre kvartilen, Q2, er også medianen. Den øvre eller tredje kvartilen, betegnet som Q3, er det sentrale punktet som ligger mellom medianen og det høyeste tallet i fordelingen.
Nå kan vi kartlegge de fire gruppene dannet fra kvartilene. Den første gruppen med verdier inneholder det minste tallet opp til Q1; den andre gruppen inkluderer Q1 til medianen; det tredje settet er medianen til Q3; den fjerde kategorien omfatter Q3 til det høyeste datapunktet i hele settet.
Hver kvartil inneholder 25 % av de totale observasjonene. Generelt er dataene ordnet fra minste til største:
Første kvartil: de laveste 25 % av tallene
Andre kvartil: mellom 0 % og 50 % (opp til medianen)
Tredje kvartil: 0 % til 75 %
Fjerde kvartil: de høyeste 25 % av tallene
Eksempel pĂĄ kvartil
Anta at fordelingen av mattepoeng i en klasse med 19 elever i stigende rekkefølge er:
- 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Først merker du ned medianen, Q2, som i dette tilfellet er den 10te verdien: 75.
Q1 er det sentrale punktet mellom den minste poengsummen og medianen. I dette tilfellet faller Q1 mellom første og femte poengsum: 68. (Merk at medianen også kan inkluderes ved beregning av Q1 eller Q3 for et oddetall med verdier. Hvis vi skulle inkludere medianen på hver side av midtpunktet , så vil Q1 være den midterste verdien mellom den første og 10te poengsummen, som er gjennomsnittet av den femte og sjette poengsummen—(femte + sjette)/2 = (68 + 69)/2 = 68,5).
Q3 er den midterste verdien mellom Q2 og høyeste poengsum: 84. (Eller hvis du inkluderer medianen, Q3 = (82 + 84)/2 = 83).
Nå som vi har kvartilene våre, la oss tolke tallene deres. En poengsum på 68 (Q1) representerer den første kvartilen og er 25th persentilen. 68 er medianen av den nedre halvdelen av poengsummen satt i de tilgjengelige dataene – det vil si medianen av poengsummene fra 59 til 75.
Q1 forteller oss at 25 % av poengsummene er mindre enn 68 og 75 % av klassepoengene er høyere. Q2 (medianen) er 50th persentilen og viser at 50 % av skårene er mindre enn 75, og 50 % av skårene er over 75. Til slutt viser Q3, 75th persentilen at 25 % av poengsummene er høyere og 75 % er mindre enn 84.
Spesielle hensyn
Hvis datapunktet for Q1 er lenger unna medianen enn Q3 er fra medianen, kan vi si at det er en større spredning blant de mindre verdiene i datasettet enn blant de større verdiene. Den samme logikken gjelder hvis Q3 er lenger unna Q2 enn Q1 er fra medianen.
Alternativt, hvis det er et partall av datapunkter, vil medianen være gjennomsnittet av de to midterste tallene. I eksemplet ovenfor, hvis vi hadde 20 elever i stedet for 19, vil medianen av poengsummen deres være det aritmetiske gjennomsnittet av tallene 10th og 11th.
Kvartiler brukes til å beregne interkvartilområdet, som er et mål på variasjonen rundt medianen. Interkvartilområdet beregnes ganske enkelt som forskjellen mellom første og tredje kvartil: Q3–Q1. Faktisk er det rekkevidden til den midterste halvdelen av dataene som viser hvor spredt dataene er.
For store datasett har Microsoft Excel en KVARTILE-funksjon for ĂĄ beregne kvartiler.
Høydepunkter
- En kvartil deler data i tre punkter – en nedre kvartil, median og øvre kvartil – for å danne fire grupper av datasettet.
– Kvartilen måler spredningen av verdier over og under gjennomsnittet ved å dele fordelingen i fire grupper.
- Kvartiler brukes til ĂĄ beregne interkvartilomrĂĄdet, som er et mĂĄl pĂĄ variabilitet rundt medianen.