Kvartil
Vad är en kvartil?
En kvartil är en statistisk term som beskriver en uppdelning av observationer i fyra definierade intervall baserat på datavärdena och hur de jämförs med hela uppsättningen av observationer.
Förstå kvartiler
För att förstå kvartilen är det viktigt att förstå medianen som ett mått på central tendens. Medianen i statistik är mittvärdet av en uppsättning siffror. Det är den punkt där exakt hälften av datan ligger under och över det centrala värdet.
Så, givet en uppsättning av 13 nummer som är sorterade (stigande eller fallande), skulle medianen vara det sjunde talet. De sex siffrorna som föregår detta värde är de lägsta siffrorna i datan, och de sex siffrorna efter medianen är de högsta talen i datamängden. Eftersom medianen inte påverkas av extrema värden eller extremvärden i fördelningen, föredras den ibland framför medelvärdet.
Medianen är en robust estimator av plats men säger ingenting om hur data på vardera sidan av dess värde sprids eller sprids. Det är där kvartilen kliver in. Kvartilen mäter spridningen av värden över och under medelvärdet genom att dela upp fördelningen i fyra grupper.
Hur kvartiler fungerar
Precis som medianen delar upp data i hälften så att 50 % av mätningen ligger under medianen och 50 % ligger över den, delar kvartilen upp data i kvartal så att 25 % av mätningarna är mindre än den nedre kvartilen, 50 % är mindre än medianen och 75 % är mindre än den övre kvartilen.
En kvartil delar in data i tre punkter – en nedre kvartil, median och övre kvartil – för att bilda fyra grupper av datamängden. Den nedre kvartilen, eller första kvartilen, betecknas som Q1 och är det mellersta talet som hamnar mellan det minsta värdet av datamängden och medianen. Den andra kvartilen, Q2, är också medianen. Den övre eller tredje kvartilen, betecknad som Q3, är den centrala punkten som ligger mellan fördelningens median och högsta nummer.
Nu kan vi kartlägga de fyra grupperna som bildas från kvartilerna. Den första gruppen av värden innehåller det minsta antalet upp till Q1; den andra gruppen inkluderar Q1 till medianen; den tredje uppsättningen är medianen till Q3; den fjärde kategorin omfattar Q3 till den högsta datapunkten i hela uppsättningen.
Varje kvartil innehåller 25 % av de totala observationerna. Generellt är uppgifterna ordnade från minsta till största:
Första kvartilen: de lägsta 25 % av siffrorna
Andra kvartil: mellan 0 % och 50 % (upp till medianen)
Tredje kvartil: 0 % till 75 %
Fjärde kvartilen: de högsta 25 % av siffrorna
Exempel på kvartil
Antag att fördelningen av matematikpoäng i en klass med 19 elever i stigande ordning är:
- 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Markera först medianen, Q2, som i det här fallet är det 10:e värdet: 75.
Q1 är den centrala punkten mellan den minsta poängen och medianen. I det här fallet hamnar Q1 mellan första och femte poängen: 68. (Observera att medianen även kan inkluderas vid beräkning av Q1 eller Q3 för en udda uppsättning värden. Om vi skulle ta med medianen på vardera sidan av mittpunkten , då kommer Q1 att vara mittvärdet mellan den första och 10:e poängen, vilket är medelvärdet av den femte och sjätte poängen—(femte + sjätte)/2 = (68 + 69)/2 = 68,5).
Q3 är mittvärdet mellan Q2 och högsta poäng: 84. (Eller om du inkluderar medianen, Q3 = (82 + 84)/2 = 83).
Nu när vi har våra kvartiler, låt oss tolka deras nummer. En poäng på 68 (Q1) representerar den första kvartilen och är den 25^:e^ percentilen. 68 är medianen för den nedre halvan av poängen som anges i tillgänglig data – det vill säga medianen för poängen från 59 till 75.
Q1 säger oss att 25 % av poängen är mindre än 68 och 75 % av klasspoängen är högre. Q2 (medianen) är 50^:e^ percentilen och visar att 50 % av poängen är mindre än 75 och 50 % av poängen är över 75. Slutligen avslöjar Q3, den 75^:e percentilen att 25 % av poängen är högre och 75 % är mindre än 84.
Särskilda överväganden
Om datapunkten för Q1 är längre bort från medianen än Q3 är från medianen, så kan vi säga att det finns en större spridning bland de mindre värdena i datasetet än bland de större värdena. Samma logik gäller om Q3 är längre bort från Q2 än Q1 är från medianen.
Alternativt, om det finns ett jämnt antal datapunkter, kommer medianen att vara medelvärdet av de två mittersta talen. I vårt exempel ovan, om vi hade 20 elever istället för 19, kommer medianen för deras poäng att vara det aritmetiska medelvärdet av talen 10^:e^ och 11e.
Kvartiler används för att beräkna interkvartilområdet, vilket är ett mått på variabiliteten runt medianen. Interkvartilintervallet är helt enkelt tredje beräknat som skillnaden mellan första och kvartil: Q3–Q1. I själva verket är det intervallet för den mittersta halvan av datan som visar hur spridd informationen är.
För stora datamängder har Microsoft Excel en QUARTILE-funktion för att beräkna kvartiler.
##Höjdpunkter
En kvartil delar in data i tre punkter – en nedre kvartil, median och övre kvartil – för att bilda fyra grupper av datamängden.
Kvartilen mäter spridningen av värden över och under medelvärdet genom att dela upp fördelningen i fyra grupper.
Kvartiler används för att beräkna interkvartilområdet, vilket är ett mått på variabiliteten runt medianen.