Kwartyl
Co to jest kwartyl?
Kwartyl to termin statystyczny opisujący podział obserwacji na cztery zdefiniowane przedziały na podstawie wartości danych i ich porównania z całym zbiorem obserwacji.
Zrozumienie kwartyli
Aby zrozumieć kwartyl, ważne jest zrozumienie mediany jako miary tendencji centralnej. Mediana w statystyce to środkowa wartość zbioru liczb. Jest to punkt, w którym dokładnie połowa danych znajduje się poniżej i powyżej wartości centralnej.
Tak więc, mając zestaw 13 liczb, które są posortowane (rosnąco lub malejąco), mediana będzie siódmą liczbą. Sześć liczb poprzedzających tę wartość to najniższe liczby w danych, a sześć liczb po medianie to najwyższe liczby w podanym zbiorze danych. Ponieważ na medianę nie mają wpływu wartości ekstremalne ani wartości odstające w rozkładzie, czasami jest ona preferowana w stosunku do średniej.
Mediana jest solidnym estymatorem lokalizacji, ale nie mówi nic o tym, jak dane po obu stronach jej wartości są rozłożone lub rozproszone. Tu właśnie wkracza kwartyl. Kwartyl mierzy rozrzut wartości powyżej i poniżej średniej, dzieląc rozkład na cztery grupy.
Jak działają kwartyle
Podobnie jak mediana dzieli dane na połowę tak, że 50% pomiaru leży poniżej mediany, a 50% powyżej niej, kwartyl dzieli dane na ćwiartki tak, że 25% pomiarów znajduje się poniżej dolnego kwartyla, 50 % to mniej niż mediana, a 75% to mniej niż górny kwartyl.
Kwartyl dzieli dane na trzy punkty — dolny kwartyl, medianę i górny kwartyl — tworząc cztery grupy zbioru danych. Dolny kwartyl lub pierwszy kwartyl jest oznaczony jako Q1 i jest średnią liczbą mieszczącą się między najmniejszą wartością zbioru danych a medianą. Drugi kwartyl, Q2, również jest medianą. Górny lub trzeci kwartyl, oznaczony jako Q3, to punkt centralny leżący między medianą a najwyższą liczbą rozkładu.
Teraz możemy zmapować cztery grupy utworzone z kwartyli. Pierwsza grupa wartości zawiera najmniejszą liczbę do Q1; druga grupa obejmuje Q1 do mediany; trzeci set to mediana do Q3; czwarta kategoria obejmuje Q3 do najwyższego punktu danych z całego zestawu.
Każdy kwartyl zawiera 25% wszystkich obserwacji. Ogólnie dane są uporządkowane od najmniejszego do największego:
Pierwszy kwartyl: najniższe 25% liczb
Drugi kwartyl: od 0% do 50% (do mediany)
Trzeci kwartyl: 0% do 75%
Czwarty kwartyl: najwyższe 25% liczb
Przykład kwartyla
Załóżmy, że rozkład wyników z matematyki w klasie 19 uczniów w porządku rosnącym wygląda następująco:
- 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Najpierw zaznacz medianę Q2, która w tym przypadku jest dziesiątą wartością: 75.
Q1 jest punktem centralnym między najniższym wynikiem a medianą. W tym przypadku Q1 mieści się między pierwszym a piątym wynikiem: 68. (Pamiętaj, że medianę można również uwzględnić przy obliczaniu Q1 lub Q3 dla nieparzystego zestawu wartości. Gdybyśmy mieli uwzględnić medianę po obu stronach punktu środkowego , wtedy Q1 będzie średnią wartością między pierwszym a dziesiątym wynikiem, co jest średnią z piątego i szóstego wyniku (piąty + szósty)/2 = (68 + 69)/2 = 68,5).
Q3 to średnia wartość między Q2 a najwyższym wynikiem: 84. (lub jeśli uwzględnisz medianę, Q3 = (82 + 84)/2 = 83).
Teraz, gdy mamy już nasze kwartyle, zinterpretujmy ich liczby. Wynik 68 (Q1) reprezentuje pierwszy kwartyl i stanowi 25-ty percentyl. 68 to mediana dolnej połowy wyniku ustalonego w dostępnych danych — to znaczy mediana wyników od 59 do 75.
Pytanie 1 mówi nam, że 25% wyników to mniej niż 68, a 75% wyników klas jest wyższych. Q2 (mediana) to 50^^ percentyl i pokazuje, że 50% wyników jest poniżej 75, a 50% wyników powyżej 75. Wreszcie Q3, 75^^ percentyl, pokazuje, że 25% wyników jest wyższa, a 75% to mniej niż 84.
Uwagi specjalne
Jeśli punkt danych dla Q1 jest dalej od mediany niż Q3 jest od mediany, to możemy powiedzieć, że istnieje większe rozproszenie między mniejszymi wartościami zbioru danych niż między większymi wartościami. Ta sama logika ma zastosowanie, jeśli Q3 jest dalej od Q2 niż Q1 jest od mediany.
Alternatywnie, jeśli liczba punktów danych jest parzysta, mediana będzie średnią z dwóch środkowych liczb. W powyższym przykładzie, gdybyśmy mieli 20 uczniów zamiast 19, mediana ich wyników będzie średnią arytmetyczną z dziesiątej i jedenastej liczby.
Kwartyle służą do obliczania rozstępu międzykwartylowego, który jest miarą zmienności wokół mediany. Rozstęp międzykwartylowy oblicza się po prostu jako różnicę między pierwszym a trzecim kwartylem: Q3–Q1. W efekcie to zakres środkowej połowy danych pokazuje, jak rozłożone są dane.
W przypadku dużych zestawów danych program Microsoft Excel ma funkcję KWARTYL do obliczania kwartyli.
Przegląd najważniejszych wydarzeń
Kwartyl dzieli dane na trzy punkty — dolny kwartyl, medianę i górny kwartyl — tworząc cztery grupy zbioru danych.
Kwartyl mierzy rozrzut wartości powyżej i poniżej średniej, dzieląc rozkład na cztery grupy.
Kwartyle służą do obliczania rozstępu międzykwartylowego, który jest miarą zmienności wokół mediany.