Квартиль
Что такое квартиль?
Квартиль — это статистический термин, который описывает разделение наблюдений на четыре определенных интервала на основе значений данных и того, как они соотносятся со всем набором наблюдений.
Понимание квартилей
Чтобы понять квартиль, важно понимать медиану как меру центральной тенденции. Медиана в статистике — это среднее значение набора чисел. Это точка, в которой ровно половина данных лежит ниже и выше центрального значения.
Таким образом, для набора из 13 чисел, отсортированных (по возрастанию или по убыванию), медианой будет седьмое число. Шесть чисел, предшествующих этому значению, являются наименьшими числами в данных, а шесть чисел после медианы — самыми высокими числами в данном наборе данных. Поскольку на медиану не влияют экстремальные значения или выбросы в распределении, иногда ее предпочитают среднему значению.
Медиана является надежной оценкой местоположения, но ничего не говорит о том, как данные по обе стороны от ее значения разбросаны или рассредоточены. Вот где вступает квартиль. Квартиль измеряет разброс значений выше и ниже среднего путем разделения распределения на четыре группы.
Как работают квартили
Точно так же, как медиана делит данные пополам, так что 50 % измерения лежат ниже медианы, а 50 % лежат выше нее, квартиль разбивает данные на четверти, так что 25 % измерений меньше нижнего квартиля, 50 % меньше медианы, а 75% меньше верхнего квартиля.
Квартиль делит данные на три точки — нижний квартиль, медиану и верхний квартиль — для формирования четырех групп набора данных. Нижний квартиль, или первый квартиль, обозначается как Q1 и представляет собой среднее число, которое находится между наименьшим значением набора данных и медианой. Второй квартиль, Q2, также является медианой. Верхний или третий квартиль, обозначаемый как Q3, является центральной точкой, лежащей между медианой и наибольшим числом распределения.
Теперь мы можем наметить четыре группы, образованные из квартилей. Первая группа значений содержит наименьшее число до Q1; ко второй группе относятся Q1 до медианы; третий набор — медиана Q3; четвертая категория включает в себя Q3 до самой высокой точки данных всего набора.
Каждый квартиль содержит 25% от общего числа наблюдений. Как правило, данные располагаются от меньшего к большему:
Первый квартиль: самые низкие 25% чисел.
Второй квартиль: от 0% до 50% (до медианы)
Третий квартиль: от 0% до 75%
Четвертый квартиль: самые высокие 25% чисел.
Пример квартиля
Предположим, что распределение оценок по математике в классе из 19 учеников в порядке возрастания таково:
- 59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Во-первых, отметьте медиану Q2, которая в данном случае является 10th значением: 75.
Q1 — это центральная точка между наименьшим результатом и медианой. В этом случае Q1 находится между первой и пятой оценкой: 68. (Обратите внимание, что медиана также может быть включена при расчете Q1 или Q3 для нечетного набора значений. Если бы мы включили медиану по обе стороны от средней точки , то Q1 будет средним значением между первым и 10-м баллами, которое является средним значением пятого и шестого баллов — (пятый + шестой)/2 = (68 + 69)/2 = 68,5).
Q3 — это среднее значение между Q2 и наивысшим баллом: 84. (Или, если включить медиану, Q3 = (82 + 84)/2 = 83).
Теперь, когда у нас есть квартили, давайте интерпретируем их числа. Оценка 68 (Q1) представляет собой первый квартиль и является 25th процентилем. 68 — это медиана нижней половины оценки, установленной в доступных данных, то есть медиана оценок от 59 до 75.
Q1 говорит нам, что 25% баллов меньше 68, а 75% баллов класса выше. Q2 (медиана) представляет собой 50-й процентиль и показывает, что 50% баллов меньше 75, а 50% баллов выше 75. Наконец, Q3, 75-й процентиль, показывает, что 25% из баллов больше, а 75% меньше 84.
Особые соображения
Если точка данных для Q1 находится дальше от медианы, чем Q3 от медианы, то мы можем сказать, что дисперсия между меньшими значениями набора данных больше, чем между большими значениями. Та же логика применяется, если Q3 дальше от Q2, чем Q1 от медианы.
В качестве альтернативы, если имеется четное количество точек данных, медиана будет средним значением двух средних чисел. В нашем примере выше, если бы у нас было 20 студентов вместо 19, медиана их баллов будет средним арифметическим 10th и 11th чисел.
Квартили используются для расчета межквартильного диапазона, который является мерой вариабельности вокруг медианы. Межквартильный диапазон просто рассчитывается как разница между первым и третьим квартилем: Q3–Q1. По сути, это диапазон средней половины данных, который показывает, насколько разбросаны данные.
Для больших наборов данных в Microsoft Excel есть функция КВАРТИЛЬ для вычисления квартилей.
Особенности
Квартиль делит данные на три точки — нижний квартиль, медиану и верхний квартиль — для формирования четырех групп набора данных.
Квартиль измеряет разброс значений выше и ниже среднего путем разделения распределения на четыре группы.
Квартили используются для расчета межквартильного диапазона, который является мерой вариабельности вокруг медианы.