Investor's wiki

Винсоризированное среднее

Винсоризированное среднее

Что такое Winsorized Mean?

Среднее Winsorized — это метод усреднения, который первоначально заменяет наименьшее и наибольшее значения ближайшими к ним наблюдениями. Это делается для ограничения влияния выбросов или аномальных экстремальных значений или выбросов на расчет.

После замены значений формула среднего арифметического затем используется для вычисления винсоризованного среднего.

Формула для Winsorized среднего

Среднее по WinSorized = xnxn+1 + </ mtext>xn+2xnN< /mstyle>где: n = Количество самых больших и самых маленьких данных точки для замены наблюдениеближайший к ним< /mtd> Н< mtext> = Общее количество точек данных\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf{где:}\ &\begin n\ =\ &\text{Количество наибольших и наименьших данных}\ &\text {точки должны быть заменены наблюдением}\ &\text{ближайшие к ним}\end{выровнены}\ &N\ =\ \text{Общее количество точек данных} \end{выровнено}

Винсоризированные средства выражаются двумя способами. Винсоризованное среднее «k ^ n ^» относится к замене «k» наименьшего и наибольшего наблюдений, где «k» — целое число. Винсоризованное среднее «X%» включает замену заданного процента значений с обоих концов данных.

Винсоризованное среднее значение получается путем замены наименьшей и наибольшей точек данных, затем суммирования всех точек данных и деления суммы на общее количество точек данных.

Что означает Winsorized?

Винсоризованное среднее менее чувствительно к выбросам, потому что оно может заменить их менее экстремальными значениями. То есть он менее восприимчив к выбросам по сравнению со средним арифметическим. Однако, если распределение имеет толстые хвосты, эффект удаления самых высоких и самых низких значений в распределении будет иметь небольшое влияние из-за высокой степени изменчивости показателей распределения.

Одним из основных недостатков винсоризированных средних является то, что они естественным образом вносят некоторую предвзятость в набор данных. Уменьшая влияние выбросов, анализ модифицируется для лучшего анализа, но при этом удаляется информация о базовых данных.

Пример использования Winsorized Mean

Давайте вычислим винзоризованное среднее для следующего набора данных: 1, 5, 7, 8, 9, 10, 34. В этом примере мы предполагаем, что винзоризованное среднее находится в первом порядке, в котором мы заменяем наименьшее и наибольшее значения на их ближайшие наблюдения.

Теперь набор данных выглядит следующим образом: 5, 5, 7, 8, 9, 10, 10. Взятие среднего арифметического нового набора дает среднее винсоризованное значение 7,7, или (5 + 5 + 7 + 8 + 9 + 10). + 10) разделить на 7. Обратите внимание, что среднее арифметическое было бы больше — 10,6. Винсоризованное среднее эффективно снижает влияние значения 34 как выброса.

Или рассмотрим 20-процентное среднее, которое берет верхние 10% и нижние 10% и заменяет их следующим ближайшим значением. Мы выберем следующий набор данных: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Два наименьшая и две самые большие точки данных — 20% от 20 точек данных — будут заменены их следующим ближайшим значением. Таким образом, новый набор данных выглядит следующим образом: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Среднее значение winsorized составляет 33,9, или общее количество данных (678), деленное на общее количество точек данных (20).

Winsorized Среднее против Усеченного Среднего

Винсоризованное среднее включает изменение точек данных, а усеченное среднее включает удаление точек данных. Обычно винзоризованное среднее и усеченное среднее значение близки или иногда равны друг другу.

Особенности

  • Винсоризованное среднее не то же самое, что усеченное среднее, которое включает удаление точек данных, а не их замену, хотя результаты обоих методов, как правило, близки.

  • Он смягчает влияние выбросов, заменяя их менее экстремальными значениями.

  • Винсоризованное среднее — это метод усреднения, который включает замену наименьшего и наибольшего значений набора данных ближайшими к ним наблюдениями.