温莎平均值

Winsorized 均值是什么？

Winsorized mean 是一种平均方法，它最初用最接近它们的观测值替换最小值和最大值。这样做是为了限制异常值或异常极值或异常值对计算的影响。

替换这些值后，然后使用算术平均值公式计算 Winsorized 平均值。

Winsorized 均值公式

$\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf\ &\begin n\ =\ &\text{最大和最小数据的个数}\ &\text {要被观察替换的点}\ &\text{最接近它们}\end{对齐}\ &N\ =\ \text{数据点总数} \end{对齐}$

Winsorized 均值以两种方式表示。 “kⁿ”Winsorized 均值是指替换“k”个最小和最大观测值，其中“k”是一个整数。 “X%”的winsorized 平均值涉及替换数据两端的给定百分比的值。

Winsorized 均值是通过替换最小和最大数据点，然后将所有数据点相加并将总和除以数据点总数来实现的。

Winsorized 的意思是告诉你什么？

Winsorized 均值对异常值不太敏感，因为它可以用较少的极端值替换它们。也就是说，与算术平均值相比，它不太容易受到异常值的影响。但是，如果分布具有肥尾，则由于分布数据的高度可变性，去除分布中的最高值和最低值的效果将几乎没有影响。

Winsorized 均值的一个主要缺点是它们自然会在数据集中引入一些偏差。通过减少异常值的影响，可以修改分析以进行更好的分析，但也会删除有关基础数据的信息。

如何使用 Winsorized 平均值的示例

让我们计算以下数据集的 Winsorized 均值：1、5、7、8、9、10、34。在此示例中，我们假设 Winsorized 均值是一阶的，其中我们将最小值和最大值替换为他们最近的观察。

数据集现在如下所示：5, 5, 7, 8, 9, 10, 10。取新数据集的算术平均值会产生 7.7 的 Winsorized 平均值，或 (5 + 5 + 7 + 8 + 9 + 10 + 10) 除以 7。请注意，算术平均值会更高——10.6。 Winsorized 均值有效降低了 34 值作为异常值的影响。

或者考虑一个 20% 的 Winsorized 均值，取前 10% 和后 10% 并用下一个最接近的值替换它们。我们将对以下数据集进行winsorize：2、4、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、62、75。这两个最小和两个最大的数据点（20 个数据点的 20%）将被替换为其下一个最接近的值。因此，新数据集如下：7、7、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、61、61。 Winsorized 平均值为 33.9，或数据总数 (678) 除以数据点总数 (20)。

Winsorized Mean vs. Trimmed Mean

Winsorized 均值包括修改数据点，而修剪均值涉及删除数据点。 Winsorized 均值和修整均值的值很接近或有时彼此相等是很常见的。

＃＃强调

Winsorized 平均值与修剪平均值不同，后者涉及删除数据点而不是替换它们 - 尽管两者的结果往往很接近。
它通过用不太极端的值替换异常值来减轻异常值的影响。
Winsorized 均值是一种平均方法，涉及用最接近它们的观测值替换数据集的最小值和最大值。