温莎平均值
Winsorized 均值是什么?
Winsorized mean 是一种平均方法,它最初用最接近它们的观测值替换最小值和最大值。这样做是为了限制异常值或异常极值或异常值对计算的影响。
替换这些值后,然后使用算术平均值公式计算 Winsorized 平均值。
Winsorized 均值公式
Winsorized 均值以两种方式表示。 “kn”Winsorized 均值是指替换“k”个最小和最大观测值,其中“k”是一个整数。 “X%”的winsorized 平均值涉及替换数据两端的给定百分比的值。
Winsorized 均值是通过替换最小和最大数据点,然后将所有数据点相加并将总和除以数据点总数来实现的。
Winsorized 的意思是告诉你什么?
Winsorized 均值对异常值不太敏感,因为它可以用较少的极端值替换它们。也就是说,与算术平均值相比,它不太容易受到异常值的影响。但是,如果分布具有肥尾,则由于分布数据的高度可变性,去除分布中的最高值和最低值的效果将几乎没有影响。
Winsorized 均值的一个主要缺点是它们自然会在数据集中引入一些偏差。通过减少异常值的影响,可以修改分析以进行更好的分析,但也会删除有关基础数据的信息。
如何使用 Winsorized 平均值的示例
让我们计算以下数据集的 Winsorized 均值:1、5、7、8、9、10、34。在此示例中,我们假设 Winsorized 均值是一阶的,其中我们将最小值和最大值替换为他们最近的观察。
数据集现在如下所示:5, 5, 7, 8, 9, 10, 10。取新数据集的算术平均值会产生 7.7 的 Winsorized 平均值,或 (5 + 5 + 7 + 8 + 9 + 10 + 10) 除以 7。请注意,算术平均值会更高——10.6。 Winsorized 均值有效降低了 34 值作为异常值的影响。
或者考虑一个 20% 的 Winsorized 均值,取前 10% 和后 10% 并用下一个最接近的值替换它们。我们将对以下数据集进行winsorize:2、4、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、62、75。这两个最小和两个最大的数据点(20 个数据点的 20%)将被替换为其下一个最接近的值。因此,新数据集如下:7、7、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、61、61。 Winsorized 平均值为 33.9,或数据总数 (678) 除以数据点总数 (20)。
Winsorized Mean vs. Trimmed Mean
Winsorized 均值包括修改数据点,而修剪均值涉及删除数据点。 Winsorized 均值和修整均值的值很接近或有时彼此相等是很常见的。
## 强调
Winsorized 平均值与修剪平均值不同,后者涉及删除数据点而不是替换它们 - 尽管两者的结果往往很接近。
它通过用不太极端的值替换异常值来减轻异常值的影响。
Winsorized 均值是一种平均方法,涉及用最接近它们的观测值替换数据集的最小值和最大值。