Moyenne winsorisée
Qu'est-ce que la moyenne winsorisée ?
La moyenne winsorisée est une méthode de calcul de la moyenne qui remplace initialement les valeurs les plus petites et les plus grandes par les observations les plus proches d'elles. Ceci est fait pour limiter l'effet des valeurs aberrantes ou des valeurs extrêmes anormales, ou valeurs aberrantes, sur le calcul.
Après avoir remplacé les valeurs, la formule de la moyenne arithmétique est ensuite utilisée pour calculer la moyenne winsorisée.
Formule pour la moyenne winsorisée
Les moyennes winsorisées sont exprimées de deux façons. Une moyenne winsorisée "kn" fait référence au remplacement des "k" observations les plus petites et les plus grandes, où "k" est un nombre entier. Une moyenne winsorisée "X %" implique le remplacement d'un pourcentage donné de valeurs aux deux extrémités des données.
La moyenne winsorisée est obtenue en remplaçant les points de données les plus petits et les plus grands, puis en additionnant tous les points de données et en divisant la somme par le nombre total de points de données.
Que vous dit le winsorisé ?
La moyenne winsorisée est moins sensible aux valeurs aberrantes car elle peut les remplacer par des valeurs moins extrêmes. Autrement dit, il est moins sensible aux valeurs aberrantes par rapport à la moyenne arithmétique. Cependant, si une distribution a des queues épaisses, l'effet de la suppression des valeurs les plus élevées et les plus basses de la distribution aura peu d'influence en raison du degré élevé de variabilité des chiffres de distribution .
Un inconvénient majeur des moyennes winsorisées est qu'elles introduisent naturellement un certain biais dans l'ensemble de données. En réduisant l'influence des valeurs aberrantes, l'analyse est modifiée pour une meilleure analyse, mais supprime également les informations sur les données sous-jacentes.
Exemple d'utilisation de la moyenne winsorisée
Calculons la moyenne winsorisée pour l'ensemble de données suivant : 1, 5, 7, 8, 9, 10, 34. Dans cet exemple, nous supposons que la moyenne winsorisée est au premier ordre, dans lequel nous remplaçons les valeurs les plus petites et les plus grandes par leurs observations les plus proches.
L'ensemble de données apparaît maintenant comme suit : 5, 5, 7, 8, 9, 10, 10. Prendre une moyenne arithmétique du nouvel ensemble produit une moyenne winsorisée de 7,7, ou (5 + 5 + 7 + 8 + 9 + 10 + 10) divisé par 7. Notez que la moyenne arithmétique aurait été plus élevée : 10,6. La moyenne winsorisée réduit efficacement l'influence de la valeur 34 en tant que valeur aberrante.
Ou considérez une moyenne winsorisée de 20 % qui prend les 10 % supérieurs et les 10 % inférieurs et les remplace par leur valeur la plus proche. Nous allons winsoriser le jeu de données suivant : 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Les deux le plus petit et les deux plus grands points de données (20 % des 20 points de données) seront remplacés par leur prochaine valeur la plus proche. Ainsi, le nouveau jeu de données est le suivant : 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. La moyenne winsorisée est de 33,9, soit le total des données (678) divisé par le nombre total de points de données (20).
Moyenne winsorisée vs moyenne tronquée
La moyenne winsorisée inclut la modification des points de données, tandis que la moyenne ajustée implique la suppression des points de données. Il est courant que la moyenne winsorisée et la moyenne tronquée soient proches ou parfois égales en valeur l'une de l'autre.
Points forts
La moyenne winsorisée n'est pas la même que la moyenne tronquée, qui consiste à supprimer des points de données au lieu de les remplacer, bien que les résultats des deux tendent à être proches.
Il atténue les effets des valeurs aberrantes en les remplaçant par des valeurs moins extrêmes.
La moyenne winsorisée est une méthode de moyennage qui consiste à remplacer les valeurs les plus petites et les plus grandes d'un ensemble de données par les observations les plus proches d'elles.