Investor's wiki

Winsorized Średnia

Winsorized Średnia

Co to jest środek Winsorized?

Średnia winsoryzowana to metoda uśredniania, która początkowo zastępuje najmniejsze i największe wartości obserwacjami najbliższymi im. Ma to na celu ograniczenie wpływu wartości odstających lub nieprawidłowych wartości ekstremalnych lub wartości odstających na obliczenia.

Po zastąpieniu wartości, formuła na średnią arytmetyczną jest następnie wykorzystywana do obliczenia średniej z wartościami winsoryzowanymi.

Wzór na Winsorized Mean

Winsorized średnia = xnxn+1 + </ mtext>xn+2xnN< /mstyle>gdzie:</mtr n = </mrow Liczba największych i najmniejszych danych < mrow>punkty do zastąpienia przez obserwację najbliżej nich< / mtd> N< mtext> = Całkowita liczba punktów danych\begin{wyrównany} &\text{Średnia Winsoryczna}\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf\ &\begin n\ =\ &\text{Liczba największych i najmniejszych danych}\ &\text {punkty do zastąpienia przez obserwację}\ &\text{najbliżej nich}\end{wyrównany}\ &N\ =\ \text{Całkowita liczba punktów danych} \end{wyrównany}

Środki Winsorized są wyrażane na dwa sposoby. Winsoryzowany oznacza „kn” oznacza zastąpienie „k” najmniejszych i największych obserwacji, gdzie „k” jest liczbą całkowitą. Średnia winsorowana „X%” polega na zastąpieniu danego procentu wartości z obu końców danych.

Średnią winsorized uzyskuje się przez zastąpienie najmniejszych i największych punktów danych, a następnie zsumowanie wszystkich punktów danych i podzielenie sumy przez całkowitą liczbę punktów danych.

Co mówi ci „winsorized Mean”?

Średnia winsoryzowana jest mniej wrażliwa na wartości odstające, ponieważ może je zastąpić wartościami mniej ekstremalnymi. Oznacza to, że jest mniej podatny na wartości odstające w porównaniu ze średnią arytmetyczną. Jeśli jednak rozkład ma grube ogony, efekt usunięcia najwyższych i najniższych wartości z rozkładu będzie miał niewielki wpływ ze względu na wysoki stopień zmienności wartości rozkładu.

Jedną z głównych wad w przypadku metod winsorized jest to, że w naturalny sposób wprowadzają one pewne stronniczość do zestawu danych. Zmniejszając wpływ wartości odstających, analiza jest modyfikowana w celu lepszej analizy, ale także usuwa informacje o danych źródłowych.

Przykład użycia Winsorized Mean

Obliczmy średnią winsoryzowaną dla następującego zbioru danych: 1, 5, 7, 8, 9, 10, 34. W tym przykładzie zakładamy, że średnia winsorizowana jest w pierwszej kolejności, w której zastępujemy najmniejszą i największą wartość​ ​z ich najbliższymi obserwacjami.

Zestaw danych wygląda teraz następująco: 5, 5, 7, 8, 9, 10, 10. Biorąc średnią arytmetyczną nowego zestawu, otrzymujemy średnią winsorowaną 7,7 lub (5 + 5 + 7 + 8 + 9 + 10 + 10) podzielone przez 7. Zauważ, że średnia arytmetyczna byłaby wyższa — 10,6. Średnia winsorized skutecznie zmniejsza wpływ wartości 34 jako wartości odstającej.

Lub rozważ 20% winsorized średnią, która bierze górne 10% i dolne 10% i zastępuje je następną najbliższą wartością. Przeanalizujemy następujący zestaw danych: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. najmniejszy i dwa największe punkty danych — 20% z 20 punktów danych — zostaną zastąpione ich następną najbliższą wartością. Zatem nowy zestaw danych wygląda następująco: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Średnia winsoryzowana wynosi 33,9 lub suma danych (678) podzielona przez całkowitą liczbę punktów danych (20).

Średnia Winsorized vs. Przycięta średnia

Średnia winsoryzowana obejmuje modyfikację punktów danych, podczas gdy średnia przycięta obejmuje usuwanie punktów danych. Powszechne jest, że średnia winsoryzowana i średnia przycięta są bliskie lub czasami równe sobie.

##Przegląd najważniejszych wydarzeń

  • Średnia winsorizowana to nie to samo, co średnia przycięta, która polega na usuwaniu punktów danych zamiast ich zastępowaniu — chociaż wyniki tych dwóch są zwykle zbliżone.

  • Łagodzi skutki wartości odstających, zastępując je mniej ekstremalnymi wartościami.

  • Średnia winsoryzowana to metoda uśredniania polegająca na zastąpieniu najmniejszej i największej wartości zbioru danych najbliższymi im obserwacjami.