Investor's wiki

Winsoriseret gennemsnit

Winsoriseret gennemsnit

Hvad er den Winsorized Mean?

Winsorized middelværdi er en metode til gennemsnit, der til at begynde med erstatter de mindste og største værdier med de observationer, der er tættest på dem. Dette gøres for at begrænse effekten af outliers eller unormale ekstreme værdier eller outliers på beregningen.

Efter at have erstattet værdierne, bruges den aritmetiske middelværdiformel til at beregne det winsoriserede gennemsnit.

Formel for Winsorized Mean

Winsoriseret gennemsnit = xn…xn+1 + mtext>xn+2…xnN< /mstyle>hvor: n = Antallet af største og mindste data punkter, der skal erstattes af observationtættest på dem< /mtd> N< mtext> = Samlet antal datapunkter\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf\ &\begin n\ =\ &\text{Antallet af største og mindste data}\ &\text {punkter, der skal erstattes af observationen}\ &\text{tættest på dem}\end\ &N\ =\ \text \end

Winsoriserede midler udtrykkes på to måder. En "kn" winsoriseret middelværdi refererer til erstatningen af "k" mindste og største observationer, hvor "k" er et heltal. Et "X%"-winsoriseret gennemsnit involverer udskiftning af en given procentdel af værdier fra begge ender af dataene.

Det winsoriserede gennemsnit opnås ved at erstatte de mindste og største datapunkter, derefter summere alle datapunkter og dividere summen med det samlede antal datapunkter.

Hvad fortæller Winsorized dig?

Den winsoriserede middelværdi er mindre følsom over for outliers, fordi den kan erstatte dem med mindre ekstreme værdier. Det vil sige, at den er mindre modtagelig for outliers i forhold til det aritmetiske gennemsnit. Men hvis en fordeling har fede haler, vil effekten af at fjerne de højeste og laveste værdier i fordelingen have ringe indflydelse på grund af den høje grad af variabilitet i fordelingstallene.

En stor ulempe ved winsorized midler er, at de naturligt introducerer en vis skævhed i datasættet. Ved at reducere påvirkningen af outliers modificeres analysen til bedre analyse, men fjerner også information om de underliggende data.

Eksempel pĂĄ hvordan man bruger Winsorized Mean

Lad os beregne det winsoriserede middelværdi for følgende datasæt: 1, 5, 7, 8, 9, 10, 34. I dette eksempel antager vi, at den winsoriserede middelværdi er i første rækkefølge, hvor vi erstatter de mindste og største værdier med deres nærmeste observationer.

Datasættet ser nu ud som følger: 5, 5, 7, 8, 9, 10, 10. Hvis man tager et aritmetisk gennemsnit af det nye sæt, får man et vindoriseret gennemsnit på 7,7 eller (5 + 5 + 7 + 8 + 9 + 10 + 10) divideret med 7. Bemærk, at det aritmetiske gennemsnit ville have været højere—10,6. Det winsoriserede middel reducerer effektivt indflydelsen af 34-værdien som en outlier.

Eller overvej en 20 % winsorized middelværdi, der tager de øverste 10 % og de nederste 10 % og erstatter dem med deres næstnærmeste værdi. Vi vindoriserer følgende datasæt: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. De to mindste og to største datapunkter – 20 % af de 20 datapunkter – erstattes med deres næstnærmeste værdi. Det nye datasæt er således som følger: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Det winsoriserede gennemsnit er 33,9 eller summen af data (678) divideret med det samlede antal datapunkter (20).

Winsoriseret gennemsnit vs. trimmet gennemsnit

Det winsoriserede gennemsnit inkluderer ændring af datapunkter, mens det trimmede gennemsnit involverer fjernelse af datapunkter. Det er almindeligt, at den winsoriserede middelværdi og den trimmede middelværdi er tæt på eller nogle gange lige i værdi med hinanden.

Højdepunkter

  • Det winsoriserede gennemsnit er ikke det samme som det trimmede gennemsnit, hvilket involverer fjernelse af datapunkter i modsætning til at erstatte dem - selvom resultaterne af de to har en tendens til at være tætte.

  • Det afbøder virkningerne af outliers ved at erstatte dem med mindre ekstreme værdier.

  • Den winsorized middelværdi er en gennemsnitsmetode, der gĂĄr ud pĂĄ at erstatte de mindste og største værdier af et datasæt med de observationer, der er tættest pĂĄ dem.