Investor's wiki

Winsorized medelvÀrde

Winsorized medelvÀrde

Vad Àr Winsorized Mean?

Winsorized medelvÀrde Àr en metod för medelvÀrdesberÀkning som initialt ersÀtter de minsta och största vÀrdena med de observationer som ligger nÀrmast dem. Detta görs för att begrÀnsa effekten av extremvÀrden eller onormala extremvÀrden, eller extremvÀrden, pÄ berÀkningen.

Efter att ha ersatt vÀrdena, anvÀnds sedan den aritmetiska medelformeln för att berÀkna det winsoriserade medelvÀrdet.

Formel för Winsorized Mean

Vinsoriserat medelvĂ€rde = xn
xn+1 + mtext>xn+2
xnN< /mstyle>dĂ€r: n = Antalet största och minsta data poĂ€ng som ska ersĂ€ttas av observationnĂ€rmast dem< /mtd> N< mtext> = Totalt antal datapunkter\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf{dĂ€r:}\ &\begin n\ =\ &\text{Antalet största och minsta data}\ &\text {punkter som ska ersĂ€ttas av observationen}\ &\text{nĂ€rmast dem}\end\ &N\ =\ \text \end

Winsoriserade medel uttrycks pÄ tvÄ sÀtt. Ett "kn" winsoriserat medelvÀrde hÀnvisar till ersÀttningen av "k" minsta och största observationer, dÀr "k" Àr ett heltal. Ett "X%" winsoriserat medelvÀrde innebÀr att en given procentandel av vÀrden frÄn bÄda Àndarna av data ersÀtts.

Det winsoriserade medelvÀrdet uppnÄs genom att ersÀtta de minsta och största datapunkterna, sedan summera alla datapunkter och dividera summan med det totala antalet datapunkter.

Vad sÀger Winsorized till dig?

Det winsoriserade medelvÀrdet Àr mindre kÀnsligt för extremvÀrden eftersom det kan ersÀtta dem med mindre extrema vÀrden. Det vill sÀga, det Àr mindre mottagligt för extremvÀrden jÀmfört med det aritmetiska medelvÀrdet. Men om en fördelning har feta svansar kommer effekten av att ta bort de högsta och lÀgsta vÀrdena i fördelningen att ha liten inverkan pÄ grund av den höga graden av variation i fördelningssiffrorna.

En stor nackdel för winsorized medel Àr att de naturligt introducerar en viss fördom i datamÀngden. Genom att minska pÄverkan av extremvÀrden modifieras analysen för bÀttre analys, men tar ocksÄ bort information om underliggande data.

Exempel pÄ hur man anvÀnder Winsorized Mean

LÄt oss berÀkna det winsoriserade medelvÀrdet för följande datamÀngd: 1, 5, 7, 8, 9, 10, 34. I det hÀr exemplet antar vi att det winsoriserade medelvÀrdet Àr i första ordningen, dÀr vi ersÀtter de minsta och största vÀrdena med deras nÀrmaste observationer.

DatauppsĂ€ttningen ser nu ut enligt följande: 5, 5, 7, 8, 9, 10, 10. Att ta ett aritmetiskt medelvĂ€rde av den nya uppsĂ€ttningen ger ett vinstmedelvĂ€rde pĂ„ 7,7, eller (5 + 5 + 7 + 8 + 9 + 10 + 10) dividerat med 7. Observera att det aritmetiska medelvĂ€rdet skulle ha varit högre—10,6. Det winsoriserade medelvĂ€rdet minskar effektivt inflytandet av 34-vĂ€rdet som en extremvĂ€rde.

Eller övervĂ€g ett 20 % winsoriserat medelvĂ€rde som tar de översta 10 % och botten 10 % och ersĂ€tter dem med deras nĂ€st nĂ€rmaste vĂ€rde. Vi kommer att vinna följande datamĂ€ngd: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. De tvĂ„ minsta och tvĂ„ största datapunkter – 20 % av de 20 datapunkterna – kommer att ersĂ€ttas med deras nĂ€rmast nĂ€rmaste vĂ€rde. Den nya datamĂ€ngden Ă€r alltsĂ„ följande: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Det winsoriserade medelvĂ€rdet Ă€r 33,9, eller summan av data (678) dividerat med det totala antalet datapunkter (20).

Winsorized medelvÀrde vs. trimmat medelvÀrde

Det winsoriserade medelvÀrdet inkluderar modifiering av datapunkter, medan det trimmade medelvÀrdet innebÀr att datapunkter tas bort. Det Àr vanligt att det winsoriserade medelvÀrdet och det trimmade medelvÀrdet Àr nÀra eller ibland lika i vÀrde med varandra.

Höjdpunkter

  • Det winsoriserade medelvĂ€rdet Ă€r inte detsamma som det trimmade medelvĂ€rdet, vilket innebĂ€r att datapunkter tas bort i stĂ€llet för att ersĂ€tta dem – Ă€ven om resultaten av de tvĂ„ tenderar att vara nĂ€ra varandra.

– Det mildrar effekterna av extremvĂ€rden genom att ersĂ€tta dem med mindre extrema vĂ€rden.

– Det winsoriserade medelvĂ€rdet Ă€r en medelvĂ€rdesmetod som gĂ„r ut pĂ„ att ersĂ€tta de minsta och största vĂ€rdena i en datamĂ€ngd med de observationer som ligger nĂ€rmast dem.