Investor's wiki

Winsorized medelvärde

Winsorized medelvärde

Vad är Winsorized Mean?

Winsorized medelvärde är en metod för medelvärdesberäkning som initialt ersätter de minsta och största värdena med de observationer som ligger närmast dem. Detta görs för att begränsa effekten av extremvärden eller onormala extremvärden, eller extremvärden, på beräkningen.

Efter att ha ersatt värdena, används sedan den aritmetiska medelformeln för att beräkna det winsoriserade medelvärdet.

Formel för Winsorized Mean

Vinsoriserat medelvärde = xn…xn+1 + mtext>xn+2…xnN< /mstyle>där: n = Antalet största och minsta data poäng som ska ersättas av observationnärmast dem< /mtd> N< mtext> = Totalt antal datapunkter\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf{där:}\ &\begin n\ =\ &\text{Antalet största och minsta data}\ &\text {punkter som ska ersättas av observationen}\ &\text{närmast dem}\end\ &N\ =\ \text \end

Winsoriserade medel uttrycks på två sätt. Ett "kn" winsoriserat medelvärde hänvisar till ersättningen av "k" minsta och största observationer, där "k" är ett heltal. Ett "X%" winsoriserat medelvärde innebär att en given procentandel av värden från båda ändarna av data ersätts.

Det winsoriserade medelvärdet uppnås genom att ersätta de minsta och största datapunkterna, sedan summera alla datapunkter och dividera summan med det totala antalet datapunkter.

Vad säger Winsorized till dig?

Det winsoriserade medelvärdet är mindre känsligt för extremvärden eftersom det kan ersätta dem med mindre extrema värden. Det vill säga, det är mindre mottagligt för extremvärden jämfört med det aritmetiska medelvärdet. Men om en fördelning har feta svansar kommer effekten av att ta bort de högsta och lägsta värdena i fördelningen att ha liten inverkan på grund av den höga graden av variation i fördelningssiffrorna.

En stor nackdel för winsorized medel är att de naturligt introducerar en viss fördom i datamängden. Genom att minska påverkan av extremvärden modifieras analysen för bättre analys, men tar också bort information om underliggande data.

Exempel på hur man använder Winsorized Mean

Låt oss beräkna det winsoriserade medelvärdet för följande datamängd: 1, 5, 7, 8, 9, 10, 34. I det här exemplet antar vi att det winsoriserade medelvärdet är i första ordningen, där vi ersätter de minsta och största värdena med deras närmaste observationer.

Datauppsättningen ser nu ut enligt följande: 5, 5, 7, 8, 9, 10, 10. Att ta ett aritmetiskt medelvärde av den nya uppsättningen ger ett vinstmedelvärde på 7,7, eller (5 + 5 + 7 + 8 + 9 + 10 + 10) dividerat med 7. Observera att det aritmetiska medelvärdet skulle ha varit högre—10,6. Det winsoriserade medelvärdet minskar effektivt inflytandet av 34-värdet som en extremvärde.

Eller överväg ett 20 % winsoriserat medelvärde som tar de översta 10 % och botten 10 % och ersätter dem med deras näst närmaste värde. Vi kommer att vinna följande datamängd: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. De två minsta och två största datapunkter – 20 % av de 20 datapunkterna – kommer att ersättas med deras närmast närmaste värde. Den nya datamängden är alltså följande: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Det winsoriserade medelvärdet är 33,9, eller summan av data (678) dividerat med det totala antalet datapunkter (20).

Winsorized medelvärde vs. trimmat medelvärde

Det winsoriserade medelvärdet inkluderar modifiering av datapunkter, medan det trimmade medelvärdet innebär att datapunkter tas bort. Det är vanligt att det winsoriserade medelvärdet och det trimmade medelvärdet är nära eller ibland lika i värde med varandra.

Höjdpunkter

  • Det winsoriserade medelvärdet är inte detsamma som det trimmade medelvärdet, vilket innebär att datapunkter tas bort i stället för att ersätta dem – även om resultaten av de tvĂĄ tenderar att vara nära varandra.

– Det mildrar effekterna av extremvärden genom att ersätta dem med mindre extrema värden.

– Det winsoriserade medelvärdet är en medelvärdesmetod som går ut på att ersätta de minsta och största värdena i en datamängd med de observationer som ligger närmast dem.