Investor's wiki

Winsorisert gjennomsnitt

Winsorisert gjennomsnitt

Hva er Winsorized Mean?

Winsorisert gjennomsnitt er en metode for gjennomsnittsberegning som i utgangspunktet erstatter de minste og største verdiene med observasjonene nærmest dem. Dette gjøres for å begrense effekten av uteliggere eller unormale ekstremverdier, eller uteliggere, på beregningen.

Etter ĂĄ ha erstattet verdiene, brukes den aritmetiske gjennomsnittsformelen til ĂĄ beregne det winsoriserte gjennomsnittet.

Formel for Winsorized Mean

Vinsorisert gjennomsnitt = xn…xn+1 + mtext>xn+2…xnN< /mstyle>hvor: n = Antall største og minste data poeng som skal erstattes av observasjonnærmest dem< /mtd> N< mtext> = Totalt antall datapunkter\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf\ &\begin n\ =\ &\text{Antallet største og minste data}\ &\text \ &\text{nærmest dem}\end\ &N\ =\ \text \end

Winsoriserte midler uttrykkes på to måter. En "kn" winsorisert gjennomsnitt refererer til erstatning av "k" minste og største observasjoner, der "k" er et heltall. Et "X%" winsorisert gjennomsnitt innebærer å erstatte en gitt prosentandel av verdier fra begge ender av dataene.

Det winsoriserte gjennomsnittet oppnås ved å erstatte de minste og største datapunktene, deretter summere alle datapunktene og dele summen med det totale antallet datapunkter.

Hva betyr Winsorized ĂĄ fortelle deg?

Det winsoriserte gjennomsnittet er mindre følsomt for uteliggere fordi det kan erstatte dem med mindre ekstreme verdier. Det vil si at den er mindre utsatt for uteliggere kontra det aritmetiske gjennomsnittet. Men hvis en fordeling har fete haler, vil effekten av å fjerne de høyeste og laveste verdiene i fordelingen ha liten innflytelse på grunn av den høye graden av variasjon i fordelingstallene.

En stor ulempe for winsorized midler er at de naturlig introduserer en viss skjevhet i datasettet. Ved ĂĄ redusere pĂĄvirkningen fra uteliggere, modifiseres analysen for bedre analyse, men fjerner ogsĂĄ informasjon om de underliggende dataene.

Eksempel pĂĄ hvordan du bruker Winsorized Mean

La oss beregne det winsoriserte gjennomsnittet for følgende datasett: 1, 5, 7, 8, 9, 10, 34. I dette eksemplet antar vi at det winsoriserte gjennomsnittet er i første rekkefølge, der vi erstatter de minste og største verdiene med deres nærmeste observasjoner.

Datasettet ser nå ut som følger: 5, 5, 7, 8, 9, 10, 10. Hvis du tar et aritmetisk gjennomsnitt av det nye settet, får du et gevinstorisert gjennomsnitt på 7,7, eller (5 + 5 + 7 + 8 + 9 + 10 + 10) delt på 7. Merk at det aritmetiske gjennomsnittet ville vært høyere—10,6. Det winsoriserte gjennomsnittet reduserer effektivt påvirkningen av 34-verdien som en uteligger.

Eller vurder et 20 % winsorisert gjennomsnitt som tar de øverste 10 % og nederste 10 % og erstatter dem med deres nest nærmeste verdi. Vi vil vinsorisere følgende datasett: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. De to minste og to største datapunkt – 20 % av de 20 datapunktene – erstattes med deres nest nærmeste verdi. Dermed er det nye datasettet som følger: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Det winsoriserte gjennomsnittet er 33,9, eller summen av dataene (678) delt på det totale antallet datapunkter (20).

Winsorisert gjennomsnitt vs. trimmet gjennomsnitt

Det winsoriserte gjennomsnittet inkluderer modifisering av datapunkter, mens det trimmede gjennomsnittet innebærer å fjerne datapunkter. Det er vanlig at gevinstorisert gjennomsnitt og trimmet gjennomsnitt er nær eller noen ganger like i verdi med hverandre.

Høydepunkter

  • Det winsoriserte gjennomsnittet er ikke det samme som det trimmede gjennomsnittet, som innebærer ĂĄ fjerne datapunkter i motsetning til ĂĄ erstatte dem - selv om resultatene av de to har en tendens til ĂĄ være nære.

– Det demper effekten av uteliggere ved å erstatte dem med mindre ekstreme verdier.

– Det winsoriserte gjennomsnittet er en gjennomsnittsmetode som går ut på å erstatte de minste og største verdiene i et datasett med observasjonene nærmest dem.