Investor's wiki

Min Winsorized

Min Winsorized

Apakah Maksud Winsorized?

Min Winsorized ialah kaedah purata yang pada mulanya menggantikan nilai terkecil dan terbesar dengan pemerhatian yang paling hampir dengan mereka. Ini dilakukan untuk mengehadkan kesan outlier atau nilai ekstrem yang tidak normal, atau outlier, pada pengiraan.

Selepas menggantikan nilai, formula min aritmetik kemudiannya digunakan untuk mengira min winsorized.

Formula untuk Min Winsorized

Min Winsorized = xn…xn+1 + </ mtext>xn+2…xnN< /mstyle>di mana:</mtr n = </mrow Bilangan data terbesar dan terkecil < mrow>mata untuk digantikan dengan pemerhatian paling dekat dengan mereka< / mtd> N< mtext> = Jumlah bilangan titik data\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf\ &\mula n\ =\ &\text\ &\text \ &\text\end\ &N\ =\ \text \end

Cara Winsorized dinyatakan dalam dua cara. Maksud "kn" winsorized merujuk kepada penggantian "k" cerapan terkecil dan terbesar, dengan "k" ialah integer. Purata winsorized "X%" melibatkan penggantian peratusan nilai tertentu daripada kedua-dua hujung data.

Purata winsorized dicapai dengan menggantikan titik data terkecil dan terbesar, kemudian menjumlahkan semua titik data dan membahagikan jumlah dengan jumlah titik data.

Apakah Maksud Winsorized Beritahu Anda?

Min winsorized kurang sensitif terhadap outlier kerana ia boleh menggantikannya dengan nilai yang kurang ekstrem. Iaitu, ia kurang terdedah kepada outlier berbanding purata aritmetik. Walau bagaimanapun, jika taburan mempunyai ekor gemuk, kesan penyingkiran nilai tertinggi dan terendah dalam taburan akan mempunyai sedikit pengaruh kerana tahap kebolehubahan yang tinggi dalam angka taburan .

Satu kelemahan utama untuk cara winsorized ialah mereka secara semula jadi memperkenalkan beberapa berat sebelah ke dalam set data. Dengan mengurangkan pengaruh outlier, analisis diubah suai untuk analisis yang lebih baik, tetapi juga mengalih keluar maklumat tentang data asas.

Contoh Cara Menggunakan Min Winsorized

Mari kita hitung min winsorized untuk set data berikut: 1, 5, 7, 8, 9, 10, 34. Dalam contoh ini, kita menganggap min winsorized adalah dalam susunan pertama, di mana kita menggantikan nilai terkecil dan terbesar ​dengan pemerhatian terdekat mereka.

Set data kini muncul seperti berikut: 5, 5, 7, 8, 9, 10, 10. Mengambil purata aritmetik set baharu menghasilkan min winsorized 7.7, atau (5 + 5 + 7 + 8 + 9 + 10 + 10) dibahagikan dengan 7. Perhatikan bahawa min aritmetik mungkin lebih tinggi—10.6. Min winsorized berkesan mengurangkan pengaruh nilai 34 sebagai outlier.

Atau pertimbangkan min 20% winsorized yang mengambil 10% teratas dan 10% terbawah dan menggantikannya dengan nilai terdekat seterusnya. Kami akan memenangi set data berikut: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. Kedua-duanya terkecil dan dua titik data terbesar—20% daripada 20 titik data—akan digantikan dengan nilai terdekat seterusnya. Oleh itu, set data baharu adalah seperti berikut: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. Min winsorized ialah 33.9, atau jumlah data (678) dibahagikan dengan jumlah titik data (20).

Min Winsorized lwn. Min Dipangkas

Min winsorized termasuk mengubah suai titik data, manakala min yang dipangkas melibatkan mengalih keluar titik data. Ia adalah perkara biasa bagi min winsorized dan min trimmed hampir atau kadangkala sama nilai antara satu sama lain.

##Sorotan

  • Min winsorized tidak sama dengan min yang dipangkas, yang melibatkan mengalih keluar titik data berbanding dengan menggantikannya—walaupun keputusan kedua-duanya cenderung hampir.

  • Ia mengurangkan kesan outlier dengan menggantikannya dengan nilai yang kurang ekstrem.

  • Min winsorized ialah kaedah purata yang melibatkan penggantian nilai terkecil dan terbesar bagi set data dengan pemerhatian yang paling hampir dengannya.