Investor's wiki

Media Winsorizzata

Media Winsorizzata

Qual è la media Winsorized?

La media Winsorized è un metodo di media che inizialmente sostituisce i valori più piccoli e più grandi con le osservazioni più vicine a loro. Questo viene fatto per limitare l'effetto di valori anomali o valori estremi anomali, o valori anomali, sul calcolo.

Dopo aver sostituito i valori, la formula della media aritmetica viene quindi utilizzata per calcolare la media winsorizzata.

Formula per la media Winsorized

Media Winsorized = xn…xn+1 + + </ mtext>xn+2…xnN< /mstyle>dove: n = Il numero di dati più grandi e più piccoli punti da sostituire con i osservazioneil più vicino a loro< /mtd> N< mtext> = Numero totale di punti dati\begin &\text\ =\ \frac{x_\dots x_{n+1}\ +\ x_{n+2}\dots x_}\ &\textbf\ &\begin n\ =\ &\text{Il numero dei dati più grandi e più piccoli}\ &\text {punti da sostituire con l'osservazione}\ &\text{più vicino a loro}\end\ &N\ =\ \text \end

Le medie Winsorized sono espresse in due modi. Una media winsorizzata "kn" si riferisce alla sostituzione delle osservazioni più piccole e più grandi "k", dove "k" è un numero intero. Una media winsorizzata "X%" implica la sostituzione di una determinata percentuale di valori da entrambe le estremità dei dati.

La media winsorizzata si ottiene sostituendo i punti dati più piccoli e quelli più grandi, quindi sommando tutti i punti dati e dividendo la somma per il numero totale di punti dati.

Cosa ti dice il significato di Winsorized?

La media winsorizzata è meno sensibile ai valori anomali perché può sostituirli con valori meno estremi. Cioè, è meno suscettibile ai valori anomali rispetto alla media aritmetica. Tuttavia, se una distribuzione ha code grasse, l'effetto della rimozione dei valori più alti e più bassi nella distribuzione avrà poca influenza a causa dell'alto grado di variabilità nelle cifre della distribuzione .

Uno dei principali svantaggi dei mezzi winsorized è che introducono naturalmente una certa distorsione nel set di dati. Riducendo l'influenza dei valori anomali, l'analisi viene modificata per una migliore analisi, ma rimuove anche le informazioni sui dati sottostanti.

Esempio di come utilizzare Winsorized Mean

Calcoliamo la media winsorizzata per il seguente set di dati: 1, 5, 7, 8, 9, 10, 34. In questo esempio, assumiamo che la media winsorizzata sia nel primo ordine, in cui sostituiamo i valori più piccolo e più grande con le loro osservazioni più vicine.

Il set di dati ora appare come segue: 5, 5, 7, 8, 9, 10, 10. Prendendo una media aritmetica del nuovo set si ottiene una media winsorizzata di 7,7, o (5 + 5 + 7 + 8 + 9 + 10 + 10) diviso per 7. Si noti che la media aritmetica sarebbe stata maggiore: 10,6. La media winsorizzata riduce efficacemente l'influenza del valore 34 come valore anomalo.

Oppure considera una media winsorized del 20% che prende il 10% più alto e il 10% più basso e li sostituisce con il valore più vicino. Winsorizeremo il seguente set di dati: 2, 4, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 62, 75. I due i punti dati più piccoli e due punti dati più grandi, il 20% dei 20 punti dati, verranno sostituiti con il valore successivo più vicino. Pertanto, il nuovo set di dati è il seguente: 7, 7, 7, 8, 11, 14, 18, 23, 23, 27, 35, 40, 49, 50, 55, 60, 61, 61, 61, 61. La media winsorizzata è 33,9, ovvero il totale dei dati (678) diviso per il numero totale di punti dati (20).

Media Winsorized vs. Media ridotta

La media winsorizzata include la modifica dei punti dati, mentre la media tagliata comporta la rimozione dei punti dati. È comune che la media winsorizzata e la media tagliata siano vicine o talvolta uguali in valore l'una all'altra.

Mette in risalto

  • La media winsorizzata non è la stessa della media tagliata, che comporta la rimozione di punti dati invece di sostituirli, anche se i risultati dei due tendono ad essere vicini.

  • Attenua gli effetti dei valori anomali sostituendoli con valori meno estremi.

  • La media winsorizzata è un metodo di media che prevede la sostituzione dei valori più piccoli e più grandi di un set di dati con le osservazioni a loro più vicine.