Distribuzione del campionamento

Che cos'è una distribuzione di campionamento?

Una distribuzione campionaria è una distribuzione di probabilità di una statistica ottenuta da un numero maggiore di campioni estratti da una specifica popolazione. La distribuzione campionaria di una data popolazione è la distribuzione delle frequenze di una gamma di risultati diversi che potrebbero verificarsi per una statistica di una popolazione.

In statistica,. una popolazione è l'intero pool da cui viene estratto un campione statistico. Una popolazione può riferirsi a un intero gruppo di persone, oggetti, eventi, visite ospedaliere o misurazioni. Si può quindi dire che una popolazione è un'osservazione aggregata di soggetti raggruppati da una caratteristica comune.

Una distribuzione campionaria è una statistica ottenuta attraverso campionamenti ripetuti da una popolazione più ampia.

Descrive una gamma di possibili risultati di una statistica, come la media o la modalità di una variabile, poiché esiste veramente una popolazione.

La maggior parte dei dati analizzati dai ricercatori sono in realtà tratti da campioni e non da popolazioni.

Comprensione della distribuzione del campionamento

Molti dati estratti e utilizzati da accademici, statistici, ricercatori, esperti di marketing, analisti, ecc. sono in realtà campioni, non popolazioni. Un campione è un sottoinsieme di una popolazione. Ad esempio, un ricercatore medico che volesse confrontare il peso medio di tutti i bambini nati in Nord America dal 1995 al 2005 con quelli nati in Sud America nello stesso periodo di tempo non può ricavare entro un ragionevole lasso di tempo i dati per l'intera popolazione di oltre un milione di parti avvenute nell'arco di dieci anni. Useranno invece solo il peso di, diciamo, 100 bambini, in ogni continente per trarre una conclusione. Il peso di 200 bambini utilizzato è il campione e il peso medio calcolato è la media campionaria.

Supponiamo ora che, invece di prelevare un solo campione di 100 pesi neonati da ciascun continente, il ricercatore medico prenda campioni casuali ripetuti dalla popolazione generale e calcoli la media campionaria per ciascun gruppo campione. Quindi, per il Nord America, estraggono i dati per 100 pesi neonatali registrati negli Stati Uniti, Canada e Messico come segue: quattro 100 campioni da ospedali selezionati negli Stati Uniti, cinque 70 campioni dal Canada e tre 150 record dal Messico, per un totale di 1.200 pesi di neonati raggruppati in 12 set. Raccolgono anche un campione di dati di 100 pesi alla nascita da ciascuno dei 12 paesi del Sud America.

Ogni campione ha la propria media campionaria e la distribuzione delle medie campionarie è nota come distribuzione campionaria.

Il peso medio calcolato per ogni set di campioni è la distribuzione campionaria della media. Non solo la media può essere calcolata da un campione. Altre statistiche,. come la deviazione standard, la varianza, la proporzione e l'intervallo possono essere calcolate dai dati campione. La deviazione standard e la varianza misurano la variabilità della distribuzione campionaria.

Il numero di osservazioni in una popolazione, il numero di osservazioni in un campione e la procedura utilizzata per disegnare i set di campioni determinano la variabilità di una distribuzione campionaria. La deviazione standard di una distribuzione campionaria è chiamata errore standard. Mentre la media di una distribuzione campionaria è uguale alla media della popolazione, l'errore standard dipende dalla deviazione standard della popolazione, dalla dimensione della popolazione e dalla dimensione del campione.

Sapere quanto sono distanti tra loro la media di ciascuno dei set di campioni e dalla media della popolazione darà un'indicazione di quanto sia vicina la media campionaria alla media della popolazione. L'errore standard della distribuzione del campionamento diminuisce all'aumentare della dimensione del campione.

Considerazioni speciali

Una popolazione o un insieme di numeri campione avrà una distribuzione normale. Tuttavia, poiché una distribuzione campionaria include più insiemi di osservazioni, non avrà necessariamente una forma a campana.

Seguendo il nostro esempio, il peso medio della popolazione dei bambini in Nord America e in Sud America ha una distribuzione normale perché alcuni bambini saranno sottopeso (sotto la media) o sovrappeso (sopra la media), con la maggior parte dei bambini che cade nel mezzo (intorno alla media ). Se il peso medio dei neonati in Nord America è di sette libbre, anche il peso medio del campione in ciascuna delle 12 serie di osservazioni campionarie registrate per il Nord America sarà vicino a sette libbre.

Tuttavia, se si rappresenta graficamente ciascuna delle medie calcolate in ciascuno dei 1.200 gruppi di campioni, la forma risultante può risultare in una distribuzione uniforme, ma è difficile prevedere con certezza quale sarà la forma effettiva. Più campioni utilizza il ricercatore dalla popolazione di oltre un milione di cifre di peso, più il grafico inizierà a formare una distribuzione normale.