Distribution d'échantillonnage

Qu'est-ce qu'une distribution d'échantillonnage ?

Une distribution d'échantillonnage est une distribution de probabilité d'une statistique obtenue à partir d'un plus grand nombre d'échantillons tirés d'une population spécifique. La distribution d'échantillonnage d'une population donnée est la distribution des fréquences d'une gamme de résultats différents qui pourraient éventuellement se produire pour une statistique d'une population.

En statistique,. une population est l'ensemble du pool à partir duquel un échantillon statistique est tiré. Une population peut faire référence à un groupe entier de personnes, d'objets, d'événements, de visites à l'hôpital ou de mesures. On peut donc dire d'une population qu'elle est une observation agrégée de sujets regroupés par un trait commun.

Une distribution d'échantillonnage est une statistique issue d'un échantillonnage répété à partir d'une population plus large.

Il décrit une gamme de résultats possibles que d'une statistique, comme la moyenne ou le mode d'une variable, car il existe vraiment une population.

La majorité des données analysées par les chercheurs sont en fait tirées d'échantillons, et non de populations.

Comprendre la distribution d'échantillonnage

De nombreuses données tirées et utilisées par des universitaires, des statisticiens, des chercheurs, des spécialistes du marketing, des analystes, etc. sont en fait des échantillons, et non des populations. Un échantillon est un sous-ensemble d'une population. Par exemple, un chercheur médical qui voulait comparer le poids moyen de tous les bébés nés en Amérique du Nord entre 1995 et 2005 à ceux nés en Amérique du Sud au cours de la même période ne peut pas, dans un délai raisonnable, tirer les données pour l'ensemble de la population de plus d'un million d'accouchements survenus au cours de la période de dix ans. Au lieu de cela, ils n'utiliseront que le poids de, disons, 100 bébés, dans chaque continent, pour tirer une conclusion. Le poids de 200 bébés utilisés est l'échantillon et le poids moyen calculé est la moyenne de l'échantillon.

Supposons maintenant qu'au lieu de prélever un seul échantillon de 100 poids de nouveau-nés de chaque continent, le chercheur médical prélève des échantillons aléatoires répétés dans la population générale et calcule la moyenne de l'échantillon pour chaque groupe d'échantillons. Ainsi, pour l'Amérique du Nord, ils extraient des données pour 100 poids de nouveau-nés enregistrés aux États-Unis, au Canada et au Mexique comme suit : quatre échantillons de 100 provenant d'hôpitaux sélectionnés aux États-Unis, cinq échantillons de 70 du Canada et trois enregistrements de 150 du Mexique, pour un total de 1 200 poids de nouveau-nés regroupés en 12 ensembles. Ils recueillent également un échantillon de données de 100 poids à la naissance de chacun des 12 pays d'Amérique du Sud.

Chaque échantillon a sa propre moyenne d'échantillon et la distribution des moyennes d'échantillon est connue sous le nom de distribution d'échantillon.

Le poids moyen calculé pour chaque ensemble d'échantillons est la distribution d'échantillonnage de la moyenne. Il n'y a pas que la moyenne qui peut être calculée à partir d'un échantillon. D'autres statistiques,. telles que l'écart type, la variance, la proportion et la plage peuvent être calculées à partir de données d'échantillon. L'écart type et la variance mesurent la variabilité de la distribution d'échantillonnage.

Le nombre d'observations dans une population, le nombre d'observations dans un échantillon et la procédure utilisée pour tirer les ensembles d'échantillons déterminent la variabilité d'une distribution d'échantillonnage. L'écart type d'une distribution d'échantillonnage s'appelle l' erreur type. Alors que la moyenne d'une distribution d'échantillonnage est égale à la moyenne de la population, l'erreur type dépend de l'écart type de la population, de la taille de la population et de la taille de l'échantillon.

Connaître l'écart entre la moyenne de chacun des ensembles d'échantillons et la moyenne de la population donnera une indication de la proximité de la moyenne de l'échantillon avec la moyenne de la population. L'erreur type de la distribution d'échantillonnage diminue à mesure que la taille de l'échantillon augmente.

Considérations particulières

Une population ou un échantillon de nombres aura une distribution normale. Cependant, étant donné qu'une distribution d'échantillonnage comprend plusieurs ensembles d'observations, elle n'aura pas nécessairement une forme en cloche.

Suivant notre exemple, le poids moyen de la population des bébés en Amérique du Nord et en Amérique du Sud a une distribution normale parce que certains bébés auront un poids insuffisant (inférieur à la moyenne) ou en surpoids (au-dessus de la moyenne), la plupart des bébés se situant entre les deux (autour de la moyenne). ). Si le poids moyen des nouveau-nés en Amérique du Nord est de sept livres, le poids moyen de l'échantillon dans chacun des 12 ensembles d'observations enregistrées pour l'Amérique du Nord sera également proche de sept livres.

Cependant, si vous représentez graphiquement chacune des moyennes calculées dans chacun des 1 200 groupes d'échantillons, la forme résultante peut entraîner une distribution uniforme, mais il est difficile de prédire avec certitude quelle sera la forme réelle. Plus le chercheur utilise d'échantillons à partir de la population de plus d'un million de chiffres de poids, plus le graphique commencera à former une distribution normale.