Investor's wiki

抽样分布

抽样分布

什么是抽样分布?

抽样分布是从特定人群中抽取的大量样本中获得的统计量的概率分布。给定总体的抽样分布是总体统计可能出现的一系列不同结果的频率分布。

统计学中,总体是从中抽取统计样本的整个池。人口可以指整个人群、对象、事件、医院访问或测量值。因此,总体可以说是由共同特征组合在一起的对象的聚合观察。

  • 抽样分布是通过从更大的人口中重复抽样得出的统计数据。
  • 它描述了统计数据的一系列可能结果,例如某个变量的平均值或模式,因为它确实存在于一个总体中。
  • 研究人员分析的大部分数据实际上来自样本,而不是总体。

了解抽样分布

院士、统计学家、研究人员、营销人员、分析师等抽取和使用的大量数据实际上是样本,而不是总体。样本是总体的子集。例如,一位医学研究人员想要将 1995 年至 2005 年期间在北美出生的所有婴儿的平均体重与在同一时期内在南美出生的婴儿的平均体重进行比较,但无法在合理的时间内得出整个人口的数据。在十年的时间范围内发生了超过一百万的分娩。相反,他们只会使用每个大陆的 100 个婴儿的重量来得出结论。使用的 200 个婴儿的体重是样本,计算的平均体重是样本平均值。

现在假设医学研究人员不是只从每个大陆抽取一个 100 个新生儿体重的样本,而是从普通人群中抽取重复的随机样本,并计算每个样本组的样本均值。因此,对于北美,他们提取了在美国、加拿大和墨西哥记录的 100 个新生儿体重的数据,如下所示:来自美国选定医院的四个 100 个样本、五个来自加拿大的 70 个样本和三个来自墨西哥的 150 个记录,总计1,200 个新生婴儿的重量,分为 12 组。他们还从南美洲 12 个国家中的每个国家收集了 100 个出生体重的样本数据。

每个样本都有自己的样本均值,样本均值的分布称为样本分布。

为每个样本集计算的平均权重是平均值的抽样分布。不仅可以从样本中计算平均值。其他统计量,如标准差、方差、比例和范围可以从样本数据中计算出来。标准差和方差衡量抽样分布的可变性。

总体中的观测数、样本中的观测数以及用于抽取样本集的程序决定了抽样分布的可变性。抽样分布的标准差称为标准误差。虽然抽样分布的平均值等于总体的平均值,但标准误差取决于总体的标准差、总体的大小和样本的大小。

了解每个样本集的均值彼此之间以及总体均值的分散程度将表明样本均值与总体均值的接近程度。抽样分布的标准误差随着样本量的增加而减小。

特别注意事项

一个总体或一组样本数字将具有正态分布。但是,由于抽样分布包括多组观测值,它不一定具有钟形曲线形状。

按照我们的例子,北美和南美婴儿的人口平均体重呈正态分布,因为一些婴儿体重不足(低于平均值)或超重(高于平均值),大多数婴儿介于两者之间(平均值附近) )。如果北美新生儿的平均体重为 7 磅,则为北美记录的 12 组样本观测值中每组的样本平均体重也将接近 7 磅。

但是,如果您绘制在 1,200 个样本组中的每一个中计算的每个平均值,则生成的形状可能会导致均匀分布,但很难确切地预测实际形状会变成什么。研究人员从超过一百万个体重数据中使用的样本越多,图表就越会开始形成正态分布。