样本
什么是样本?
样本是指较大组的较小的、可管理的版本。它是一个包含较大人口特征的子集。当人口规模太大而无法包括所有可能的成员或观察结果时,样本用于统计测试。样本应该代表整个人口,而不是反映对特定属性的任何偏见。
研究人员和统计学家使用了几种抽样技术,每种技术都有其优点和缺点。
理解样本
样本是从总体中获取的无偏观测数。简单来说,总体是给定组或上下文中包含的观察(即个人、动物、项目、数据等)的总数。换句话说,样本是整个组的一部分、一部分或一部分,并且充当总体的子集。样本用于进行研究的各种环境中。科学家、营销人员、政府机构、经济学家和研究小组都在使用样本进行研究和测量。
使用整个人群进行研究会带来挑战。研究人员可能难以随时访问整个人群。而且,由于某些研究的性质,研究人员可能难以及时获得所需的结果。这就是使用人员样本的原因。使用代表整个人口的少数人仍然可以产生有效的结果,同时减少时间和资源。
研究人员使用的样本必须与更广泛的人群相似,才能做出准确的推论或预测。样本中的所有参与者都应具有相同的特征和品质。因此,如果研究是关于男性大学新生,样本应该是符合此描述的一小部分男性。同样,如果一个研究小组对 50 岁以上单身女性的睡眠模式进行研究,则样本应仅包括该人群中的女性。
特别注意事项
考虑一个学术研究团队,他们想知道有多少学生学习了不到 40 小时的CFA 考试并仍然通过了考试。由于全球每年有超过 200,000 人参加考试,因此接触每一位考试参与者会浪费时间和资源。
事实上,当人口数据被收集和分析时,已经过去了几年,因为新的人口已经出现,所以分析变得毫无价值。相反,研究人员可以做的是抽取人口样本并从该样本中获取数据。
为了获得无偏的样本,选择必须是随机的,因此总体中的每个人都有平等且可能的机会被添加到样本组中。这类似于彩票抽奖,是简单随机抽样的基础。
对于无偏样本,选择必须是随机的,以便总体中的每个人都有平等的机会被添加到该组中。
采样类型
简单随机抽样
如果总体中的每个实体都相同,则简单随机抽样是理想的。如果研究人员不关心他们的样本对象是全部是男性还是全部是女性,或者是某种形式的两性组合,那么简单的随机抽样可能是一种很好的选择技术。
假设有 200,000 名考生参加了 2021 年的 CFA 考试,其中 40% 是女性,60% 是男性。因此,从人口中抽取的随机样本应该有 400 名女性和 600 名男性,总共 1,000 名应试者。
但是,在学习不到 40 小时后了解通过考试的男女比例很重要的情况呢?在这里,分层随机样本比简单随机样本更可取。
分层随机抽样
这种类型的抽样,也称为比例随机抽样或配额随机抽样,将整体人口分成更小的组。这些被称为分层。阶层内的人具有相似的特征。
如果年龄是研究人员希望在他们的数据中包含的一个重要因素呢?使用分层随机抽样技术,他们可以为每个年龄组创建层或层。每个阶层的选择必须是随机的,以便括号中的每个人都有可能被包括在样本中。例如,两个参与者 Alex 和 David,分别是 22 岁和 24 岁。样本选择不能基于某种优先机制来选择一个。他们都应该有平等的机会从他们的年龄组中被选中。地层可能看起来像这样:
TTT
从表中可以看出,人口按年龄组划分。例如,2021 年有 30,000 名 20 至 24 岁年龄段的人参加了 CFA 考试。使用相同的比例,样本组将有 (30,000 ÷ 200,000) × 1,000 = 150 名应试者属于该组。样本的 150 名随机考试参与者中可能包括亚历克斯或大卫——或两者兼有或都不包括在内。
在决定样本量时,可以编译更多的层次。在决定如何创建样本时,一些研究人员可能会填充应试者的工作职能、国家、婚姻状况等。
示例示例
2021年,世界人口接近79亿,其中女性占49.6%,男性占50%。任何给定国家的总人数也可以是人口规模。一个城市的学生总数可以作为一个人口,一个城市的狗的总数也是一个人口规模。出于研究目的,可以从这些人群中采集样本。
按照我们的 CFA 考试示例,研究人员可以从 200,000 名应试者(总体)中抽取 1,000 名 CFA 参与者作为样本,并针对该数字运行所需的数据。该样本的平均值将用于估计通过 CFA 考试的考生的平均值,即使他们只学习了不到 40 小时。
抽取的样本组不应有偏见。这意味着,如果 1,000 名 CFA 考试参与者的样本平均值为 50,则 200,000 名考生的总体平均值也应约为 50。
## 强调
在统计学中,样本是较大总体的分析子集。
在简单随机抽样中,总体中的每个实体都是相同的,而分层随机抽样将整个总体划分为更小的组。
样本的使用使研究人员能够及时地使用更易于管理的数据进行研究。
如果样本足够大,随机抽取的样本不会有太大的偏差,但获得这样的样本可能既昂贵又耗时。
## 常问问题
什么是简单随机样本?
这种抽样方法使用从较大人口中随机选择的受访者或数据点。如果样本量足够大,随机样本可以消除偏差。
为什么随机样本允许推理?
统计规律意味着可以通过使用样本对总体进行准确的测量和评估。由于大数定律和中心极限定理,方差分析 (ANOVA) 、线性回归和更高级的建模技术是有效的。
为什么分析师使用样本而不是测量总体?
通常,为了测量每个成员,人口太大或太广,测量每个成员将是昂贵且耗时的。样本允许使用统计方法对总体进行推断。
您需要多大的样本?
这将取决于总体规模和您想要进行的分析类型(例如,您使用的置信区间)。功效分析是一种根据您的需要对所需的最小样本量进行数学评估的技术。另一个经验法则是您的样本应该足够大,但不超过总体的 10%。