分层随机抽样
什么是分层随机抽样?
分层随机抽样是一种抽样方法,涉及将人口划分为称为分层的较小子组。在分层随机抽样或分层中,分层是根据成员的共享属性或特征(例如收入或教育程度)形成的。
分层随机抽样也称为比例随机抽样或配额随机抽样。
分层随机抽样的工作原理
在对一组具有相似特征的实体进行分析或研究时,研究人员可能会发现人口规模太大而无法完成研究。为了节省时间和金钱,分析师可以通过从人群中选择一个小组来采取更可行的方法。小组被称为样本量,它是用于代表整个总体的总体子集。可以通过多种方式从总体中选择样本,其中一种是分层随机抽样方法。
分层随机抽样涉及将整个人口分成称为分层的同质组(stratum 的复数)。 然后从每个层中选择随机样本。例如,考虑一位学术研究人员,他想知道 2007 年毕业后三个月内获得工作机会的 MBA 学生人数。
研究人员很快就会发现,这一年有近 200,000 名 MBA 毕业生。他们可能会决定只对 50,000 名毕业生进行简单的随机抽样并进行调查。更好的是,他们可以将人口划分为多个阶层,并从阶层中随机抽取样本。为此,他们将根据性别、年龄范围、种族、国籍和职业背景创建人口组。与人口相比,每个阶层的随机样本的数量与阶层的大小成正比。然后将这些层的子集汇集起来形成一个随机样本。
分层抽样用于突出总体中各组之间的差异,而不是简单的随机抽样,后者将总体中的所有成员视为平等,被抽样的可能性相等
分层随机抽样示例
假设一个研究团队想要确定全美大学生的 GPA 研究团队很难从所有 2100 万大学生中收集数据;它决定使用 4,000 名学生随机抽取人口样本。
现在假设团队查看样本参与者的不同属性,并想知道 GPA 和学生专业是否存在差异。假设它发现 560 名学生是英语专业的学生,1135 人是科学专业的学生,800 人是计算机科学专业的学生,1090 人是工程专业的学生,415 人是数学专业的学生。该团队希望使用按比例分层的随机样本,其中样本层与总体中的随机样本成比例。
假设团队研究美国大学生的人口统计数据,发现学生主修专业的百分比:英语专业占 12%,科学专业占 28%,计算机科学专业占 24%,工程专业占 21%,工程专业占 15%主修数学。因此,从分层随机抽样过程中创建了五个层次。
然后,团队需要确认总体的阶层与样本中的阶层成比例;但是,他们发现比例不相等。然后,该团队需要从总体中重新抽样 4,000 名学生,并随机选择 480 名英语、1,120 名科学、960 名计算机科学、840 名工程和 600 名数学学生。
有了这些,它有一个按比例分层的大学生随机样本,这可以更好地代表美国学生的大学专业。然后,研究人员可以突出特定的阶层,观察美国大学生的不同学习情况并观察各种平均成绩.
简单随机样本与分层随机样本
简单随机样本和分层随机样本都是统计测量工具。一个简单的随机样本用于代表整个数据群体。分层随机样本根据共同特征将人口分成更小的组或层。
当数据群体的可用信息非常少时,当数据群体的差异太多而无法划分为不同的子集时,或者当数据群体中只有一个明显的特征时,通常使用简单随机样本。
例如,一家糖果公司可能想研究其客户的购买习惯,以确定其产品线的未来。如果有 10,000 个客户,它可以从这些客户中选择 100 个作为随机样本。然后,它可以将从这 100 名客户中找到的信息应用到其他用户群。与分层不同,它将完全随机抽取 100 名成员,而不考虑他们的个人特征。
成比例和不成比例的分层
分层随机抽样可确保给定总体的每个子组在研究的整个样本总体中得到充分代表。分层可以是成比例的或不成比例的。在按比例分层的方法中,每个层的样本大小与该层的总体大小成比例。
例如,如果研究人员想要使用年龄范围的 50,000 名毕业生的样本,则将使用以下公式获得按比例分层的随机样本:(样本量/人口规模)x 阶层规模。下表假设每年有 180,000 名 MBA 毕业生的人口规模。
TTT
24 至 28 岁年龄段 MBA 毕业生的分层样本量计算为 (50,000/180,000) x 90,000 = 25,000。其他年龄范围组使用相同的方法。既然知道了分层样本大小,研究人员就可以在每个分层中执行简单的随机抽样来选择他的调查参与者。也就是说,24-28岁年龄段的25000名毕业生将从整个人口中随机抽取,29-33岁年龄段的16667名毕业生将从总体中随机抽取,以此类推。
在不成比例的分层样本中,每个层的大小与其在总体中的大小不成比例。研究人员可以决定对 1/2 的 34-37 岁年龄段的毕业生和 1/3 的 29-33 岁年龄段的毕业生进行抽样。
重要的是要注意一个人不能适应多个阶层。每个实体必须只适合一个层。具有重叠的子组意味着某些个体将有更高的机会被选中参加调查,这完全否定了分层抽样作为一种概率抽样的概念。
投资组合经理可以使用分层随机抽样,通过复制债券指数等指数来创建投资组合。
分层随机抽样的优点
分层随机抽样的主要优点是它捕获了样本中的关键人口特征。与加权平均相似,这种抽样方法在样本中产生与总人口成比例的特征。分层随机抽样适用于具有多种属性的人群,但如果无法形成子组,则否则无效。
与简单的随机抽样方法相比,分层的估计误差更小,精度更高。层之间的差异越大,精度的增益就越大。
分层随机抽样的缺点
不幸的是,这种研究方法不能用于每项研究。该方法的缺点是必须满足几个条件才能正确使用。研究人员必须确定正在研究的人群中的每一位成员,并将他们中的每一个人分类为一个亚群,并且只有一个亚群。因此,当研究人员无法自信地将人口中的每个成员分类到一个子组时,分层随机抽样是不利的。此外,找到一份详尽而明确的整个人口名单可能具有挑战性。
如果存在属于多个子组的主题,则重叠可能是一个问题。当执行简单随机抽样时,那些在多个子组中的人更有可能被选中。结果可能是对人口的虚假陈述或不准确的反映。
上面的例子很简单:本科生、研究生、男性和女性是明确定义的群体。然而,在其他情况下,这可能要困难得多。想象一下融合种族、民族或宗教等特征。排序过程变得更加困难,使分层随机抽样成为一种无效且不太理想的方法。
## 强调
分层随机抽样不同于简单随机抽样,后者涉及从整个人口中随机选择数据,因此每个可能的样本出现的可能性相同。
分层随机抽样涉及将整个人口分成称为分层的同质组。
分层随机抽样使研究人员能够获得最能代表所研究的整个群体的样本群体。