Investor's wiki

系统抽样

系统抽样

什么是系统抽样?

系统抽样是一种概率抽样方法,其中根据随机起点但具有固定的周期性间隔从较大总体中选择样本成员。这个区间称为抽样区间,是通过将总体规模除以所需样本规模来计算的。尽管预先选择了样本总体,但如果预先确定了周期间隔并且起点是随机的,那么系统抽样仍然被认为是随机的。

理解系统抽样

由于人口的简单随机抽样可能效率低下且耗时,因此统计学家转向其他方法,例如系统抽样。通过系统的方法选择样本量可以很快完成。一旦确定了一个固定的起点,就会选择一个恒定的时间间隔以方便参与者的选择。

当数据操纵风险较低时,系统抽样优于简单随机抽样。如果当研究人员可以操纵区间长度以获得所需结果时这种风险很高,那么简单的随机抽样技术会更合适。

系统抽样因其简单性而受到研究人员和分析人员的欢迎。研究人员通常假设结果代表了大多数正常人群,除非每个“nth”数据样本不成比例地存在随机特征(这不太可能)。换句话说,人口需要表现出自然程度的随机性以及所选择的指标。如果人口具有某种标准化模式,则意外选择非常常见的病例的风险更加明显。

在系统抽样中,与其他抽样方法一样,必须在选择参与者之前选择目标人群。可以根据适合所进行研究目的的任意数量的所需特征来识别人群。一些选择标准可能包括年龄、性别、种族、地点、教育水平和/或职业。

有几种方法可以对总体进行抽样以进行统计推断;系统抽样是随机抽样的一种形式。

系统抽样示例

作为系统抽样的假设示例,假设在 10,000 人的人口中,统计学家选择每 100 人进行抽样。采样间隔也可以是系统的,例如每 12 小时选择一个新样本。

再举一个例子,如果您想使用系统抽样从 50,000 人口中随机选择 1,000 人,则必须将所有潜在参与者放在一个列表中,并选择一个起点。列表形成后,列表中的每 50 个人(从所选起点开始计数)将被选为参与者,因为 50,000/1,000 = 50。

例如,如果选择的起点是 20,则将选择列表中的第 70 个人,然后选择第 120 个人,依此类推。一旦到达列表的末尾并且如果需要其他参与者,则计数将循环到列表的开头以完成计数。

为了进行系统抽样,研究人员必须首先了解目标人群的规模。

系统抽样与集群抽样

系统抽样和整群抽样的不同之处在于它们如何从样本中包含的总体中提取样本点。整群抽样将总体分解成簇,而系统抽样使用来自较大总体的固定间隔来创建样本。

系统抽样从总体中选择一个随机起点,然后根据总体大小从定期固定间隔中抽取样本。聚类抽样将总体划分为多个聚类,然后从每个聚类中抽取一个简单的随机样本。

整群抽样被认为不如其他抽样方法精确。但是,它可以节省获取样品的成本。整群抽样是一个两步抽样过程。当完成整个人口的列表很困难时,可以使用它。例如,可能很难构建一个杂货店顾客的全部人口来采访。

但是,一个人可以创建一个随机的商店子集,这是该过程的第一步。第二步是随机采访这些商店的顾客。这是一个简单的手动过程,可以节省时间和金钱。

系统抽样的局限性

统计人员在进行系统抽样时必须考虑的一项风险涉及如何组织抽样间隔所使用的列表。如果列表中的总体按照与抽样间隔相匹配的循环模式进行组织,则所选样本可能存在偏差。

例如,公司的人力资源部门想要挑选员工样本并询问他们对公司政策的看法。员工被分成 20 人的团队,每个团队由一名经理领导。如果用于选择样本量的列表是由聚集在一起的团队组织的,那么统计学家可能会根据抽样间隔只选择经理(或根本不选择经理)。

## 强调

  • 该方法的其他优点包括消除聚集选择现象和污染数据的可能性低。

  • 固定周期间隔,称为抽样间隔,是通过将总体规模除以所需样本规模来计算的。

  • 缺点包括对特定模式的过度或低估以及更大的数据操纵风险。

  • 系统抽样是一种概率抽样方法,其中从较大的总体中选择具有固定周期间隔的随机样本。

## 常问问题

系统抽样的优势是什么?

系统抽样操作简单且易于理解,这就是为什么它通常受到研究人员的青睐。中心假设,即结果代表大多数正常人群,保证了对整个人群的均匀抽样。此外,与其他抽样方法相比,系统抽样提供了更高程度的控制,因为它的过程。系统抽样还具有低风险因素,因为数据被污染的可能性很小。

聚类和系统抽样有何不同?

整群抽样和系统抽样的不同之处在于它们如何从样本中包含的总体中提取样本点。聚类抽样将总体划分为多个聚类,然后从每个聚类中抽取一个简单的随机样本。系统抽样从总体中选择一个随机起点,然后根据总体大小从定期固定间隔中抽取样本。整群抽样比系统抽样更容易受到更大的抽样误差的影响,尽管它可能是一个更便宜的过程。

系统抽样的缺点是什么?

系统抽样的主要缺点是需要人口规模。在不知道人口中参与者的具体数量的情况下,系统抽样不能很好地工作。例如,如果一个统计学家想检查特定地区的无家可归者的年龄,但无法准确获得有多少无家可归者,那么他们将没有人口规模或起点。另一个缺点是总体需要表现出自然数量的随机性,否则选择相似实例的风险会增加,从而违背了样本的目的。