样本选择偏差

什么是样本选择偏差？

样本选择偏差是由于选择非随机数据进行统计分析而引起的一种偏差。偏差的存在是由于样本选择过程中的缺陷，其中一部分数据由于特定属性而被系统地排除在外。子集的排除会影响检验的统计显着性，并且会使统计模型的参数估计产生偏差。

幸存者偏差是一种常见的样本选择偏差。这种类型的偏见会忽略那些在选择过程中没有超过某个特定点的科目，而只关注那些“幸存下来”的科目。这可能导致错误的结论。

例如，当对大量股票的投资策略进行回测时，查找具有整个样本期间数据的证券可能会很方便。如果我们要根据 15 年的股票数据测试该策略，我们可能倾向于寻找在整个 15 年期间具有完整信息的股票。

然而，剔除一只停止交易或很快离开市场的股票，会在我们的数据样本中输入偏差。由于我们只包括持续了 15 年的股票，我们的最终结果将是有缺陷的，因为这些表现足以在市场中生存。

除了幸存者偏差之外，还有其他几种类型的样本选择偏差。

当研究中对参与者进行预筛选的方式引入了偏见时，就会发生这种情况。例如，研究人员用来为参与者做广告的语言本身可能会通过阻止或鼓励某些群体自愿参与而将偏见引入研究。

当研究组织者允许参与者自我选择或自愿参与时，就会出现自我选择偏差——也称为志愿者反应偏差。研究组织者将谁参与的控制权交给了决定自愿参加的人。这可能会导致具有特定特征或观点的人自愿参加一项研究，从而扭曲结果。

当人群中的特定成员被排除在研究之外时，就会出现排除偏倚。当研究组织者创建的研究不能充分代表人口中的某些成员时，就会出现覆盖不足偏差。

对冲基金业绩指数是受幸存者偏差影响的样本选择偏差的一个例子。由于无法生存的对冲基金停止向指数聚合器报告其业绩，因此生成的指数自然会倾向于仍然存在的基金和策略，从而“生存”。这也可能是流行的共同基金报告服务的问题。分析师可以调整以考虑这些偏见，但可能会在此过程中引入新的偏见。

当研究人员将自己的信念或期望投射给研究参与者时，就会出现观察者偏见，从而扭曲研究结果。这有时与挑选樱桃一起发生，此时研究人员主要关注支持他们假设的统计数据。

研究人员和研究组织者有责任确保他们的研究结果准确、相关，并且不包含任何可能导致有缺陷的结论的偏见。做到这一点的一种方法是基于支持随机样本选择过程的方法来构建研究。

虽然从理论上讲，这似乎很简单，但现实情况是研究人员需要在努力防止样本选择偏差时保持警惕。此外，研究组织者可能面临他们无法控制的限制，这使得实现随机样本具有挑战性。例如，项目可能缺乏参与者或资金不足。

为确保所研究的样本是随机的，研究人员应确定总体中的各个亚组。然后他们应该分析样本以确定这些亚组是否在研究中得到充分代表。

在某些情况下，研究人员可能会发现某些亚组在他们的研究中要么被过多代表，要么被低估。此时，研究人员可以实施偏差校正方法。一种方法是为错误表示的子组分配权重，以便在统计上纠正偏差。该加权平均值考虑了每个子组的比例相关性，并且可以产生更准确地反映研究人群的实际人口统计数据的结果。

＃＃强调