样本量忽略

什么是样本量忽略？

丹尼尔·卡尼曼（Daniel Kahneman ）研究的一种认知偏差。当统计信息的用户因未考虑相关数据的样本量而得出错误的结论时，就会发生这种情况。忽视样本量的根本原因是人们常常无法理解小样本中更可能出现高水平的方差。因此，确定用于产生给定统计数据的样本量是否足够大以得出有意义的结论至关重要。对于那些对统计方法没有很好理解的人来说，知道样本量何时足够大可能具有挑战性。

理解样本量忽略

大多数统计推断依赖于大数定律。这就是说，有了足够大的样本，就可以从样本的特征中以一定程度的置信度推断出从中抽取样本的总体特征。当样本量太小时，无法得出准确可靠的结论。样本量忽略包括忽略小样本对我们得出此类结论的能力的影响。在金融领域，这可能会以各种方式误导投资者。

例如，投资者可能会看到一个新投资基金的广告，该广告吹嘘自成立以来已产生 15% 的年化回报率。投资者可能会很快得出结论，该基金是快速创造财富的门票。但是，如果基金成立时间不长，这个结论可能会误导潜在投资者。结果可能是由于短期异常，与基金的实际投资方法关系不大。

样本量忽略经常与基本率忽略混淆，后者是一种相关的认知偏差。忽略样本量是指未考虑样本量在确定统计声明的可信度方面的作用，而基本率忽略与人们在评估新信息时倾向于忽略有关现象的现有知识有关。

样本量忽略的真实示例

为了更好地理解样本大小忽略，请考虑以下示例，该示例来自 Tversky 和 Kahneman 的研究：

一个人被要求从五个球的样本中抽出，发现四个是红色的，一个是绿色的。

一个人从 20 个球的样本中抽出，发现其中 12 个是红色的，8 个是绿色的。

哪个样本能更好地证明球主要是红色的？

大多数人说，第一个较小的样本提供了更强有力的证据，因为红色与绿色的比例远高于较大的样本。然而，实际上，较小的样本量超过了较高的比率。 20 个样本实际上提供了更强有力的证据。

Tversky 和 Kahneman 的另一个例子如下：

一个城镇有两家医院。在较大的医院，平均每天有 45 个婴儿出生，而在较小的医院，每天大约有 15 个婴儿出生。尽管所有婴儿中有 50% 是男孩，但确切的百分比每天都在波动。

在一年中，每家医院记录了超过 60% 的婴儿恰好是男孩的天数。哪家医院记录了更多这样的日子？

当被问及这个问题时，22% 的受访者表示较大的医院会报告更多此类天数，而 56% 的受访者表示两家医院的结果相同。事实上，正确的答案是较小的医院会记录更多这样的天数，因为其较小的规模会产生更大的可变性。

正如我们前面提到的，忽略样本量的基础是人们经常无法理解高水平的方差更可能发生在小样本中。在投资方面，这确实可能非常昂贵。

＃＃强调

样本量忽视是 Amos Tversky 和 Daniel Kahneman 研究的一种认知偏差。
由于没有考虑样本量的影响，它包括从统计信息中得出错误的结论。
那些希望降低样本量忽视风险的人应该记住，较小的样本量与更不稳定的统计结果相关，反之亦然。