虚假相关
什么是虚假相关?
在统计学中,虚假相关性(或虚假性)是指两个变量之间看似因果关系但实际上并非因果关系的联系。对于虚假相关,任何观察到的变量之间的依赖关系都仅仅是偶然的,或者都与一些看不见的混杂因素有关。
了解虚假相关性
虚假关系最初似乎表明一个变量直接影响另一个变量,但事实并非如此。这种误导性的相关性通常是由检查时不明显的第三个因素引起的,有时称为混杂因素。
当两个随机变量在图上密切跟踪时,很容易怀疑一个变量的变化导致另一个变量的变化的相关性。撇开因果关系,这是另一个话题,这个观察可以让图表的读者相信变量 A 的运动与变量 B 的运动相关,反之亦然。
然而,更仔细的统计检查可能表明对齐的运动是巧合的,或者是由影响这两个变量的第三个因素引起的。这是一个虚假的相关性。以小样本量或任意端点进行的研究特别容易受到虚假的影响。
发现虚假
在研究结果中发现虚假关系的最明显方法是使用常识。仅仅因为两件事发生并且看起来是相关的,并不意味着没有其他因素在起作用。然而,要确定的是,研究方法是经过严格检查的。
在研究中,所有可能影响研究结果的变量都应包含在统计模型中,以控制它们对因变量的影响。
虚假相关
许多虚假关系可以通过使用常识来识别。如果发现相关性,通常有不止一个变量在起作用,而且这些变量通常不会立即显而易见。
虚假相关示例
有趣的相关性很容易找到,但许多会被证明是虚假的。三个例子是裙长理论、超级碗指标,以及种族和大学完成率之间的建议相关性。
裙长理论:起源于1920年代的裙长理论认为裙长与股市方向相关。如果裙子长度很长,则相关性是股市看跌。如果衬衫长度较短,则市场看涨。
超级碗指标:1月下旬,经常有人议论所谓的超级碗指标,这表明美式橄榄球大会队获胜很可能意味着未来股市将下跌年,而国家足球会议队的胜利预示着市场的上涨。根据 OpenMarkets 的数据,自超级碗时代开始以来,该指标的准确率约为 74%,即 54 年中的 40 年。这是一个有趣的谈话片段,但可能不是一个严肃的财务顾问会推荐给客户的投资策略。
教育程度和种族:社会科学家专注于确定哪些变量会影响教育程度。根据政府研究,2019 年 25 至 29 岁的白人中有 56% 完成了大学学位,而同龄黑人中这一比例仅为 36%。这意味着种族对大学完成率有因果影响。
然而,影响教育成就的可能不是种族本身。结果也可能是由于种族主义在社会中的影响,这可能是第三个“隐藏”变量。种族主义影响有色人种,使他们在教育和经济上处于不利地位。例如,非白人社区的学校面临更大的挑战,获得的资金更少,非白人群体的父母收入较低,用于子女教育的资源更少,许多家庭生活在食物荒漠中,营养不良.种族主义,而不是种族,可能被视为影响教育成就的因果变量。
## 强调
因果关系的出现通常是由于图表上的类似移动结果是巧合或由第三个“混杂”因素引起的。
当两个因素看似随意地相互关联但实际上并不相关时,就会出现虚假相关性或虚假性。
确认因果关系需要一项控制所有可能变量的研究。
统计学家和科学家使用仔细的统计分析来确定虚假关系。
虚假相关可能由小样本量或任意端点引起。
## 常问问题
什么是虚假回归?
虚假回归是一种统计模型,它显示了线性关系的误导性统计证据;换句话说,独立非平稳变量之间的虚假相关性。
什么是相关而不是因果的例子?
相关性的一个例子是,更多的睡眠会导致白天更好的表现。虽然有相关性,但不一定有因果关系。更多的睡眠可能不是个人表现更好的原因;例如,他们可能正在使用一种新的软件工具来提高他们的生产力。要找到因果关系,必须有来自一项研究的事实证据表明睡眠和表现之间存在因果关系。
如何发现虚假相关?
分析数据的统计学家和其他科学家必须时刻注意虚假关系。他们使用多种方法来识别它们,包括:-确保适当的代表性样本-获得足够的样本量-警惕任意端点-控制尽可能多的外部变量-使用零假设并检查强p -价值
什么是假因果关系?
错误的因果关系是指假设一件事由于它们之间的关系而导致另一件事。例如,我们可以假设哈利一直在努力训练以成为更快的跑步者,因为他的比赛时间有所改善。然而,现实可能是哈利的比赛时间有所改善,因为他拥有采用最新技术制成的新跑鞋。最初的假设是错误的因果关系。