多重共线性
什么是多重共线性?
多重共线性是在多元回归模型中两个或多个自变量之间出现高度相关性。当研究人员或分析师试图确定如何最有效地使用每个自变量来预测或理解统计模型中的因变量时,多重共线性可能会导致结果出现偏差或误导。
一般来说,多重共线性会导致更宽的置信区间,从而在模型中自变量的影响方面产生不太可靠的概率。
理解多重共线性
统计分析师使用多元回归模型根据两个或多个自变量的值来预测指定因变量的值。因变量有时被称为结果、目标或标准变量。
例如,多元回归模型试图根据市盈率(P/E 比率)、市值、过去业绩或其他数据等项目来预测股票回报。股票收益是因变量,各种财务数据是自变量。
多元回归模型中的多重共线性表明共线自变量以某种方式相关,尽管这种关系可能是偶然的,也可能不是偶然的。例如,过去的表现可能与市值有关,因为过去表现良好的股票的市值会增加。
换句话说,当两个自变量高度相关时,可能存在多重共线性。如果一个自变量是根据数据集中的其他变量计算得出的,或者如果两个自变量提供相似且重复的结果,也会发生这种情况。
特别注意事项
消除多重共线性问题的最常见方法之一是首先识别共线自变量,然后删除除一个之外的所有变量。
也可以通过将两个或多个共线性变量组合成一个变量来消除多重共线性。然后可以进行统计分析以研究指定因变量与仅单个自变量之间的关系。
来自包含多重共线性的模型的统计推断可能不可靠。
多重共线性的例子
###投资
对于投资而言,在进行技术分析以预测证券(例如股票或商品期货)可能的未来价格变动时,多重共线性是一个常见的考虑因素。
市场分析师希望避免使用共线的技术指标,因为它们基于非常相似或相关的输入;他们倾向于揭示关于价格变动因变量的类似预测。相反,市场分析必须基于明显不同的自变量,以确保它们从不同的独立分析角度分析市场。
潜在多重共线性问题的一个例子是仅使用几个类似的指标进行技术分析。
著名的技术分析师约翰·布林格 (John Bollinger) 是布林带指标的创建者,他指出“成功使用技术分析的基本规则是避免指标中的多重共线性。”为了解决这个问题,分析师避免使用两个或多个相同类型的技术指标。相反,他们使用一种指标(例如动量指标)分析证券,然后使用不同类型的指标(例如趋势指标)进行单独分析。
例如,随机指标、相对强弱指数 (RSI)和 Williams %R 都是动量指标,它们依赖于类似的输入并可能产生类似的结果。在这种情况下,最好删除除一个之外的所有指标,或者找到一种方法将其中几个合并为一个指标,同时添加一个不太可能与动量指标高度相关的趋势指标。
生物学
在许多其他情况下也观察到多重共线性。一种这样的背景是人类生物学。例如,一个人的血压与年龄不共线,还与体重、压力和脉搏共线。
## 强调
多重共线性是一个统计概念,其中模型中的几个自变量是相关的。
自变量之间的多重共线性将导致不太可靠的统计推断。
在构建使用两个或多个变量的多元回归模型时,最好使用不相关或不重复的自变量。
如果两个变量的相关系数为 +/- 1.0,则认为两个变量完全共线。
由于较大的标准误差,数据集中存在多重共线性会导致结果的可靠性降低。
## 常问问题
为什么多重共线性是个问题?
多重共线性是一个问题,因为它会产生不太可靠的回归模型结果。这是因为更宽的置信区间(更大的标准误差)会降低回归系数的统计显着性。
如何处理多重共线性?
为了减少模型中发现的多重共线性,可以删除被识别为最共线性的特定变量。您还可以尝试组合或转换有问题的变量以降低它们的相关性。如果这不起作用或无法实现,则可以使用改进的回归模型来更好地处理多重共线性,例如岭回归、主成分回归或偏最小二乘回归。
你如何检测多重共线性?
一种称为方差膨胀因子(VIF) 的统计技术用于检测和测量多元回归模型中的共线性量。
什么是完美共线性?
当模型中的两个自变量之间存在精确的 1:1 对应关系时,就存在完美的共线性。这可以是 +1.0 或 -1.0 的相关性。