Investor's wiki

过拟合

过拟合

##什么是过拟合?

过度拟合是统计中的建模错误,当函数与有限的数据点集过于紧密对齐时会发生这种错误。因此,该模型仅适用于参考其初始数据集,而不适用于任何其他数据集。

过度拟合模型通常采用制作过于复杂的模型的形式来解释研究数据中的特性。实际上,经常研究的数据中存在一定程度的错误或随机噪声。因此,试图使模型过于紧密地符合稍微不准确的数据可能会导致模型产生大量错误并降低其预测能力。

理解过拟合

例如,一个常见的问题是使用计算机算法搜索历史市场数据的广泛数据库以找到模式。如果有足够的研究,通常可以开发出复杂的定理,这些定理似乎可以非常准确地预测股票市场的回报。

然而,当应用于样本之外的数据时,这些定理可能被证明仅仅是模型对现实中偶然事件的过度拟合。在所有情况下,根据用于开发模型的样本之外的数据来测试模型是很重要的。

如何防止过拟合

防止过度拟合的方法包括交叉验证,其中用于训练模型的数据被分割成折叠或分区,并且针对每个折叠运行模型。然后,对总体误差估计进行平均。其他方法包括集成:预测来自至少两个独立的模型、数据增强(使可用数据集看起来多样化)和数据简化(简化模型以避免过度拟合)。

金融专业人士必须始终意识到基于有限数据的模型过拟合或欠拟合的危险。理想的模型应该是平衡的。

机器学习中的过拟合

过拟合也是机器学习的一个因素。当机器被教导以一种方式扫描特定数据时,它可能会出现,但是当将相同的过程应用于一组新数据时,结果是不正确的。这是因为构建的模型中存在错误,因为它可能显示出低偏差和高方差。该模型可能具有冗余或重叠的特征,导致它变得不必要的复杂并因此无效。

过拟合与欠拟合

过度拟合的模型可能过于复杂,使其无效。但是模型也可能欠拟合,这意味着它太简单、特征太少、数据太少而无法构建有效的模型。过拟合模型具有低偏差和高方差,而欠拟合模型则相反——它具有高偏差和低方差。向过于简单的模型添加更多特征有助于限制偏差。

过拟合示例

例如,一所大学发现大学辍学率高于预期,它决定创建一个模型来预测申请人一直到毕业的可能性。

为此,该大学从 5,000 名申请者及其结果的数据集中训练了一个模型。然后它在原始数据集(包括 5,000 名申请人)上运行模型,模型以 98% 的准确率预测结果。但为了测试其准确性,他们还在第二个数据集上运行了该模型——另外 5,000 名申请者。然而,这一次,该模型只有 50% 的准确率,因为该模型过于接近一个狭窄的数据子集,在本例中是前 5,000 个应用程序。

## 强调

  • 过度拟合是由于特定函数与最小数据点集过于接近而在数据建模中发生的错误。

  • 当模型因过度拟合而受损时,该模型可能会失去其作为投资预测工具的价值。

  • 数据模型也可能欠拟合,这意味着它太简单,数据点太少而无法有效。

  • 金融专业人士可能会根据有限的数据过度拟合模型并最终得出有缺陷的结果。

  • 过拟合是比欠拟合更常见的问题,通常是由于试图避免过拟合而发生的。