オーバーフィット
##オーバーフィットとは何ですか?
過剰適合は、関数が限られたデータポイントのセットに近すぎる場合に発生する統計のモデリングエラーです。その結果、モデルは、他のデータセットではなく、初期データセットのみを参照する場合に役立ちます。
モデルの過剰適合は、一般に、調査中のデータの特異性を説明するために過度に複雑なモデルを作成するという形をとります。実際には、よく研究されるデータには、ある程度の誤差またはランダムノイズが含まれています。したがって、モデルをわずかに不正確なデータに厳密に適合させようとすると、モデルにかなりのエラーが発生し、予測力が低下する可能性があります。
##オーバーフィットを理解する
たとえば、一般的な問題は、パターンを見つけるために、コンピュータアルゴリズムを使用して過去の市場データの広範なデータベースを検索することです。十分な研究があれば、株式市場の収益を非常に正確に予測するように見える精巧な定理を開発することがしばしば可能です。
ただし、サンプル外のデータに適用した場合、そのような定理は、実際には偶然の出来事であったものへのモデルの単なる過剰適合であることが判明する可能性があります。すべての場合において、モデルの開発に使用されたサンプルの外部にあるデータに対してモデルをテストすることが重要です。
##オーバーフィットを防ぐ方法
オーバーフィットを防ぐ方法には、モデルのトレーニングに使用されているデータがフォールドまたはパーティションに分割され、各フォールドに対してモデルが実行される相互検証が含まれます。次に、全体的なエラー推定値が平均化されます。他の方法には、アンサンブルが含まれます。予測は、少なくとも2つの別個のモデルから結合されます。データ拡張では、使用可能なデータセットが多様に見えるようになり、データの簡略化では、モデルが過剰適合を回避するために合理化されます。
金融専門家は、限られたデータに基づいてモデルをオーバーフィットまたはアンダーフィットすることの危険性を常に認識している必要があります。理想的なモデルはバランスが取れている必要があります。
##機械学習の過剰適合
オーバーフィットも機械学習の要因です。マシンが特定のデータを一方向にスキャンするように教えられた場合に発生する可能性がありますが、同じプロセスが新しいデータセットに適用された場合、結果は正しくありません。これは、作成されたモデルのエラーが原因です。これは、バイアスが低く、分散が大きい可能性が高いためです。モデルに冗長または重複する機能が含まれている可能性があり、その結果、モデルが不必要に複雑になり、効果がなくなります。
##オーバーフィットvs。アンダーフィッティング
オーバーフィットしたモデルは複雑すぎて効果がない場合があります。ただし、モデルが不十分な場合もあります。つまり、モデルが単純すぎて、機能が少なすぎ、データが少なすぎて、効果的なモデルを構築できません。オーバーフィットモデルはバイアスが低く分散が大きいのに対し、アンダーフィットモデルはその逆であり、バイアスが高く分散が小さいです。単純すぎるモデルに機能を追加すると、バイアスを制限するのに役立ちます。
##過剰適合の例
たとえば、大学中退率が希望よりも高いと判断した大学は、志願者が卒業までに到達する可能性を予測するモデルを作成したいと考えています。
これを行うために、大学は5,000人の応募者とその結果のデータセットからモデルをトレーニングします。次に、元のデータセット(5,000人の応募者のグループ)でモデルを実行し、モデルは98%の精度で結果を予測します。ただし、その精度をテストするために、2番目のデータセット(5,000人以上の応募者)でモデルを実行します。ただし、今回は、モデルが狭いデータサブセット(この場合は最初の5,000アプリケーション)にあまりにも密接に適合していたため、モデルの精度は50%にすぎません。
##ハイライト
-過剰適合は、特定の関数が最小限のデータポイントのセットに近づきすぎた結果としてデータモデリングで発生するエラーです。
-モデルがオーバーフィットによって危険にさらされた場合、モデルは投資の予測ツールとしての価値を失う可能性があります。
-データモデルも十分に適合していない可能性があります。つまり、データポイントが少なすぎて効果がないため、単純すぎます。
-金融専門家は、限られたデータに基づいてモデルを過剰に適合させ、欠陥のある結果になってしまうリスクがあります。
-過剰適合は、過適合よりも頻繁に発生する問題であり、通常、過剰適合を回避しようとした結果として発生します。