Sur-ajustement

Qu'est-ce que le surajustement ?

Le surajustement est une erreur de modélisation dans les statistiques qui se produit lorsqu'une fonction est trop étroitement alignée sur un ensemble limité de points de données. Par conséquent, le modèle n'est utile qu'en référence à son ensemble de données initial, et à aucun autre ensemble de données.

Le surajustement du modèle prend généralement la forme d'un modèle trop complexe pour expliquer les idiosyncrasies des données étudiées. En réalité, les données souvent étudiées contiennent un certain degré d'erreur ou de bruit aléatoire. Ainsi, tenter de rendre le modèle trop conforme à des données légèrement inexactes peut infecter le modèle avec des erreurs substantielles et réduire son pouvoir prédictif.

Comprendre le surajustement

Par exemple, un problème courant consiste à utiliser des algorithmes informatiques pour rechercher de vastes bases de données de données historiques sur le marché afin de trouver des modèles. Avec suffisamment d'études, il est souvent possible de développer des théorèmes élaborés qui semblent prédire les rendements du marché boursier avec une précision proche.

Cependant, lorsqu'ils sont appliqués à des données en dehors de l'échantillon, de tels théorèmes peuvent s'avérer être simplement le surajustement d'un modèle à ce qui n'était en réalité que des occurrences fortuites. Dans tous les cas, il est important de tester un modèle par rapport à des données extérieures à l'échantillon utilisé pour le développer.

Comment éviter le surajustement

Les moyens d'éviter le surajustement incluent la validation croisée, dans laquelle les données utilisées pour la formation du modèle sont découpées en plis ou partitions et le modèle est exécuté pour chaque pli. Ensuite, l'estimation de l'erreur globale est moyennée. D'autres méthodes incluent l'assemblage : les prédictions sont combinées à partir d'au moins deux modèles distincts, l'augmentation des données, dans laquelle l'ensemble de données disponible est conçu pour paraître diversifié, et la simplification des données, dans laquelle le modèle est rationalisé pour éviter le surajustement.

Les professionnels de la finance doivent toujours être conscients des dangers d'un surajustement ou d'un sous-ajustement d'un modèle basé sur des données limitées. Le modèle idéal doit être équilibré.

Sur-ajustement dans l'apprentissage automatique

Le surapprentissage est également un facteur dans l'apprentissage automatique. Cela peut apparaître lorsqu'une machine a appris à rechercher des données spécifiques dans un sens, mais lorsque le même processus est appliqué à un nouvel ensemble de données, les résultats sont incorrects. Cela est dû à des erreurs dans le modèle qui a été construit, car il présente probablement un faible biais et une variance élevée. Le modèle peut avoir eu des caractéristiques redondantes ou se chevauchant, ce qui l'a rendu inutilement compliqué et donc inefficace.

Sur-ajustement ou sous-ajustement

Un modèle surajusté peut être trop compliqué, le rendant inefficace. Mais un modèle peut également être sous-ajusté, ce qui signifie qu'il est trop simple, avec trop peu de fonctionnalités et trop peu de données pour construire un modèle efficace. Un modèle surajusté a un faible biais et une variance élevée, tandis qu'un modèle sous-ajusté est le contraire : il a un biais élevé et une faible variance. Ajouter plus de fonctionnalités à un modèle trop simple peut aider à limiter les biais.

Exemple de surajustement

Par exemple, une université qui constate un taux de décrochage universitaire supérieur à ce qu'elle souhaiterait décide de créer un modèle pour prédire la probabilité qu'un candidat parvienne à l'obtention de son diplôme.

Pour ce faire, l'université forme un modèle à partir d'un ensemble de données de 5 000 candidats et de leurs résultats. Il exécute ensuite le modèle sur l'ensemble de données d'origine - le groupe de 5 000 candidats - et le modèle prédit le résultat avec une précision de 98 %. Mais pour tester sa précision, ils exécutent également le modèle sur un deuxième ensemble de données, soit 5 000 candidats supplémentaires. Cependant, cette fois, le modèle n'est précis qu'à 50 %, car le modèle était trop étroitement adapté à un sous-ensemble de données étroit, dans ce cas, les 5 000 premières applications.

Points forts

Le surajustement est une erreur qui se produit dans la modélisation des données à la suite d'un alignement trop étroit d'une fonction particulière sur un ensemble minimal de points de données.
Lorsqu'un modèle a été compromis par un surajustement, le modèle peut perdre sa valeur en tant qu'outil prédictif d'investissement.
Un modèle de données peut également être sous-ajusté, ce qui signifie qu'il est trop simple, avec trop peu de points de données pour être efficace.
Les professionnels de la finance risquent de sur-adapter un modèle basé sur des données limitées et de se retrouver avec des résultats erronés.
Le sur-ajustement est un problème plus fréquent que le sous-ajustement et survient généralement en essayant d'éviter le sur-ajustement.