Investor's wiki

sobreajuste

sobreajuste

驴Qu茅 es el sobreajuste?

El sobreajuste es un error de modelado en estad铆sticas que ocurre cuando una funci贸n est谩 demasiado alineada con un conjunto limitado de puntos de datos. Como resultado, el modelo es 煤til en referencia solo a su conjunto de datos inicial y no a ning煤n otro conjunto de datos.

El sobreajuste del modelo generalmente toma la forma de hacer un modelo demasiado complejo para explicar las idiosincrasias en los datos bajo estudio. En realidad, los datos que se estudian a menudo contienen cierto grado de error o ruido aleatorio. Por lo tanto, intentar hacer que el modelo se ajuste demasiado a datos ligeramente inexactos puede infectar el modelo con errores sustanciales y reducir su poder predictivo.

Comprender el sobreajuste

Por ejemplo, un problema com煤n es el uso de algoritmos inform谩ticos para buscar en extensas bases de datos de datos hist贸ricos del mercado con el fin de encontrar patrones. Con suficiente estudio, a menudo es posible desarrollar teoremas elaborados que parecen predecir los rendimientos en el mercado de valores con gran precisi贸n.

Sin embargo, cuando se aplican a datos fuera de la muestra, es probable que tales teoremas resulten ser simplemente el ajuste excesivo de un modelo a lo que en realidad eran solo ocurrencias fortuitas. En todos los casos, es importante probar un modelo con datos que est谩n fuera de la muestra utilizada para desarrollarlo.

C贸mo evitar el sobreajuste

Las formas de evitar el sobreajuste incluyen la validaci贸n cruzada, en la que los datos que se utilizan para entrenar el modelo se dividen en pliegues o particiones y el modelo se ejecuta para cada pliegue. Luego, se promedia la estimaci贸n del error general. Otros m茅todos incluyen el ensamblaje: las predicciones se combinan de al menos dos modelos separados, el aumento de datos, en el que el conjunto de datos disponible se hace para que parezca diverso, y la simplificaci贸n de datos, en la que el modelo se optimiza para evitar el sobreajuste.

Los profesionales financieros siempre deben ser conscientes de los peligros de sobreajustar o desadaptar un modelo basado en datos limitados. El modelo ideal debe ser equilibrado.

Sobreajuste en el aprendizaje autom谩tico

El sobreajuste tambi茅n es un factor en el aprendizaje autom谩tico. Puede surgir cuando a una m谩quina se le ha ense帽ado a buscar datos espec铆ficos de una manera, pero cuando se aplica el mismo proceso a un nuevo conjunto de datos, los resultados son incorrectos. Esto se debe a errores en el modelo que se construy贸, ya que probablemente muestra un sesgo bajo y una varianza alta. El modelo puede haber tenido caracter铆sticas redundantes o superpuestas, lo que result贸 en que se volviera innecesariamente complicado y, por lo tanto, ineficaz.

Sobreadaptaci贸n vs. Falta de ajuste

Un modelo que est谩 sobreajustado puede ser demasiado complicado, haci茅ndolo ineficaz. Pero un modelo tambi茅n puede estar mal ajustado, lo que significa que es demasiado simple, con muy pocas caracter铆sticas y muy pocos datos para construir un modelo efectivo. Un modelo sobreajustado tiene un sesgo bajo y una varianza alta, mientras que un modelo de ajuste insuficiente es lo contrario: tiene un sesgo alto y una varianza baja. Agregar m谩s funciones a un modelo demasiado simple puede ayudar a limitar el sesgo.

Ejemplo de sobreajuste

Por ejemplo, una universidad que est谩 viendo una tasa de deserci贸n universitaria m谩s alta de lo que le gustar铆a, decide que quiere crear un modelo para predecir la probabilidad de que un solicitante llegue hasta la graduaci贸n.

Para ello, la universidad entrena un modelo a partir de un conjunto de datos de 5000 solicitantes y sus resultados. Luego ejecuta el modelo en el conjunto de datos original, el grupo de 5000 solicitantes, y el modelo predice el resultado con un 98 % de precisi贸n. Pero para probar su precisi贸n, tambi茅n ejecutan el modelo en un segundo conjunto de datos: 5000 solicitantes m谩s. Sin embargo, esta vez, el modelo solo tiene una precisi贸n del 50 %, ya que el modelo se ajustaba demasiado a un subconjunto de datos estrecho, en este caso, las primeras 5000 solicitudes.

Reflejos

  • El sobreajuste es un error que ocurre en el modelado de datos como resultado de una funci贸n particular que se alinea demasiado cerca de un conjunto m铆nimo de puntos de datos.

  • Cuando un modelo se ha visto comprometido por sobreajuste, el modelo puede perder su valor como herramienta predictiva para invertir.

  • Un modelo de datos tambi茅n puede estar mal ajustado, lo que significa que es demasiado simple, con muy pocos puntos de datos para ser efectivo.

  • Los profesionales financieros corren el riesgo de sobreajustar un modelo basado en datos limitados y terminar con resultados defectuosos.

  • El sobreajuste es un problema m谩s frecuente que el desajuste y normalmente ocurre como resultado de tratar de evitar el sobreajuste.