Investor's wiki

Переоснащение

Переоснащение

Что такое переобучение?

Переобучение — это ошибка моделирования в статистике, которая возникает, когда функция слишком тесно связана с ограниченным набором точек данных. В результате модель полезна только для своего исходного набора данных, а не для каких-либо других наборов данных.

Переоснащение модели обычно принимает форму создания чрезмерно сложной модели для объяснения особенностей изучаемых данных. На самом деле часто изучаемые данные содержат некоторую степень ошибки или случайного шума. Таким образом, попытка слишком близко подогнать модель к слегка неточным данным может привести к существенным ошибкам в модели и снизить ее предсказательную силу.

Понимание переобучения

Например, распространенной проблемой является использование компьютерных алгоритмов для поиска в обширных базах данных исторических рыночных данных с целью выявления закономерностей. При достаточном изучении часто можно разработать сложные теоремы, которые, по-видимому, предсказывают доходность фондового рынка с близкой точностью.

Однако применительно к данным за пределами выборки такие теоремы, вероятно, могут оказаться просто подгонкой модели к тому, что на самом деле было просто случайностью. Во всех случаях важно протестировать модель на данных, которые не входят в образец, использованный для ее разработки.

Как предотвратить переобучение

Способы предотвращения переобучения включают перекрестную проверку, при которой данные, используемые для обучения модели, разбиваются на складки или разделы, и модель запускается для каждой складки. Затем общая оценка ошибки усредняется. Другие методы включают сборку: прогнозы объединяются как минимум из двух отдельных моделей, увеличение данных, при котором доступный набор данных выглядит разнообразным, и упрощение данных, при котором модель оптимизируется, чтобы избежать переобучения.

Финансовые специалисты всегда должны осознавать опасность переобучения или недообучения модели, основанной на ограниченных данных. Идеальная модель должна быть сбалансированной.

Переобучение в машинном обучении

Переоснащение также является фактором машинного обучения. Это может произойти, когда машину научили сканировать определенные данные одним способом, но когда тот же процесс применяется к новому набору данных, результаты будут неверными. Это происходит из-за ошибок в построенной модели, поскольку она, вероятно, показывает низкое смещение и высокую дисперсию. Модель могла иметь избыточные или перекрывающиеся функции, в результате чего она становилась излишне сложной и, следовательно, неэффективной.

Переобучение и недостаточное обучение

Переоснащенная модель может быть слишком сложной, что делает ее неэффективной. Но модель также может быть недостаточно приспособлена, то есть она слишком проста, имеет слишком мало функций и слишком мало данных для построения эффективной модели. Модель с переоснащением имеет низкое смещение и высокую дисперсию, а модель с недостаточным соответствием — наоборот, она имеет высокое смещение и низкую дисперсию. Добавление дополнительных функций к слишком простой модели может помочь уменьшить предвзятость.

Пример переобучения

Например, университет, в котором процент отсева из колледжа выше желаемого, решает, что хочет создать модель для прогнозирования вероятности того, что абитуриент доберется до окончания учебы.

Для этого университет обучает модель на основе набора данных 5000 абитуриентов и их результатов. Затем модель запускает исходный набор данных — группу из 5000 заявителей — и модель предсказывает результат с точностью 98 %. Но чтобы проверить ее точность, они также запускают модель на втором наборе данных — еще 5000 заявителей. Однако на этот раз точность модели составляет всего 50 %, так как модель слишком близко подходила к узкому подмножеству данных, в данном случае к первым 5000 приложений.

Особенности

  • Переобучение — это ошибка, возникающая при моделировании данных в результате того, что конкретная функция слишком близко выравнивается с минимальным набором точек данных.

  • Когда модель скомпрометирована переоснащением, она может потерять свою ценность в качестве прогностического инструмента для инвестирования.

  • Модель данных также может быть недостаточно приспособлена, то есть она слишком проста и содержит слишком мало точек данных, чтобы быть эффективной.

  • Финансовые специалисты рискуют перестроить модель, основанную на ограниченных данных, и в итоге получить ошибочные результаты.

  • Переоснащение является более распространенной проблемой, чем недообучение, и обычно возникает в результате попытки избежать переобучения.