Investor's wiki

Sobreajuste

Sobreajuste

O que é overfitting?

O overfitting é um erro de modelagem em estatísticas que ocorre quando uma função está muito alinhada a um conjunto limitado de pontos de dados. Como resultado, o modelo é útil em referência apenas ao seu conjunto de dados inicial e não a quaisquer outros conjuntos de dados.

O overfitting do modelo geralmente toma a forma de fazer um modelo excessivamente complexo para explicar idiossincrasias nos dados em estudo. Na realidade, os dados frequentemente estudados têm algum grau de erro ou ruído aleatório dentro deles. Assim, tentar fazer com que o modelo se adeque muito a dados ligeiramente imprecisos pode infectar o modelo com erros substanciais e reduzir seu poder preditivo.

Entendendo o sobreajuste

Por exemplo, um problema comum é usar algoritmos de computador para pesquisar extensos bancos de dados de dados históricos de mercado para encontrar padrões. Com estudo suficiente, muitas vezes é possível desenvolver teoremas elaborados que parecem prever retornos no mercado de ações com precisão.

No entanto, quando aplicados a dados fora da amostra, tais teoremas podem provavelmente provar ser apenas o overfitting de um modelo para o que na realidade eram apenas ocorrências casuais. Em todos os casos, é importante testar um modelo em relação aos dados que estão fora da amostra usada para desenvolvê-lo.

Como evitar o overfitting

As formas de evitar o overfitting incluem validação cruzada, na qual os dados usados para treinar o modelo são divididos em dobras ou partições e o modelo é executado para cada dobra. Em seguida, é calculada a média da estimativa de erro geral. Outros métodos incluem ensembling: as previsões são combinadas de pelo menos dois modelos separados, aumento de dados, no qual o conjunto de dados disponível é feito para parecer diversificado, e simplificação de dados, no qual o modelo é simplificado para evitar overfitting.

Os profissionais financeiros devem estar sempre cientes dos perigos de overfitting ou underfitting de um modelo baseado em dados limitados. O modelo ideal deve ser equilibrado.

Overfitting em Machine Learning

O overfitting também é um fator no aprendizado de máquina. Pode surgir quando uma máquina foi ensinada a procurar dados específicos de uma maneira, mas quando o mesmo processo é aplicado a um novo conjunto de dados, os resultados são incorretos. Isso ocorre devido a erros no modelo que foi construído, pois provavelmente apresenta baixo viés e alta variância. O modelo pode ter recursos redundantes ou sobrepostos, tornando-o desnecessariamente complicado e, portanto, ineficaz.

Sobreajuste vs. Subajuste

Um modelo com overfitting pode ser muito complicado, tornando-o ineficaz. Mas um modelo também pode ser subajustado, o que significa que é muito simples, com poucos recursos e poucos dados para construir um modelo eficaz. Um modelo de overfit tem baixo viés e alta variância, enquanto um modelo de underfit é o oposto - tem alto viés e baixa variância. Adicionar mais recursos a um modelo muito simples pode ajudar a limitar o viés.

Exemplo de sobreajuste

Por exemplo, uma universidade que está vendo uma taxa de evasão universitária maior do que gostaria decide que deseja criar um modelo para prever a probabilidade de um candidato concluir todo o caminho até a formatura.

Para fazer isso, a universidade treina um modelo de um conjunto de dados de 5.000 candidatos e seus resultados. Em seguida, ele executa o modelo no conjunto de dados original - o grupo de 5.000 candidatos - e o modelo prevê o resultado com 98% de precisão. Mas, para testar sua precisão, eles também executam o modelo em um segundo conjunto de dados – mais 5.000 candidatos. No entanto, desta vez, o modelo é apenas 50% preciso, pois o modelo se ajustou muito a um subconjunto de dados estreito, neste caso, as primeiras 5.000 aplicações.

##Destaques

  • Overfitting é um erro que ocorre na modelagem de dados como resultado de uma função específica se alinhando muito perto de um conjunto mínimo de pontos de dados.

  • Quando um modelo foi comprometido por overfitting, o modelo pode perder seu valor como ferramenta preditiva de investimento.

  • Um modelo de dados também pode ser subajustado, o que significa que é muito simples, com poucos pontos de dados para ser eficaz.

  • Os profissionais financeiros correm o risco de ajustar demais um modelo baseado em dados limitados e acabar com resultados falhos.

  • O overfitting é um problema mais frequente do que o underfitting e normalmente ocorre como resultado da tentativa de evitar o overfitting.