Investor's wiki

Sovraccarico

Sovraccarico

Che cos'è l'overfitting?

L'overfitting è un errore di modellazione nelle statistiche che si verifica quando una funzione è troppo allineata a un insieme limitato di punti dati. Di conseguenza, il modello è utile in riferimento solo al suo set di dati iniziale e non ad altri set di dati.

L'overfitting del modello generalmente assume la forma di un modello eccessivamente complesso per spiegare le idiosincrasie nei dati oggetto di studio. In realtà, i dati spesso studiati presentano al loro interno un certo grado di errore o rumore casuale. Pertanto, il tentativo di rendere il modello troppo conforme a dati leggermente imprecisi può infettare il modello con errori sostanziali e ridurne il potere predittivo.

Capire il sovradattamento

Ad esempio, un problema comune è l'utilizzo di algoritmi informatici per cercare in vasti database di dati storici di mercato al fine di trovare modelli. Dato uno studio sufficiente, è spesso possibile sviluppare teoremi elaborati che sembrano prevedere i rendimenti del mercato azionario con estrema precisione.

Tuttavia, se applicati a dati al di fuori del campione, tali teoremi potrebbero rivelarsi semplicemente il sovraadattamento di un modello a quelli che in realtà erano solo accadimenti casuali. In tutti i casi, è importante testare un modello rispetto a dati che sono al di fuori del campione utilizzato per svilupparlo.

Come prevenire il sovraccarico

I modi per prevenire l'overfitting includono la convalida incrociata, in cui i dati utilizzati per l'addestramento del modello vengono suddivisi in ripiegamenti o partizioni e il modello viene eseguito per ogni ripiegamento. Quindi, viene calcolata la media della stima dell'errore complessivo. Altri metodi includono l'ensembling: le previsioni sono combinate da almeno due modelli separati, l'aumento dei dati, in cui il set di dati disponibile è reso diverso, e la semplificazione dei dati, in cui il modello è ottimizzato per evitare l'overfitting.

I professionisti finanziari devono essere sempre consapevoli dei pericoli dell'overfitting o underfitting di un modello basato su dati limitati. Il modello ideale dovrebbe essere equilibrato.

Overfitting nell'apprendimento automatico

L'overfitting è anche un fattore nell'apprendimento automatico. Potrebbe emergere quando a una macchina viene insegnato a scansionare dati specifici in un modo, ma quando lo stesso processo viene applicato a un nuovo set di dati, i risultati non sono corretti. Ciò è dovuto a errori nel modello che è stato creato, poiché probabilmente mostra una bassa distorsione e un'elevata varianza. Il modello potrebbe avere caratteristiche ridondanti o sovrapposte, risultando inutilmente complicato e quindi inefficace.

Overfitting vs. underfitting

Un modello sovradimensionato potrebbe essere troppo complicato, rendendolo inefficace. Ma un modello può anche essere sottoadattato, il che significa che è troppo semplice, con troppo poche funzionalità e pochi dati per costruire un modello efficace. Un modello overfit ha una bassa distorsione e una varianza elevata, mentre un modello underfit è l'opposto: ha una distorsione elevata e una varianza bassa. L'aggiunta di più funzionalità a un modello troppo semplice può aiutare a limitare le distorsioni.

Esempio di sovraadattamento

Ad esempio, un'università che vede un tasso di abbandono scolastico superiore a quello che vorrebbe decide di voler creare un modello per prevedere la probabilità che un candidato raggiunga la laurea.

Per fare ciò, l'università prepara un modello da un set di dati di 5.000 candidati e dai loro risultati. Quindi esegue il modello sul set di dati originale, il gruppo di 5.000 candidati, e il modello prevede il risultato con una precisione del 98%. Ma per verificarne l'accuratezza, eseguono anche il modello su un secondo set di dati: 5.000 candidati in più. Tuttavia, questa volta, il modello è accurato solo al 50%, poiché si adattava troppo strettamente a un sottoinsieme di dati ristretto, in questo caso le prime 5.000 applicazioni.

Mette in risalto

  • L'overfitting è un errore che si verifica nella modellazione dei dati come risultato di una particolare funzione che si allinea troppo strettamente a un insieme minimo di punti dati.

  • Quando un modello è stato compromesso dall'overfitting, il modello può perdere il suo valore come strumento predittivo per investire.

  • Un modello di dati può anche essere sottoadattato, il che significa che è troppo semplice, con troppo pochi punti dati per essere efficace.

  • I professionisti finanziari corrono il rischio di sovraadattare un modello basato su dati limitati e di ottenere risultati viziati.

  • L'overfitting è un problema più frequente dell'underfitting e in genere si verifica come risultato del tentativo di evitare l'overfitting.