Investor's wiki

Dopasowanie

Dopasowanie

Co to jest nadmierne dopasowanie?

Nadmierne dopasowanie to błąd modelowania w statystykach, który występuje, gdy funkcja jest zbyt ściśle dopasowana do ograniczonego zestawu punktów danych. W rezultacie model jest użyteczny tylko w odniesieniu do początkowego zbioru danych, a nie do jakichkolwiek innych zbiorów danych.

Nadmierne dopasowanie modelu na ogół przybiera formę nadmiernie złożonego modelu w celu wyjaśnienia specyfiki w badanych danych. W rzeczywistości często badane dane zawierają pewien stopień błędu lub przypadkowy szum. Tak więc próba dostosowania modelu do nieco niedokładnych danych może spowodować jego zainfekowanie znacznymi błędami i zmniejszenie jego mocy predykcyjnej.

Zrozumienie nadmiernego dopasowania

Na przykład powszechnym problemem jest używanie algorytmów komputerowych do przeszukiwania obszernych baz danych historycznych danych rynkowych w celu znalezienia wzorców. Biorąc pod uwagę wystarczającą ilość badań, często możliwe jest opracowanie skomplikowanych twierdzeń, które wydają się przewidywać zwroty na giełdzie z dużą dokładnością.

Jednak w przypadku zastosowania do danych poza próbą takie twierdzenia mogą prawdopodobnie okazać się jedynie nadmiernym dopasowaniem modelu do tego, co w rzeczywistości było przypadkowymi zdarzeniami. We wszystkich przypadkach ważne jest, aby przetestować model z danymi, które znajdują się poza próbą użytą do jego opracowania.

Jak zapobiegać nadmiernemu dopasowaniu

Sposoby zapobiegania nadmiernemu dopasowaniu obejmują weryfikację krzyżową, w której dane używane do uczenia modelu są cięte na fałdy lub partycje, a model jest uruchamiany dla każdego fałdu. Następnie uśrednia się ogólny szacunek błędu. Inne metody obejmują tworzenie zestawów: predykcje są łączone z co najmniej dwóch oddzielnych modeli, powiększanie danych, w którym dostępny zestaw danych jest zróżnicowany, oraz upraszczanie danych, w którym model jest uproszczony, aby uniknąć nadmiernego dopasowania.

Specjaliści ds. finansów muszą być zawsze świadomi niebezpieczeństw związanych z przesadnym lub niedostatecznym dopasowaniem modelu opartego na ograniczonych danych. Idealny model powinien być zrównoważony.

Nadmiar w uczeniu maszynowym

Overfitting jest również czynnikiem w uczeniu maszynowym. Może się pojawić, gdy komputer został nauczony skanowania w poszukiwaniu określonych danych w jedną stronę, ale gdy ten sam proces zostanie zastosowany do nowego zestawu danych, wyniki są nieprawidłowe. Wynika to z błędów w zbudowanym modelu, ponieważ prawdopodobnie wykazuje on niską stronniczość i dużą wariancję. Model mógł mieć nadmiarowe lub nakładające się funkcje, przez co stał się niepotrzebnie skomplikowany, a przez to nieskuteczny.

Nadmiar a Niedopasowanie

Przesadnie dopasowany model może być zbyt skomplikowany, przez co nieskuteczny. Ale model może być również niedostatecznie dopasowany, co oznacza, że jest zbyt prosty, ze zbyt małą liczbą funkcji i zbyt małą ilością danych, aby zbudować skuteczny model. Model overfit ma niską stronniczość i wysoką wariancję, podczas gdy model niedopasowany jest odwrotnie — ma wysokie stronniczość i niską wariancję. Dodanie większej liczby funkcji do zbyt prostego modelu może pomóc ograniczyć stronniczość.

Przykład nadmiernego dopasowania

Na przykład uniwersytet, w którym wskaźnik porzucania college'u jest wyższy niż oczekiwany, postanawia stworzyć model do przewidywania prawdopodobieństwa, że kandydat przejdzie przez całą drogę do ukończenia studiów.

Aby to zrobić, uniwersytet szkoli model z zestawu danych 5000 kandydatów i ich wyników. Następnie uruchamia model na oryginalnym zbiorze danych — grupie 5000 kandydatów — a model przewiduje wynik z 98% dokładnością. Ale aby przetestować jego dokładność, uruchomili również model na drugim zbiorze danych — o 5000 więcej kandydatów. Jednak tym razem model jest dokładny tylko w 50%, ponieważ model był zbyt ściśle dopasowany do wąskiego podzbioru danych, w tym przypadku pierwszych 5000 aplikacji.

##Przegląd najważniejszych wydarzeń

  • Overfitting to błąd, który występuje w modelowaniu danych w wyniku zbyt bliskiego dopasowania określonej funkcji do minimalnego zestawu punktów danych.

  • Kiedy model został skompromitowany przez overfitting, model może stracić swoją wartość jako narzędzie predykcyjne do inwestowania.

  • Model danych może być również niedostatecznie dopasowany, co oznacza, że jest zbyt prosty, ze zbyt małą liczbą punktów danych, aby był skuteczny.

  • Specjaliści finansowi są narażeni na ryzyko przesadnego dopasowania modelu opartego na ograniczonych danych i uzyskania błędnych wyników.

  • Nadmierne dopasowanie jest częstszym problemem niż niedopasowanie i zwykle pojawia się w wyniku próby uniknięcia nadmiernego dopasowania.