Pozostała suma kwadratów (RSS)

Jaka jest rezydualna suma kwadratów (RSS)?

Resztowa suma kwadratów (RSS) to technika statystyczna używana do pomiaru wielkości wariancji w zbiorze danych, która nie jest wyjaśniona przez sam model regresji. Zamiast tego szacuje wariancję reszt lub składnik błędu.

Regresja liniowa to pomiar, który pomaga określić siłę związku między zmienną zależną a jednym lub większą liczbą innych czynników, znanych jako zmienne niezależne lub objaśniające.

Zrozumienie resztkowej sumy kwadratów

Ogólnie rzecz biorąc, suma kwadratów jest techniką statystyczną stosowaną w analizie regresji w celu określenia rozrzutu punktów danych. W analizie regresji celem jest określenie, jak dobrze serie danych można dopasować do funkcji, która może pomóc w wyjaśnieniu, w jaki sposób seria danych została wygenerowana. Suma kwadratów jest używana jako matematyczny sposób znajdowania funkcji, która najlepiej pasuje (najmniej się różni) na podstawie danych.

RSS mierzy wielkość błędu pozostałego między funkcją regresji a zestawem danych po uruchomieniu modelu. Mniejsza wartość RSS reprezentuje funkcję regresji, która jest dobrze dopasowana do danych.

RSS, znana również jako suma kwadratów reszt, zasadniczo określa, jak dobrze model regresji wyjaśnia lub reprezentuje dane w modelu.

Jak obliczyć resztkową sumę kwadratów

RSS = ∑ⁿ_i=1 (yi - f(xi))²

Gdzie:

y_i = i^ta wartość przewidywanej zmiennej

f(x_i) = przewidywana wartość y_i

n = górna granica sumowania

Pozostała suma kwadratów (RSS) a rezydualny błąd standardowy (RSE)

Resztowy błąd standardowy (RSE) jest kolejnym terminem statystycznym używanym do opisania różnicy w odchyleniach standardowych obserwowanych wartości w porównaniu z wartościami przewidywanymi, jak pokazano punktami w analizie regresji. Jest to miara dobroci dopasowania,. której można użyć do analizy dopasowania zestawu punktów danych do rzeczywistego modelu.

RSE jest obliczane przez podzielenie RSS przez liczbę obserwacji w próbce minus 2, a następnie wyciągnięcie pierwiastka kwadratowego: RSE = [RSS/(n-2)]^1/2

Uwagi specjalne

Rynki finansowe są coraz bardziej napędzane ilościowo; w związku z tym, w poszukiwaniu przewagi, wielu inwestorów korzysta z zaawansowanych technik statystycznych, aby pomóc w podejmowaniu decyzji. Big data, uczenie maszynowe i aplikacje sztucznej inteligencji dodatkowo wymagają wykorzystania właściwości statystycznych do kierowania współczesnymi strategiami inwestycyjnymi. Resztowa suma kwadratów — lub statystyki RSS — jest jedną z wielu właściwości statystycznych, które przeżywają renesans.

Modele statystyczne są wykorzystywane przez inwestorów i zarządzających portfelami do śledzenia ceny inwestycji i wykorzystywania tych danych do przewidywania przyszłych ruchów. Badanie – zwane analizą regresji – może obejmować analizę relacji w ruchach cenowych między towarem a akcjami firm zaangażowanych w jego produkcję.

Ręczne znalezienie resztkowej sumy kwadratów (RSS) może być trudne i czasochłonne. Ponieważ wiąże się to z wieloma odejmowaniem, podnoszeniem do kwadratu i sumowaniem, obliczenia mogą być podatne na błędy. Z tego powodu możesz zdecydować się na użycie oprogramowania, takiego jak Excel, do wykonania obliczeń.

Każdy model może mieć odchylenia między przewidywanymi wartościami a rzeczywistymi wynikami. Chociaż wariancje można wyjaśnić za pomocą analizy regresji, RSS reprezentuje wariancje lub błędy, które nie zostały wyjaśnione.

Ponieważ można wykonać wystarczająco złożoną funkcję regresji, aby ściśle dopasować praktycznie dowolny zestaw danych, konieczne są dalsze badania w celu ustalenia, czy funkcja regresji jest w rzeczywistości użyteczna w wyjaśnianiu wariancji zestawu danych.

Zazwyczaj jednak mniejsza lub mniejsza wartość RSS jest idealna w każdym modelu, ponieważ oznacza to mniejszą zmienność w zestawie danych. Innymi słowy, im niższa suma kwadratów reszt, tym lepiej model regresji wyjaśnia dane.

Przykład resztowej sumy kwadratów

Dla prostej (ale długiej) demonstracji obliczeń RSS, rozważ dobrze znaną korelację między wydatkami konsumenckimi danego kraju a jego PKB. Poniższy wykres przedstawia opublikowane wartości wydatków konsumenckich i Produktu Krajowego Brutto dla 27 krajów Unii Europejskiej, stan na 2020 rok.

TTT

Bank Światowy, 2020.

Wydatki konsumenckie i PKB mają silną pozytywną korelację i możliwe jest przewidzenie PKB danego kraju na podstawie wydatków konsumpcyjnych (CS). Korzystając ze wzoru na linię najlepszego dopasowania,. zależność tę można przybliżyć jako:

PKB = 1,3232 x CS + 10447

Jednostki zarówno PKB, jak i wydatków konsumenckich to miliony dolarów amerykańskich.

Ta formuła jest bardzo dokładna dla większości celów, ale nie jest idealna ze względu na indywidualne różnice w gospodarce każdego kraju. Poniższy wykres porównuje prognozowane PKB każdego kraju, oparte na powyższym wzorze, oraz rzeczywiste PKB zarejestrowane przez Bank Światowy.

TTT

Bank Światowy, 2020.

Kolumna po prawej stronie wskazuje kwadraty resztowe — kwadrat różnicy między każdą przewidywaną wartością a jej wartością rzeczywistą. Liczby wydają się duże, ale ich suma jest w rzeczywistości niższa niż RSS dla każdej innej możliwej linii trendu. Gdyby inna linia miała niższy RSS dla tych punktów danych, ta linia byłaby najlepiej dopasowaną linią.

Przegląd najważniejszych wydarzeń

Wartość zero oznacza, że Twój model jest idealnie dopasowany.
RSS jest używany przez analityków finansowych w celu oszacowania ważności ich modeli ekonometrycznych.
Resztowa suma kwadratów (RSS) mierzy poziom wariancji składnika błędu lub reszt modelu regresji.
Modele statystyczne są wykorzystywane przez inwestorów i zarządzających portfelami do śledzenia ceny inwestycji i wykorzystywania tych danych do przewidywania przyszłych zmian.
Im mniejsza suma pozostałych kwadratów, tym lepiej model pasuje do danych; im większa suma kwadratów rezydualnych, tym gorzej model pasuje do danych.

FAQ

Czy RSS jest równa sumie kwadratu oszacowania błędów (SSE)?

Resztowa suma kwadratów (RSS) jest również znana jako suma kwadratu oszacowania błędów (SSE).

Jaka jest różnica między końcową sumą kwadratów a całkowitą sumą kwadratów?

Całkowita suma kwadratów (TSS) mierzy zmienność obserwowanych danych, podczas gdy resztowa suma kwadratów mierzy zmienność błędu między obserwowanymi danymi a wartościami modelowanymi. W statystyce często porównuje się ze sobą wartości rezydualnej sumy kwadratów i całkowitej sumy kwadratów (TSS).

Czy końcowa suma kwadratów jest taka sama jak R-kwadrat?

Resztowa suma kwadratów (RSS) jest bezwzględną wielkością wyjaśnionej zmienności, podczas gdy R-kwadrat jest bezwzględną wielkością zmienności jako proporcją całkowitej zmienności.

Czy szczątkowa suma kwadratów może wynosić zero?

Pozostała suma kwadratów może wynosić zero. Im mniejsza jest suma rezydualna kwadratów, tym lepiej model pasuje do danych; im większa suma kwadratów rezydualnych, tym gorzej model pasuje do danych. Wartość zero oznacza, że Twój model jest idealnie dopasowany.