Suma kwadratów
Jaka jest suma kwadratów?
Suma kwadratów to technika statystyczna stosowana w analizie regresji w celu określenia rozrzutu punktów danych. W analizie regresji celem jest określenie, jak dobrze serie danych można dopasować do funkcji, która może pomóc w wyjaśnieniu, w jaki sposób seria danych została wygenerowana. Suma kwadratów jest używana jako matematyczny sposób znajdowania funkcji, która najlepiej pasuje (najmniej się różni) na podstawie danych.
Wzór na sumę kwadratów to
Suma kwadratów jest również nazywana zmiennością.
Co mówi suma kwadratów?
Suma kwadratów jest miarą odchylenia od średniej. W statystyce średnia jest średnią zbioru liczb i jest najczęściej stosowaną miarą tendencji centralnej. Średnia arytmetyczna jest po prostu obliczana poprzez zsumowanie wartości w zestawie danych i podzielenie przez liczbę wartości.
Załóżmy, że ceny zamknięcia Microsoft (MSFT) w ciągu ostatnich pięciu dni wynosiły 74,01, 74,77, 73,94, 73,61 i 73,40 w dolarach amerykańskich. Suma całkowitych cen wynosi 369,73 USD, a średnia lub średnia cena podręcznika wyniesie zatem 369,73 USD / 5 = 73,95 USD.
Ale znajomość średniej zestawu pomiarowego nie zawsze wystarcza. Czasami warto wiedzieć, jaka jest zmienność w zestawie pomiarów. To, jak daleko od średniej są poszczególne wartości, może dać pewien wgląd w to, jak obserwacje lub wartości są dopasowane do tworzonego mod del regresji.
Na przykład, jeśli analityk chciałby wiedzieć, czy cena akcji MSFT porusza się w parze z ceną Apple (AAPL), może wypisać zestaw obserwacji dla procesu obu akcji dla pewnego okresu, powiedzmy 1, 2 lub 10 lat i utwórz model liniowy z zarejestrowanymi obserwacjami lub pomiarami. Jeśli związek między obiema zmiennymi (tj. cena AAPL i cena MSFT) nie jest linią prostą, to istnieją różnice w zbiorze danych, które należy przeanalizować.
W statystyce wernakularnej, jeśli linia w utworzonym modelu liniowym nie przechodzi przez wszystkie miary wartości, to część zmienności obserwowanej w cenach akcji pozostaje niewyjaśniona. Suma kwadratów jest używana do obliczenia, czy istnieje zależność liniowa między dwiema zmiennymi, a każda niewyjaśniona zmienność jest nazywana resztową sumą kwadratów.
Suma kwadratów to suma kwadratu zmienności, gdzie zmienność definiuje się jako rozpiętość między każdą indywidualną wartością a średnią. Aby określić sumę kwadratów, odległość między każdym punktem danych a linią najlepszego dopasowania jest podnoszona do kwadratu, a następnie sumowana. Linia najlepszego dopasowania zminimalizuje tę wartość.
Jak obliczyć sumę kwadratów
Teraz możesz zobaczyć, dlaczego pomiar nazywa się sumą kwadratów odchyleń lub w skrócie sumą kwadratów. Korzystając z naszego przykładu MSFT powyżej, sumę kwadratów można obliczyć jako:
SS = (74,01 - 73,95)2 + (74,77 - 73,95)2 + (73,94 - 73,95)2 + (73,61 - 73,95)2 + (73,40 - 73,95)2
SS = (0,06) 2 + (0,82)2 + (-0,01)2 + (-0,34)2 + (-0,55)2
SS = 1,0942
Dodanie sumy samych odchyleń bez podniesienia do kwadratu da w wyniku liczbę równą lub bliską zeru, ponieważ odchylenia ujemne prawie idealnie zrównoważą odchylenia dodatnie. Aby uzyskać bardziej realistyczną liczbę, suma odchyleń musi zostać podniesiona do kwadratu. Suma kwadratów zawsze będzie liczbą dodatnią, ponieważ kwadrat dowolnej liczby, dodatniej lub ujemnej, jest zawsze dodatni.
Przykład użycia sumy kwadratów
Na podstawie wyników obliczeń MSFT wysoka suma kwadratów wskazuje, że większość wartości jest dalej od średniej, a co za tym idzie, istnieje duża zmienność danych. Niska suma kwadratów oznacza małą zmienność zbioru obserwacji.
W powyższym przykładzie 1,0942 pokazuje, że zmienność ceny akcji MSFT w ciągu ostatnich pięciu dni jest bardzo niska, a inwestorzy chcący inwestować w akcje charakteryzują się stabilnością cen i niską zmiennością,. mogą wybrać MSFT.
Ograniczenia używania sumy kwadratów
Podjęcie decyzji inwestycyjnej o tym, jakie akcje kupić, wymaga znacznie więcej obserwacji niż te wymienione tutaj. Analityk może być zmuszony do pracy z danymi z lat, aby wiedzieć z większą pewnością, jak wysoka lub niska jest zmienność aktywów. W miarę dodawania kolejnych punktów danych do zbioru suma kwadratów staje się większa, gdy wartości będą bardziej rozłożone.
Najczęściej stosowanymi miarami zmienności są odchylenie standardowe i wariancja. Aby jednak obliczyć którykolwiek z dwóch wskaźników, najpierw należy obliczyć sumę kwadratów. Wariancja jest średnią sumy kwadratów (tj. sumy kwadratów podzielonej przez liczbę obserwacji). Odchylenie standardowe to pierwiastek kwadratowy z wariancji.
Istnieją dwie metody analizy regresji wykorzystujące sumę kwadratów: liniowa metoda najmniejszych kwadratów i nieliniowa metoda najmniejszych kwadratów. Metoda najmniejszych kwadratów odnosi się do faktu, że funkcja regresji minimalizuje sumę kwadratów wariancji z rzeczywistych punktów danych. W ten sposób można narysować funkcję, która statystycznie najlepiej pasuje do danych. Zauważ, że funkcja regresji może być liniowa (linia prosta) lub nieliniowa (linia zakrzywiona).
##Przegląd najważniejszych wydarzeń
Suma kwadratów mierzy odchylenie punktów danych od wartości średniej.
Wyższy wynik sumy kwadratów wskazuje na duży stopień zmienności w zbiorze danych, podczas gdy niższy wynik wskazuje, że dane nie różnią się znacząco od wartości średniej.