Summen af kvadrater
Hvad er summen af kvadrater?
Sum of squares er en statistisk teknik, der bruges i regressionsanalyse til at bestemme spredningen af datapunkter. I en regressionsanalyse er målet at bestemme, hvor godt en dataserie kan tilpasses til en funktion, der kan være med til at forklare, hvordan dataserien blev genereret. Sum af kvadrater bruges som en matematisk måde at finde den funktion, der bedst passer (varierer mindst) ud fra dataene.
Formlen for summen af kvadrater er
Summen af kvadrater er også kendt som variation.
Hvad fortæller summen af kvadrater dig?
Summen af kvadrater er et mål for afvigelsen fra middelværdien. I statistik er gennemsnittet gennemsnittet af et sæt tal og er det mest almindeligt anvendte mål for central tendens. Det aritmetiske gennemsnit beregnes ganske enkelt ved at summere værdierne i datasættet og dividere med antallet af værdier.
Lad os sige, at lukkepriserne for Microsoft (MSFT) i de sidste fem dage var 74,01, 74,77, 73,94, 73,61 og 73,40 i amerikanske dollars. Summen af de samlede priser er $369,73 og middel- eller gennemsnitsprisen for lærebogen ville således være $369,73 / 5 = $73,95.
Men at kende gennemsnittet af et målesæt er ikke altid nok. Nogle gange er det nyttigt at vide, hvor stor variation der er i et sæt målinger. Hvor langt fra hinanden de enkelte værdier er fra middelværdien kan give et indblik i, hvor passende observationerne eller værdierne er til den regressionsmodel , der skabes.
For eksempel, hvis en analytiker ønskede at vide, om aktiekursen på MSFT bevæger sig i takt med prisen på Apple (AAPL), kan de opliste observationerne for processen for begge aktier i en vis periode, f.eks. 1, 2 , eller 10 år og opret en lineær model med hver af observationerne eller målingerne registreret. Hvis forholdet mellem begge variabler (dvs. prisen på AAPL og prisen på MSFT) ikke er en lige linje, så er der variationer i datasættet, der skal undersøges nærmere.
I statistiksprog, hvis linjen i den oprettede lineære model ikke passerer gennem alle værdimålingerne, så er noget af den variabilitet, der er blevet observeret i aktiekurserne, uforklarlig. Summen af kvadrater bruges til at beregne, om der eksisterer et lineært forhold mellem to variable, og enhver uforklaret variabilitet omtales som den resterende sum af kvadrater.
Summen af kvadrater er summen af kvadratet af variation, hvor variation er defineret som spredningen mellem hver enkelt værdi og middelværdien. For at bestemme summen af kvadrater kvadreres afstanden mellem hvert datapunkt og linjen med bedst tilpasning i kvadrat og summeres derefter. Linjen med bedst pasform vil minimere denne værdi.
Sådan beregnes summen af kvadrater
Nu kan du se, hvorfor målingen kaldes summen af kvadratiske afvigelser, eller summen af kvadrater for kort. Ved at bruge vores MSFT-eksempel ovenfor kan summen af kvadrater beregnes som:
SS = (74,01 - 73,95)2 + (74,77 - 73,95)2 + (73,94 - 73,95)2 + (73,61 - 73,95)2 + (73,40 - 73,95)2
SS = (0,06) 2 + (0,82)2 + (-0,01)2 + (-0,34)2 + (-0,55)2
SS = 1,0942
Tilføjelse af summen af afvigelserne alene uden kvadrering vil resultere i et tal lig med eller tæt på nul, da de negative afvigelser næsten perfekt udligner de positive afvigelser. For at få et mere realistisk tal skal summen af afvigelser kvadreres. Summen af kvadrater vil altid være et positivt tal, fordi kvadratet af ethvert tal, uanset om det er positivt eller negativt, altid er positivt.
Eksempel på hvordan man bruger summen af kvadrater
Baseret på resultaterne af MSFT-beregningen indikerer en høj sum af kvadrater, at de fleste af værdierne er længere væk fra middelværdien, og derfor er der stor variabilitet i dataene. En lav sum af kvadrater refererer til lav variabilitet i observationssættet.
I eksemplet ovenfor viser 1.0942, at variationen i aktiekursen på MSFT i de sidste fem dage er meget lav, og investorer, der ønsker at investere i aktier karakteriseret ved prisstabilitet og lav volatilitet,. kan vælge MSFT.
Begrænsninger ved at bruge summen af kvadrater
At træffe en investeringsbeslutning om, hvilken aktie der skal købes, kræver mange flere observationer end dem, der er anført her. En analytiker skal muligvis arbejde med mange års data for med større sikkerhed at vide, hvor høj eller lav variabiliteten af et aktiv er. Efterhånden som flere datapunkter tilføjes til sættet, bliver summen af kvadrater større, da værdierne bliver mere spredt.
De mest anvendte variationsmålinger er standardafvigelsen og variansen. Men for at beregne en af de to metrikker skal summen af kvadrater først beregnes. Variansen er gennemsnittet af summen af kvadrater (dvs. summen af kvadrater divideret med antallet af observationer). Standardafvigelsen er kvadratroden af variansen.
Der er to metoder til regressionsanalyse, der bruger summen af kvadrater: den lineære mindste kvadraters metode og den ikke-lineære mindste kvadraters metode. Mindste kvadraters metode refererer til det faktum, at regressionsfunktionen minimerer summen af kvadraterne af variansen fra de faktiske datapunkter. På denne måde er det muligt at tegne en funktion, som statistisk giver den bedste pasform til dataene. Bemærk, at en regressionsfunktion enten kan være lineær (en ret linje) eller ikke-lineær (en buet linje).
Højdepunkter
Summen af kvadrater måler afvigelsen af datapunkter væk fra middelværdien.
Et højere kvadratsum-resultat indikerer en stor grad af variabilitet inden for datasættet, mens et lavere resultat indikerer, at dataene ikke afviger væsentligt fra middelværdien.