Investor's wiki

Residual Sum of Squares (RSS)

Residual Sum of Squares (RSS)

Hva er Residual Sum of Squares (RSS)?

Restsummen av kvadrater (RSS) er en statistisk teknikk som brukes til å måle mengden varians i et datasett som ikke er forklart av en regresjonsmodell i seg selv. I stedet estimerer den variansen i residualene, eller feilleddet.

Lineær regresjon er en måling som hjelper til med å bestemme styrken til forholdet mellom en avhengig variabel og en eller flere andre faktorer, kjent som uavhengige eller forklarende variabler.

Forstå den gjenværende summen av kvadrater

Generelt sett er summen av kvadrater en statistisk teknikk som brukes i regresjonsanalyse for å bestemme spredningen av datapunkter. I en regresjonsanalyse er målet å bestemme hvor godt en dataserie kan tilpasses en funksjon som kan bidra til å forklare hvordan dataserien ble generert. Summen av kvadrater brukes som en matematisk måte å finne den funksjonen som passer best (varierer minst) fra dataene.

RSS-en måler mengden feil som gjenstår mellom regresjonsfunksjonen og datasettet etter at modellen er kjørt. Et mindre RSS-tall representerer en regresjonsfunksjon som passer godt til dataene.

RSS, også kjent som summen av kvadrerte residualer, bestemmer i hovedsak hvor godt en regresjonsmodell forklarer eller representerer dataene i modellen.

Hvordan beregne den resterende summen av kvadrater

RSS = ni=1 (yi - f(xi))2

Hvor:

yi = den ite verdien til variabelen som skal forutsies

f(xi) = anslått verdi av yi

n = øvre grense for summering

Residual Sum of Squares (RSS) vs. Residual Standard Error (RSE)

Den gjenværende standardfeilen (RSE) er et annet statistisk begrep som brukes for å beskrive forskjellen i standardavvik for observerte verdier kontra predikerte verdier som vist ved punkter i en regresjonsanalyse. Det er et goodness-of-fit- mål som kan brukes til å analysere hvor godt et sett med datapunkter passer med den faktiske modellen.

RSE beregnes ved å dele RSS med antall observasjoner i prøven minus 2, og deretter ta kvadratroten: RSE = [RSS/(n-2)]1/2

Spesielle hensyn

Finansmarkedene har i økende grad blitt mer kvantitativt drevet; som sådan, på jakt etter en fordel, bruker mange investorer avanserte statistiske teknikker for å hjelpe til med beslutninger. Big data, maskinlæring og kunstig intelligens krever ytterligere bruk av statistiske egenskaper for å veilede moderne investeringsstrategier. Restsummen av kvadrater – eller RSS-statistikk – er en av mange statistiske egenskaper som nyter en renessanse.

Statistiske modeller brukes av investorer og porteføljeforvaltere for å spore en investerings pris og bruke disse dataene til å forutsi fremtidige bevegelser. Studien - kalt regresjonsanalyse - kan innebære å analysere forholdet i prisbevegelser mellom en vare og aksjene til selskaper som er engasjert i å produsere varen.

Å finne restsummen av kvadrater (RSS) for hånd kan være vanskelig og tidkrevende. Fordi det innebærer mye subtrahering, kvadrering og summering, kan beregningene være utsatt for feil. Av denne grunn kan du bestemme deg for å bruke programvare, for eksempel Excel, for å gjøre beregningene.

Enhver modell kan ha varianser mellom de predikerte verdiene og faktiske resultater. Selv om variansene kan forklares av regresjonsanalysen, representerer RSS variansene eller feilene som ikke er forklart.

Siden en tilstrekkelig kompleks regresjonsfunksjon kan lages for å passe nært til praktisk talt ethvert datasett, er ytterligere studier nødvendig for å avgjøre om regresjonsfunksjonen faktisk er nyttig for å forklare variansen til datasettet.

Vanligvis er imidlertid en mindre eller lavere verdi for RSS ideell i enhver modell siden det betyr at det er mindre variasjon i datasettet. Med andre ord, jo lavere summen av kvadrerte residualer, jo bedre er regresjonsmodellen til å forklare dataene.

Eksempel på gjenværende sum av kvadrater

For en enkel (men lang) demonstrasjon av RSS-beregningen, vurder den velkjente sammenhengen mellom et lands forbruksutgifter og dets BNP. Følgende diagram gjenspeiler de publiserte verdiene for ventende forbrukere og bruttonasjonalprodukt for de 27 delstatene i EU, fra og med 2020.

TTT

Verdensbanken, 2020.

Forbruksforbruk og BNP har en sterk positiv korrelasjon, og det er mulig å forutsi et lands BNP basert på forbruksforbruk (CS). Ved å bruke formelen for en best passende linje kan dette forholdet tilnærmes som:

BNP = 1,3232 x CS + 10447

Enhetene for både BNP og forbruksutgifter er i millioner av amerikanske dollar.

Denne formelen er svært nøyaktig for de fleste formål, men den er ikke perfekt på grunn av individuelle variasjoner i hvert lands økonomi. Følgende diagram sammenligner anslått BNP for hvert land, basert på formelen ovenfor, og faktisk BNP registrert av Verdensbanken.

TTT

Verdensbanken, 2020.

Kolonnen til høyre indikerer gjenværende kvadrater – den kvadratiske forskjellen mellom hver projisert verdi og dens faktiske verdi. Tallene ser store ut, men summen deres er faktisk lavere enn RSS for enhver annen mulig trendlinje. Hvis en annen linje hadde en lavere RSS for disse datapunktene, ville den linjen være den linjen som passer best.

Høydepunkter

  • En verdi på null betyr at modellen din passer perfekt.

  • RSS-en brukes av finansanalytikere for å estimere gyldigheten til deres økonometriske modeller.

  • Restsummen av kvadrater (RSS) måler variansnivået i feilleddet, eller residualene, til en regresjonsmodell.

  • Statistiske modeller brukes av investorer og porteføljeforvaltere for å spore en investerings pris og bruke disse dataene til å forutsi fremtidige bevegelser.

  • Jo mindre gjenværende sum av kvadrater, jo bedre passer modellen din til dataene dine; jo større gjenværende sum av kvadrater, jo dårligere passer modellen til dataene dine.

FAQ

Er RSS det samme som Sum of Squared Estimate of Errors (SSE)?

Restsummen av kvadrater (RSS) er også kjent som summen av kvadratisk estimat av feil (SSE).

Hva er forskjellen mellom gjenværende sum av kvadrater og total sum av kvadrater?

Totalsummen av kvadrater (TSS) måler hvor mye variasjon det er i de observerte dataene, mens restsummen av kvadrater måler variasjonen i feilen mellom de observerte dataene og modellerte verdier. I statistikk blir verdiene for restsummen av kvadrater og totalsummen av kvadrater (TSS) ofte sammenlignet med hverandre.

Er den gjenværende summen av kvadrater den samme som R-kvadrat?

Restsummen av kvadrater (RSS) er den absolutte mengden av forklart variasjon, mens R-kvadrat er den absolutte mengden variasjon som en andel av total variasjon.

Kan en gjenværende sum av kvadrater være null?

Restsummen av kvadrater kan være null. Jo mindre gjenværende sum av kvadrater, jo bedre passer modellen din til dataene dine; jo større gjenværende sum av kvadrater, jo dårligere passer modellen til dataene dine. En verdi på null betyr at modellen din passer perfekt.