Multipel lineær regression (MLR)
Hvad er Multiple Linear Regression (MLR)?
Multipel lineær regression (MLR), også kendt som multipel regression, er en statistisk teknik, der bruger flere forklarende variabler til at forudsige resultatet af en responsvariabel. Målet med multipel lineær regression er at modellere det lineære forhold mellem de forklarende (uafhængige) variable og respons (afhængige) variable. I bund og grund er multipel regression forlængelsen af almindelig mindste kvadraters (OLS) regression,. fordi den involverer mere end én forklarende variabel.
Formel og beregning af multipel lineær regression
< span class="katex-html" aria-hidden="true">< /span> < span class="psrut" style="height:2.84em;"> yi=β0</ span>+β1< /span>< span>xi1 +β2</ span>xi2< span class="mspace" style="margin-right:0.22222222222222222em;">+...+β< span class="mord mathnormal mtight">p</ span>xip< /span>< /span>+ϵ< /span>hvor, for i=n observationer : y< /span> i =< /span>afhængig variabel>< span class="mord mathnormal">xi= forklarende variableβ0</sp an>=y-intercept (konstant term)β>< span class="vlist" style="height:0.151392000000000003em;">p span class="vlist" style="height:0.286108em;">=</ span>hældningskoefficienter for hver forklarende variabelϵ=modellens fejlterm (også kendt som residualerne)</ span>< /span>
Hvad multipel lineær regression kan fortælle dig
Simpel lineær regression er en funktion, der gør det muligt for en analytiker eller statistiker at lave forudsigelser om en variabel baseret på den information, der er kendt om en anden variabel. Lineær regression kan kun bruges, når man har to kontinuerte variable - en uafhængig variabel og en afhængig variabel. Den uafhængige variabel er den parameter, der bruges til at beregne den afhængige variabel eller resultatet. En multipel regressionsmodel strækker sig til flere forklaringsvariable.
Multipel regressionsmodellen er baseret på følgende antagelser:
Der er en lineær sammenhæng mellem de afhængige variable og de uafhængige variable
De uafhængige variable er ikke for højt korrelerede med hinanden
yi observationer er udvalgt uafhængigt og tilfældigt fra populationen
Residualer skal være normalfordelt med et gennemsnit på 0 og varians σ
Bestemmelseskoefficienten (R-kvadrat) er en statistisk metrik , der bruges til at måle, hvor meget af variationen i udfaldet, der kan forklares ved variationen i de uafhængige variable. R2 stiger altid, efterhånden som flere prædiktorer tilføjes til MLR-modellen, selvom prædiktorerne muligvis ikke er relateret til udfaldsvariablen.
R2 kan således ikke i sig selv bruges til at identificere, hvilke prædiktorer der skal inkluderes i en model, og hvilke der skal udelukkes. R2 kan kun være mellem 0 og 1, hvor 0 indikerer, at resultatet ikke kan forudsiges af nogen af de uafhængige variable, og 1 indikerer, at resultatet kan forudsiges uden fejl fra de uafhængige variable.
Ved fortolkning af resultaterne af multipel regression er beta-koefficienter gyldige, mens alle andre variable holdes konstante ("alt andet lige"). Outputtet fra en multipel regression kan vises vandret som en ligning eller lodret i tabelform.
Eksempel på hvordan man bruger multipel lineær regression
Som et eksempel kan en analytiker gerne vide, hvordan markedets bevægelse påvirker prisen på ExxonMobil (XOM). I dette tilfælde vil deres lineære ligning have værdien af S&P 500-indekset som den uafhængige variabel eller prædiktor og prisen på XOM som den afhængige variabel.
I virkeligheden forudsiger flere faktorer udfaldet af en begivenhed. Prisbevægelsen på ExxonMobil afhænger for eksempel af mere end blot præstationen på det samlede marked. Andre forudsigelser såsom olieprisen, renter og prisbevægelsen på oliefutures kan påvirke prisen på XOM og aktiekurser på andre olieselskaber. For at forstå en sammenhæng, hvor mere end to variable er til stede, bruges multipel lineær regression.
Multipel lineær regression (MLR) bruges til at bestemme en matematisk sammenhæng mellem flere tilfældige variable. Med andre ord undersøger MLR, hvordan flere uafhængige variabler er relateret til en afhængig variabel. Når hver af de uafhængige faktorer er blevet bestemt til at forudsige den afhængige variabel, kan informationen om de multiple variable bruges til at skabe en nøjagtig forudsigelse af niveauet af effekt, de har på udfaldsvariablen. Modellen skaber en sammenhæng i form af en ret linje (lineær), der bedst tilnærmer alle de enkelte datapunkter.
Med henvisning til MLR-ligningen ovenfor, i vores eksempel:
yi = afhængig variabel - prisen på XOM
xi1 = rentesatser
xi2 = oliepris
xi3 = værdi af S&P 500-indeks
xi4= pris på oliefutures
B0 = y-skæringspunkt på tidspunktet nul
B1 = regressionskoefficient, der måler en enhedsændring i den afhængige variabel, når xi1 ændres - ændringen i XOM-pris, når rentesatserne ændres
B2 = koefficientværdi, der måler en enhedsændring i den afhængige variabel, når xi2 ændres - ændringen i XOM-prisen, når oliepriserne ændrer sig
De mindste kvadraters estimater - B0, B1, B2...Bp - beregnes normalt af statistisk software. Lige så mange variable kan indgå i regressionsmodellen, hvor hver uafhængig variabel er differentieret med et tal—1,2, 3, 4...p. Multipel regressionsmodellen gør det muligt for en analytiker at forudsige et resultat baseret på information om flere forklarende variabler.
Alligevel er modellen ikke altid helt nøjagtig, da hvert datapunkt kan afvige lidt fra det resultat, som modellen forudsiger. Residualværdien, E, som er forskellen mellem det faktiske udfald og det forudsagte udfald, er inkluderet i modellen for at tage højde for sådanne små variationer.
Hvis vi antager, at vi kører vores XOM-prisregressionsmodel gennem en statistikberegningssoftware, der returnerer dette output:
En analytiker ville fortolke dette output som at betyde, at hvis andre variable holdes konstante, vil prisen på XOM stige med 7,8 %, hvis olieprisen på markederne stiger med 1 %. Modellen viser også, at prisen på XOM vil falde med 1,5 % efter en rentestigning på 1 %. R2 angiver, at 86,5 % af variationerne i aktiekursen på Exxon Mobil kan forklares ved ændringer i renten, olieprisen, oliefutures og S&P 500-indekset.
Forskellen mellem lineær og multipel regression
Ordinær lineære kvadraters (OLS) regression sammenligner responsen af en afhængig variabel givet en ændring i nogle forklarende variable. En afhængig variabel forklares dog sjældent med kun én variabel. I dette tilfælde bruger en analytiker multipel regression, som forsøger at forklare en afhængig variabel ved hjælp af mere end én uafhængig variabel. Flere regressioner kan være lineære og ikke-lineære.
Multiple regression er baseret på den antagelse, at der er en lineær sammenhæng mellem både de afhængige og uafhængige variable. Det antager heller ikke nogen større sammenhæng mellem de uafhængige variable.
Højdepunkter
Multipel regression er en forlængelse af lineær (OLS) regression, der kun bruger én forklarende variabel.
Multipel lineær regression (MLR), også kendt blot som multipel regression, er en statistisk teknik, der bruger flere forklarende variabler til at forudsige resultatet af en responsvariabel.
MLR bruges i vid udstrækning inden for økonometri og finansiel slutning.
Ofte stillede spørgsmål
Hvad betyder det, at en multipel regression er lineær?
Ved multipel lineær regression beregner modellen den linje med bedste tilpasning,. der minimerer varianserne for hver af de inkluderede variable, da den relaterer til den afhængige variabel. Fordi det passer til en linje, er det en lineær model. Der er også ikke-lineære regressionsmodeller, der involverer flere variabler, såsom logistisk regression, kvadratisk regression og probit-modeller.
Hvordan bruges multiple regressionsmodeller i finans?
Enhver økonometrisk model, der ser på mere end én variabel, kan være et multiplum. Faktormodeller sammenligner to eller flere faktorer for at analysere sammenhænge mellem variabler og den resulterende ydeevne. Fama og French Three-Factor Mod er en sådan model, der udvider kapitalaktiveringsmodellen (CAPM) ved at tilføje størrelsesrisiko og værdirisikofaktorer til markedsrisikofaktoren i CAPM (som i sig selv er en regressionsmodel). Ved at inkludere disse to yderligere faktorer, justerer modellen for denne outperforming-tendens, hvilket menes at gøre den til et bedre værktøj til at evaluere ledernes præstationer.
Kan jeg lave en multipel regression i hånden?
Det er usandsynligt, da flere regressionsmodeller er komplekse og bliver endnu mere, når der er flere variabler inkluderet i modellen, eller når mængden af data, der skal analyseres, vokser. For at køre en multipel regression skal du sandsynligvis bruge specialiseret statistisk software eller funktioner i programmer som Excel.
Hvad gør en multipel regression til multiplum?
En multipel regression overvejer effekten af mere end én forklarende variabel på et eller andet resultat af interesse. Den evaluerer den relative effekt af disse forklarende eller uafhængige variabler på den afhængige variabel, når alle de andre variable i modellen holdes konstante.
Hvorfor ville man bruge en multipel regression over en simpel OLS-regression?
En afhængig variabel forklares sjældent med kun én variabel. I sådanne tilfælde bruger en analytiker multipel regression, som forsøger at forklare en afhængig variabel ved hjælp af mere end én uafhængig variabel. Modellen forudsætter dog, at der ikke er større sammenhænge mellem de uafhængige variable.