Trinvis regression

Hvad er trinvis regression?

Trinvis regression er den trinvise iterative konstruktion af en regressionsmodel,. der involverer udvælgelsen af uafhængige variable, der skal bruges i en endelig model. Det involverer tilføjelse eller fjernelse af potentielle forklarende variabler i rækkefølge og test for statistisk signifikans efter hver iteration.

Tilgængeligheden af statistiske softwarepakker gør trinvis regression mulig, selv i modeller med hundredvis af variabler.

Typer af trinvis regression

Det underliggende mål med trinvis regression er gennem en række tests (f.eks. F-test, t-test ) at finde et sæt af uafhængige variable, som signifikant påvirker den afhængige variabel. Dette gøres med computere gennem iteration, som er processen med at nå frem til resultater eller beslutninger ved at gennemgå gentagne runder eller analysecyklusser. At udføre test automatisk med hjælp fra statistiske softwarepakker har den fordel, at det sparer tid og begrænser fejl.

Trinvis regression kan opnås enten ved at afprøve én uafhængig variabel ad gangen og inkludere den i regressionsmodellen, hvis den er statistisk signifikant, eller ved at inkludere alle potentielle uafhængige variable i modellen og eliminere dem, der ikke er statistisk signifikante. Nogle bruger en kombination af begge metoder, og derfor er der tre tilgange til trinvis regression:

Forudvalg begynder uden variabler i modellen, tester hver variabel, efterhånden som den føjes til modellen, og beholder derefter dem, der anses for at være mest statistisk signifikante – gentager processen, indtil resultaterne er optimale.
Backward elimination starter med et sæt af uafhængige variabler, sletter én ad gangen og tester derefter for at se, om den fjernede variabel er statistisk signifikant.
Tovejs eliminering er en kombination af de to første metoder, der tester, hvilke variabler der skal inkluderes eller udelukkes.

Eksempel

Et eksempel på en trinvis regression ved brug af metoden med baglæns eliminering ville være et forsøg på at forstå energiforbruget på en fabrik ved hjælp af variabler som udstyrs driftstid, udstyrs alder, personalestørrelse, temperaturer udenfor og tid på året. Modellen inkluderer alle variablerne - derefter fjernes hver enkelt, en ad gangen, for at bestemme, hvilken der er mindst statistisk signifikant. I sidste ende kan modellen vise, at årstiden og temperaturerne er mest betydningsfulde, hvilket muligvis tyder på, at det maksimale energiforbrug på fabrikken er, når klimaanlægget er på sit højeste.

Begrænsninger af trinvis regression

Regressionsanalyse, både lineær og multivariat, er meget udbredt i økonomi- og investeringsverdenen i dag. Ideen er ofte at finde mønstre, der eksisterede i fortiden, som måske også gentager sig i fremtiden. En simpel lineær regression kan for eksempel se på pris-til-indtjening-forhold og aktieafkast over mange år for at afgøre, om aktier med lave P/E-forhold (uafhængig variabel) giver højere afkast (afhængig variabel). Problemet med denne tilgang er, at markedsforholdene ofte ændrer sig, og forhold, der har holdt i fortiden, ikke nødvendigvis holder stik i nutiden eller fremtiden.

I mellemtiden har den trinvise regressionsproces mange kritikere, og der er endda opfordringer til helt at stoppe med at bruge metoden. Statistikere bemærker flere ulemper ved tilgangen, herunder ukorrekte resultater, en iboende skævhed i selve processen og nødvendigheden af betydelig computerkraft til at udvikle komplekse regressionsmodeller gennem iteration.

Højdepunkter

Trinvis regression har dog sine ulemper, da det er en tilgang, der passer data ind i en model for at opnå det ønskede resultat.
Den baglæns elimineringsmetode begynder med en fuld model fyldt med flere variable og fjerner derefter en variabel for at teste dens betydning i forhold til de samlede resultater.
Trinvis regression er en metode, der iterativt undersøger den statistiske signifikans af hver uafhængig variabel i en lineær regressionsmodel.
Fremadvalgsmetoden starter med ingenting og tilføjer hver ny variabel trinvist, test for statistisk signifikans.