Mehrfache lineare Regression (MLR)

Was ist multiple lineare Regression (MLR)?

Die multiple lineare Regression (MLR), auch einfach als multiple Regression bekannt, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen. Das Ziel der multiplen linearen Regression besteht darin, die lineare Beziehung zwischen den erklärenden (unabhängigen) Variablen und den (abhängigen) Antwortvariablen zu modellieren. Im Wesentlichen ist die multiple Regression die Erweiterung der gewöhnlichen Regression der kleinsten Quadrate (OLS) , da sie mehr als eine erklärende Variable umfasst.

Formel und Berechnung der multiplen linearen Regression

$\begin&y_i = \beta_0 + \beta$

Was Ihnen die multiple lineare Regression sagen kann

Die einfache lineare Regression ist eine Funktion, die es einem Analysten oder Statistiker ermöglicht, Vorhersagen über eine Variable auf der Grundlage der Informationen zu treffen, die über eine andere Variable bekannt sind. Die lineare Regression kann nur verwendet werden, wenn man zwei kontinuierliche Variablen hat – eine unabhängige Variable und eine abhängige Variable. Die unabhängige Variable ist der Parameter, der verwendet wird, um die abhängige Variable oder das Ergebnis zu berechnen. Ein multiples Regressionsmodell erstreckt sich auf mehrere erklärende Variablen.

Das multiple Regressionsmodell basiert auf den folgenden Annahmen:

Es besteht eine lineare Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen
Die unabhängigen Variablen sind nicht zu stark miteinander korreliert
y_i Beobachtungen werden unabhängig und zufällig aus der Grundgesamtheit ausgewählt
Residuen sollten normalverteilt sein mit einem Mittelwert von 0 und Varianz σ

Das Bestimmtheitsmaß (R-Quadrat) ist eine statistische Metrik, die verwendet wird, um zu messen, wie viel der Variation des Ergebnisses durch die Variation der unabhängigen Variablen erklärt werden kann. R² nimmt immer zu, wenn dem MLR-Modell weitere Prädiktoren hinzugefügt werden, auch wenn die Prädiktoren möglicherweise nicht mit der Ergebnisvariablen in Beziehung stehen.

R² allein kann daher nicht verwendet werden, um zu identifizieren, welche Prädiktoren in ein Modell aufgenommen und welche ausgeschlossen werden sollten. R² kann nur zwischen 0 und 1 liegen, wobei 0 angibt, dass das Ergebnis durch keine der unabhängigen Variablen vorhergesagt werden kann, und 1 angibt, dass das Ergebnis ohne Fehler aus den unabhängigen Variablen vorhergesagt werden kann.

Bei der Interpretation der Ergebnisse der multiplen Regression sind Beta-Koeffizienten gültig, während alle anderen Variablen konstant gehalten werden ("alles andere gleich"). Die Ausgabe einer multiplen Regression kann horizontal als Gleichung oder vertikal in Tabellenform angezeigt werden.

Beispiel für die Verwendung der multiplen linearen Regression

Ein Analyst möchte beispielsweise wissen, wie sich die Marktbewegung auf den Preis von ExxonMobil (XOM) auswirkt. In diesem Fall hat ihre lineare Gleichung den Wert des S&P 500-Index als unabhängige Variable oder Prädiktor und den Preis von XOM als abhängige Variable.

In Wirklichkeit sagen mehrere Faktoren den Ausgang eines Ereignisses voraus. Die Preisentwicklung von ExxonMobil beispielsweise hängt nicht nur von der Entwicklung des Gesamtmarktes ab. Andere Prädiktoren wie der Ölpreis, die Zinssätze und die Preisbewegung von Öl- Futures können den Preis von XOM und die Aktienkurse anderer Ölunternehmen beeinflussen. Um eine Beziehung zu verstehen, in der mehr als zwei Variablen vorhanden sind, wird die multiple lineare Regression verwendet.

Die multiple lineare Regression (MLR) wird verwendet, um eine mathematische Beziehung zwischen mehreren Zufallsvariablen zu bestimmen. Mit anderen Worten, MLR untersucht, wie mehrere unabhängige Variablen mit einer abhängigen Variablen zusammenhängen. Sobald jeder der unabhängigen Faktoren bestimmt wurde, um die abhängige Variable vorherzusagen, können die Informationen zu den mehreren Variablen verwendet werden, um eine genaue Vorhersage über das Ausmaß der Auswirkungen zu erstellen, die sie auf die Ergebnisvariable haben. Das Modell stellt einen Zusammenhang in Form einer Geraden (linear) her, der alle einzelnen Datenpunkte am besten annähert.

Unter Bezugnahme auf die obige MLR-Gleichung in unserem Beispiel:

y_i = abhängige Variable – der Preis von XOM
x_i1 = Zinssätze
x_i2 = Ölpreis
x_i3 = Wert des S&P 500-Index
x_i4= Preis von Öl-Futures
B₀ = y-Achsenabschnitt zum Zeitpunkt Null
B₁ = Regressionskoeffizient,. der eine Einheitsänderung in der abhängigen Variablen misst, wenn sich x_i1 ändert - die Änderung des XOM-Preises, wenn sich die Zinssätze ändern
B₂ = Koeffizientenwert, der eine Einheitsänderung in der abhängigen Variablen misst, wenn sich x_i2 ändert – die Änderung des XOM-Preises, wenn sich der Ölpreis ändert

Die Kleinste-Quadrate-Schätzungen – B₀, B₁, B₂…B_p – werden normalerweise von statistischer Software berechnet. In das Regressionsmodell können beliebig viele Variablen aufgenommen werden, wobei jede unabhängige Variable mit einer Zahl differenziert wird – 1,2, 3, 4...p. Das multiple Regressionsmodell ermöglicht es einem Analysten, ein Ergebnis auf der Grundlage von Informationen vorherzusagen, die für mehrere erklärende Variablen bereitgestellt werden.

Dennoch ist das Modell nicht immer absolut genau, da jeder Datenpunkt geringfügig von dem vom Modell vorhergesagten Ergebnis abweichen kann. Der Residualwert E, der die Differenz zwischen dem tatsächlichen Ergebnis und dem vorhergesagten Ergebnis darstellt, wird in das Modell aufgenommen, um solche geringfügigen Abweichungen zu berücksichtigen.

Angenommen, wir führen unser XOM-Preisregressionsmodell durch eine Statistikberechnungssoftware, die diese Ausgabe zurückgibt:

Ein Analyst würde diese Ausgabe dahingehend interpretieren, dass, wenn andere Variablen konstant gehalten werden, der Preis von XOM um 7,8 % steigen wird, wenn der Ölpreis an den Märkten um 1 % steigt. Das Modell zeigt auch, dass der Preis von XOM nach einem Anstieg der Zinssätze um 1 % um 1,5 % sinken wird. R² gibt an, dass 86,5 % der Schwankungen des Aktienkurses von Exxon Mobil durch Änderungen des Zinssatzes, des Ölpreises, der Öl-Futures und des S&P 500-Index erklärt werden können.

Der Unterschied zwischen linearer und multipler Regression

gewöhnlichen linearen Quadrate (OLS) vergleicht die Reaktion einer abhängigen Variablen bei einer Änderung einiger erklärender Variablen. Eine abhängige Variable wird jedoch selten durch nur eine Variable erklärt. In diesem Fall verwendet ein Analytiker die multiple Regression, die versucht, eine abhängige Variable mit mehr als einer unabhängigen Variablen zu erklären. Multiple Regressionen können linear und nichtlinear sein.

Multiple Regressionen basieren auf der Annahme, dass es eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen gibt. Es wird auch keine größere Korrelation zwischen den unabhängigen Variablen angenommen.

Höhepunkte

Multiple Regression ist eine Erweiterung der linearen (OLS) Regression, die nur eine erklärende Variable verwendet.
Die multiple lineare Regression (MLR), auch einfach als multiple Regression bekannt, ist eine statistische Technik, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen.
MLR wird ausgiebig in der Ökonometrie und Finanzinferenz verwendet.

FAQ

Was bedeutet es, dass eine multiple Regression linear ist?

Bei der multiplen linearen Regression berechnet das Modell die Linie der besten Anpassung,. die die Varianzen jeder der eingeschlossenen Variablen in Bezug auf die abhängige Variable minimiert. Da es sich an eine Linie anpasst, handelt es sich um ein lineares Modell. Es gibt auch nichtlineare Regressionsmodelle mit mehreren Variablen, wie z. B. logistische Regression, quadratische Regression und Probit-Modelle.

Wie werden multiple Regressionsmodelle im Finanzwesen verwendet?

Jedes ökonometrische Modell, das mehr als eine Variable betrachtet, kann ein Vielfaches sein. Faktormodelle vergleichen zwei oder mehr Faktoren, um Beziehungen zwischen Variablen und der daraus resultierenden Leistung zu analysieren. Das Fama und French Three-Factor Mod ist ein solches Modell, das das Capital Asset Pricing Model (CAPM) erweitert, indem Größenrisiko- und Wertrisikofaktoren zum Marktrisikofaktor in CAPM (das selbst ein Regressionsmodell ist) hinzugefügt werden. Durch die Einbeziehung dieser beiden zusätzlichen Faktoren passt sich das Modell dieser Outperformance-Tendenz an, was es zu einem besseren Instrument zur Bewertung der Managerleistung machen soll.

Kann ich eine multiple Regression manuell durchführen?

Dies ist unwahrscheinlich, da mehrere Regressionsmodelle komplex sind und noch komplexer werden, wenn mehr Variablen in das Modell aufgenommen werden oder wenn die Menge der zu analysierenden Daten wächst. Um eine multiple Regression durchzuführen, müssen Sie wahrscheinlich spezielle statistische Software oder Funktionen in Programmen wie Excel verwenden.

Was macht eine multiple Regression multiple?

Eine multiple Regression berücksichtigt die Wirkung von mehr als einer erklärenden Variablen auf ein bestimmtes Ergebnis. Es bewertet die relative Wirkung dieser erklärenden oder unabhängigen Variablen auf die abhängige Variable, wenn alle anderen Variablen im Modell konstant gehalten werden.

Warum sollte man eine multiple Regression gegenüber einer einfachen OLS-Regression verwenden?

Eine abhängige Variable wird selten durch nur eine Variable erklärt. In solchen Fällen verwendet ein Analytiker die multiple Regression, die versucht, eine abhängige Variable mit mehr als einer unabhängigen Variablen zu erklären. Das Modell geht jedoch davon aus, dass es keine größeren Korrelationen zwischen den unabhängigen Variablen gibt.