Multiple lineare Regression

Überprüfung der Annahmen und Umgang mit Verletzung

Table of Contents


Einleitung

Wenn man sich den gerichteten Zusammenhang von mehr als zwei Variablen anschauen möchte, kann man dafür die multiple lineare Regression nutzen. Bei dieser kann man eine abhängige Variable (AV, nachfolgend Kriterium genannt) durch mehrere (multiple) unabhängige Variablen (UVs, nachfolgend Prädiktoren genannt) vorhersagen. Grundsätzlich gilt, dass das Kriterium metrisch sein muss (d.h. mindestens intervallskaliert). Die Prädiktoren hingegen können auch kategorial (d.h. dichotom, nominal- oder ordinalskaliert) sein, sofern diese korrekt kodiert werden (z.B. als Dummyvariablen).

Wie sieht die Regressionsgleichung aus?

Nach dem linearen Modell gilt (für Person \(i=1, ..., n\) und Prädiktor \(k=1, ..., K\)):

\(y_i = b_0 + b_1x_1 + ... + b_Kx_K + e_i\)

\(y\): Kriterium
\(x_1 , ..., x_k\): Prädiktoren
\(b_0\): y-Achsenabschnitt (Intercept)
\(b_1, ..., b_K\): Steigungen (Slopes); hier unstandardisiert
\(e_i\): Residuum (Vorhersagefehler); gibt den Teil von y an, der nicht durch die Regressionsgleichung vorhergesagt werden kann


Bei der Anwendung der multiplen linearen Regression müssen allerdings bestimmte Annahmen erfüllt sein. Wenn diese verletzt sind, besteht die Gefahr, dass die Parameterschätzungen inkorrekt (verzerrt) sind und/oder man inkorrekte Schlussfolgerungen über das Vorhandensein von Effekten in der Population zieht (z.B. man aufgrund von verzerrten Standardfehlern fälschlicherweise ein signifikantes Ergebnis erhält).

Die wichtigsten Annahmen sind: Linearität, Exogenität, Homoskedastizität und die Unabhängigkeit der Residuen. Darüber hinaus sollte man sich als Benutzer auch immer die Normalverteilung der Residuen, Multikollinearität sowie Ausreißer und einflussreiche Datenpunkte ansehen.

Gefahren bei Verletzung der Annahmen und weiterer wichtiger Punkte
verzerrte Koeffizienten verzerrte Standardfehler
Linearität X X
Exogenität X X
Homoskedastizität X
Unabhängigkeit der Residuen X
Normalverteilung der Residuen X
Multikollinearität X
Einflussreiche Datenpunkte X

Bei der Prüfung von Annahmen in der multiplen linearen Regression ist die Residualdiagnostik ein wichtiges Verfahren. Residuen \(\hat e_i\) sind Abweichungen der vorhergesagten Werte des Kriteriums \(\hat y_i\) von den beobachteten Werten des Kriteriums \(y_i\) von Person \(i\). Man schaut sich anstatt der geplotteten Rohdaten häufig die Residualplots an, weil man Plots mit mehr als zwei Achsen (bei mehr als einem Prädiktor) grafisch nicht gut darstellen kann. Zusätzlich visualisieren Residuen die Abweichungen besser und lassen uns so u.a. nicht-lineare Zusammenhänge besser aufdecken.

Warum werden bevorzugt Grafiken genutzt, um die Annahmen zu prüfen?

In geplotteten Daten können verschiedenste Verletzungen (z.B. Missspezifikationen der Form des Zusammenhangs zwischen den Variablen) entdeckt werden, denn graphische Darstellungen machen nur geringe Annahmen über die Art des Problems. Statistische Tests hingegen haben häufig einen eingeschränkten Fokus und sie vergleichen nur, was man vorgegeben hat. Zusätzlich funktionieren sie nur unter bestimmten Annahmen, liefern lediglich eine 0/1-Aussage ohne die Schwere des Annahmeverstoßes zu quantifizieren und hängen stark von der Stichprobengröße ab.


Was ist die Lowess Fit Line?

Wenn man Ergebnisse einer linearen Regression mit plot() darstellt, wird häufig die sogenannte Lowess Fit Line eingezeichnet.

Lowess steht für locally weighted scatterplot smoother. Die Lowess (oder auch Loess) Fit Line ist ein Verfahren, welches den besten nonparametrischen Fit für die gegeben Daten anzeigt. Sie ist eine Auswertungshilfe bei der Beurteilung der Form des Zusammenhangs. Dabei macht sie keine Annahmen über die Form des Zusammenhangs zwischen den Variablen. Der Zusammenhang zwischen zwei Variablen wird im Streudiagramm als “smoothe” Linie, die den generellen Trend der Daten beschreibt, dargestellt. Wenn der Zusammenhang zwischen zwei Variablen linear ist, so sollte sich auch die Lowess Line einer Gerade annähern. Allerdings ist die Lowess Line häufig an den Enden der Verteilung von X weniger präzise, da hier weniger Daten vorhanden sind.


Die verschiedenen Annahmen werden im Verlauf der folgenden Abschnitte kurz erläutert und Möglichkeiten der Überprüfung (v.a. mit Hilfe von Grafiken), sowie zum Umgang mit Verletzung der Annahmen kurz skizziert.

Beispieldatensatz für dieses Kapitel

Hier seht ihr, wie ihr den Datensatz erstis, an dem wir in diesem Kapitel arbeiten werden, einlesen könnt. Unter diesem Link findet ihr das Codebuch zum Datensatz.


load(url("http://www.beltz.de/fileadmin/beltz/downloads/OnlinematerialienPVU/R_fuer_Einsteiger/erstis.rda"))

Exemplarisch schauen wir uns für dieses Kapitel an, wie gut sich lz.1 (Lebenszufriedenheit T1) durch zuf.inh.1 (Zufriedenheit mit Studieninhalten T1) und zuf.bed.1 (Zufriedenheit mit Studienbedingungen T1) vorhersagen lässt.

Dazu erstellen wir erst einen neuen Datensatz mit diesen Variablen und führen dann die Regression durch.


daten <- data.frame(matrix(c(erstis$lz.1, erstis$zuf.inh.1, erstis$zuf.bed.1),
    nrow = nrow(erstis)))
names(daten) <- c("leb_zufr", "zufr_inhalt", "zufr_beding")

lm_lz <- lm(daten$leb_zufr ~ daten$zufr_inhalt + daten$zufr_beding, 
    na.action = "na.exclude")
# Da der Datensatz fehlender Werte enthält, benötigen wir das Argument na.exclude 

# Für mehr Informationen, wie lm() und andere Funktionen mit Missings umgehen,
# kannst du dir das Kapitel 'Fehlende Werte' anschauen.

# Die Residuen brauchen wir später, daher fügen wir sie jetzt schon als Variable 
# zum Datensatz hinzu.
daten$resid <- residuals(lm_lz) 
# man muss residuals() oder auch resid() nehmen
# lm_lz$residuals funktioniert hier nicht (Zeilenanzahl ist geringerer)

Im Rahmen dieses Kapitels liegt der Fokus nicht auf der inhaltlichen Interpretation der Ergebnisse der multiplen linearen Regressions, sondern darauf, ob die oben genannten Annahmen erfüllt sind.

Nachfolgend seht ihr den Output der lm()-Funktion (lm_lz).


summary(lm_lz)

Call:
lm(formula = daten$leb_zufr ~ daten$zufr_inhalt + daten$zufr_beding, 
    na.action = "na.exclude")

Residuals:
     Min       1Q   Median       3Q      Max 
-15.2274  -3.7319   0.8666   3.8354   8.5019 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        12.7910     2.3392   5.468  1.7e-07 ***
daten$zufr_inhalt   2.4993     0.6870   3.638 0.000369 ***
daten$zufr_beding   1.3128     0.5743   2.286 0.023572 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.137 on 161 degrees of freedom
  (27 observations deleted due to missingness)
Multiple R-squared:  0.141, Adjusted R-squared:  0.1303 
F-statistic: 13.21 on 2 and 161 DF,  p-value: 4.87e-06
Wenn die Annahmen für die multiple lineare Regression in unserem Beispiel nicht erfüllt sind, besteht die Gefahr, dass unsere Parameterschätzungen (Estimate-Spalte) und/oder Standardfehler (Std.Error-Spalte) inkorrekt sind. Damit wären unsere Ergebnisse u.U. untauglich.


1. Linearität

Mit Linearität ist die korrekte Spezifikation der Form des Zusammenhangs zwischen Kriterium und Prädiktoren gemeint. Genauer gesagt, meint die Annahme, dass der Erwartungswert des Kriteriums sich als Linearkombination der Prädiktoren darstellen lässt.

Dies bedeutet jedoch nicht notwendigerweise, dass der Zusammenhang der Variablen linear sein muss. Es muss sich lediglich um eine linear additive Verknüpfung der Regressionsterme handeln. Beispielsweise spezifiziert die folgende Regressionsgleichung \(y=b_0 + b_1x^2 + e\) einen quadratischen Zusammenhang zwischen \(Y\) und \(X\) mittels einer linear additiven Verknüpfung der Regressionsterme (hier nur ein einziger Prädiktor \(X\)). Siehe auch den Abschnitt zum Umgang mit Nicht-Linearität.

Wenn die Form des Zusammenhangs zwischen Kriterium und Prädiktoren nicht richtig spezifiziert wurde, können ernsthafte Probleme auftreten. Dies wäre zum Beispiel dann der Fall, wenn es zwischen Prädiktoren und Kriterium in Wirklichkeit einen quadratischen Zusammenhang gibt, wir in unserem Regressionsmodell aber nur einen linearen Zusammenhang spezifiziert haben. Sowohl die Regressionskoeffizienten als auch die Standardfehler könnten in einem solchen Fall verzerrt sein.

Überprüfung

Bivariate Streudiagramme

In einem ersten Schritt schauen wir uns bivariate Streudiagramme an. Das heißt, wir schauen uns nicht das gesamte Modelle (mit mehreren Prädiktoren) an, sondern nur Zusammenhänge zwischen einzelnen Prädiktoren und dem Kriterium.

Auch wenn die bivariaten Streudiagramme auf Linearität hinweisen, sollte man nicht vergessen, dass auch Interkationen zwischen Prädiktoren zu nicht-linearen Zusammenhängen führen können. Die Nutzung von bivariaten Streudiagramen zur Überprüfung der Annahme der Linearität ist weder eine notwendige, noch eine hinreichende Bedingung. Sie sind daher mit Vorsicht zu beurteilen.


# Lebenszufriedenheit - Zufriedenheit mit Studieninhalten
plot(daten$zufr_inhalt, daten$leb_zufr)
lz_inh <- lm(daten$leb_zufr ~ daten$zufr_inhalt, na.action='na.exclude') # Einfache Regression
abline(lz_inh) # Einzeichnen Regressionsgerade

Der Plot spricht für einen linearen Zusammenhang zwischen Lebenszufriedenheit (Kriterium) und Zufriedenheit mit Studieninhalten (Prädiktor).


# Lebenszufriedenheit - Zufriedenheit mit Studienbedingungen
plot(daten$zufr_beding, daten$leb_zufr)
lz_bed <- lm(daten$leb_zufr ~ daten$zufr_beding, na.action='na.exclude') # Einfache Regression
abline(lz_bed) # Einzeichnen Regressionsgerade

Der Plot von Lebenszufriedenheit (Kriterium) und Zufriedenheit mit Studienbedingungen (Prädiktor) weist auf einen linearen Zusammenhang hin.

Residualplot

Das wichtigste Werkzeug zur Prüfung der Linearitätsannahme ist der Residualplot. In einem Residualplot werden die die vorhergesagten Werte \(\hat y_i\) (auf der \(x\)-Achse) werden gegen die Residuen \(\hat e_i = y_i - \hat y_i\) (auf der \(y\)-Achse) abgetragen (geplottet).


plot(lm_lz, which = 1) 
# erster Plot der plot()-Funktion für ein lm-Objekt ist der Residualplot

Die gestrichelte Linie bei \(y = 0\) zeigt den Erwartungswert der Residuen. Diese ist immer null und die Residuen sollten sich ohne erkennbares Muster, um diese Linie verteilen.

Die rote Linie ist die Lowess Fit Line. Diese sollte sich der gestrichelten Linie annähern, wenn der Zusammenhang zwischen Prädiktoren und Kriterium linear ist.

In unserem Beispiel legt der Residualplot nahe, dass der Zusammenhang zwischen Lebenszufriedenheit und Zufriedenheit mit Studieninhalten und -bedingungen weitgehend linear ist.

Die Annahme der Linearität wäre z.B. verletzt, wenn die Residuen einen U-förmigen Zusammenhang mit den vorhergesagten Werten aufweisen würden. Das würde nahelegen, dass ein quadratischer Zusammenhang zwischen dem kriterium und den Prädiktoren besteht, der nicht adäquat modelliert wurde.

Umgang

Um einen angemessen Weg zu finden, um mit nicht-linearen Zusammenhängen zwischen den Variablen umzugehen, kann man die folgenden vier Fragen zur Eingrenzung nutzen:


2. Exogenität der Prädiktoren

Die Prädiktoren \(X\) sind unabhängig vom Fehlerterm der Regressionsgleichung \(e\): \(E(e|X)=0\). Das impliziert z.B. perfekte Reliabilität und das alle relevanten Variablen im Modell aufgenommen sind, das heißt, dass es keine konfundierenden Variablen gibt. Das ist ein zentrales Anliegen in der Wissenschaft, jedoch ist Exogenität nicht leicht nachzuweisen.

Für unser Beispiel der Regression von ‘Zufriedenheit mit Studieninhalten’ und ‘Zufriedenheit mit Studienbedingungen’ auf ‘Lebenszufriedenheit’ müsste man überlegen, ob noch andere Variablen einen Einfluss haben könnten. Beispielsweise könnten auch verschiedene Persönlichkeitsfaktoren mit ‘Lebenszufriedenheit’ zusammenhängen. Das würde sich dann darin äußern, dass die Prädiktoren noch systematische Varianz mit dem Fehlerterm teilen.

Wenn nicht alle relevanten Prädiktoren im Modell spezifiziert sind oder enthaltene Prädiktoren messfehlerbehaftet sind, können daraus verzerrte Regressionskoeffizienten und Standardfehler resultieren.

Überprüfung

Vor der Erhebung muss man sich sorgfältig Gedanken darüber machen, welche Prädiktoren relevant sind. Diese müssen vollständig in das Modell integriert werden. Beispielsweise sollte man eine Literaturrecherche durchführen, um sich über den derzeitigen Stand der Forschung in einem Themenbereich zu informieren.

Zur Überprüfung der Exogenität könnte man außerdem eine hierarchische Regression durchführen, in der man schrittweise weitere Variablen aufnimmt. Wenn sich die Regressionsgewichte bei Aufnahme eines neuen Prädiktors ändern, war die Exogenitätsannahme der ursprünglichen Prädiktoren wahrscheinlich nicht erfüllt. Solche Modellvergleiche helfen bei der Beurteilung der Exogenität.

Man sollte sich zusätzlich theoretisch überlegen, ob die gemessenen Prädiktoren messfehlerbehaftet sein könnten. Direkt beobachtbare Variablen wie z.B. Alter, höchster Bildungsabschluss oder Körpergröße stehen weniger im Verdacht, messfehlerbehaftet zu sein. Nicht direkt beobachtbare Variablen hingegen wie z.B. Berufserfolg, Kreativität oder Wohlbefinden, können mit größerer Wahrscheinlichkeit messfehlerbehaftet sein.

Man sollte sich für die reliabelsten Erhebungsinstrumente für die Messung der Prädiktoren entscheiden. Wenn man nicht an der Erhebung der Variablen beteiligt war, sollte man sich nachträglich über die Reliabilität der Erhebungsinstrumente informieren.

In unserem Fall des erstis-Datensatz gibt es leider keine weiteren Informationen zu den Erhebungsinstrumenten. So können wir leider nicht einschätzen, wie reliabel die Erhebungsinstrumente sind.

Die Reliabilität erhobener Variablen kann man auf verschiedene Arten schätzen. Diese werden in Abhängigkeit des Forschungsdesign und der Fragestellung ausgewählt.

Die Reliabilität der Messungen in unserem Beispiel könnte man beispielsweise mit McDonald’s Omega bzw. dem gewichteten Omega berechnen.

Umgang

Wenn die Prädiktoren stark messfehlerbehaftet sind, sollte man auf Regressionsmodelle mit latenten Variablen zurückgreifen. Beispielsweise kann man Messfehler mittels Strukturgleichungsmodellierung berücksichtigen.


3. Homoskedastizität

Homoskedastizität wird auch Varianzhomogenität genannt. Die Varianz der Residuen \(s^2_{e}\) an einer bestimmten Stelle des Prädiktors ist für alle Prädiktorwerte gleich. Diese Varianz entspricht dem quadrierten Standardschätzfehler \(\sigma_e^2\) in der Population.

Die Annahme wäre eispielsweise verletzt, wenn mit steigenden Prädiktorwerten die Residuen größer, d.h. die Vorhersage mittels der Regressionsgerade ungenauer, werden würde.

Es kann vielfältige Gründe für Varianzheterogenität geben. So können z.B. stark abweichende Werte (siehe Abschnitt 5.3 Extreme Werte und einflussreiche Datenpunkte) dafür verantwortlich sein.

Nur unter Gültigkeit der Annahme ist die Berechnung der Standardfehler korrekt, aber Heteroskedastizität führt nicht zu verzerrten Regressionkoeffizienten.

Andere als die vorgestellten Möglichkeiten zur Überprüfung und zum Umgang mit Heteroskedastizität inklusive der Umsetzung in R findet ihr z.B. auf R-bloggers.

Überprüfung

Residualplot

Zur Überprüfung der Homoskedastizität kann man ebenfalls einen Residualplot, wie schon bei der Überprüfung der Annahme der Linearität, verwenden.


plot(lm_lz, which = 1) 
# erster Plot der plot()-Funktion für ein lm-Objekt ist der Residualplot
abline(v = 22, col = "blue") # zur Illustration für unser Beispiel