1. Bestimmung der Regressionsgleichung

Bei einer zufällig ausgewählten Gruppe von Besuchern der Langen Nacht der Wissenschaften wurden von jeder Person Körpergröße in m (x) und Gewicht in kg (y) erfasst. Dabei wurden die folgenden Kennwerte ermittelt:
\(\bar{x} = 1.70\), \(s_x = 0.10\)
\(\bar{y} = 73\), \(s_y=15\)

Die Korrelation zwischen den beiden Merkmalen beträgt \(r_{xy} = .80\).

(a) Wie lautet die unstandardisierte Regressionsgleichung zur Vorhersage des Körpergewichts durch die Körpergröße?


Lösung

Die unstandardisierte Regressionsgleichung lautet
\(\hat{y} = a + b \cdot x\)
Um den erwarteten Kriteriumswert \(\hat{y}\) für einen beliebigen Prädiktorwert x vorhersagen zu können, müssen wir also die Regressionskoeffizienten a und b bestimmen:

  • Berechnung der Steigung b:
    \(\begin{aligned} b &= r \cdot \frac {s_y} {s_x} \\ &= 0{.}80 \cdot \frac {15} {0{.}1} \\ &= 120\\ \end{aligned}\)

  • Berechnung des Achsenabschnittsparameters a:
    \(\begin{aligned} a &= \bar{y} - b \cdot \bar {x} \\ &= 73 - 120 \cdot 1{.}7 \\ &= -131\\ \end{aligned}\)

Die unstandardisierte Regressionsgleichung zur Vorhersage des Körpergewichts durch die Körpergröße lautet somit: \[\underline{\underline {\hat{y} = -131 + 120 \cdot x}}\]


(b) Mit welchem Körpergewicht ist bei einer Person zu rechnen, die eine Körpergröße von \(x = 1.78\) aufweist?


Lösung

Die Regressionsgleichung, die wir in a) aufgestellt haben, erlaubt es uns, den erwarteten Kriteriumswert \(\hat{y}\) eines beliebigen Prädiktorwerts x vorherzusagen. Wir müssen also nur den interessierenden Kriteriumswert in die Gleichung einfügen:

\(\begin{aligned} \hat{y} &= -131 + 120 \cdot x \\ &= -131 + 120 \cdot 1{.}78 \\ &= \underline{\underline {82{.}6}}\\ \end{aligned}\)

Bei einer Person, die eine Körpergröße von \(x = 1.78\) aufweist, ist mit einem Körpergewicht von 82.6 kg zu rechnen.


(c) Um wie viel Kilogramm unterscheiden sich zwei Personen voraussichtlich, wenn sie sich um 10 cm in ihrer Körpergröße unterscheiden?


Lösung

Zu dieser Frage gibt es unterschiedliche Lösungsansätze:

  1. Zunächst können wir zwei beliebige x Werte in die Regressionsgleichung einsetzen, die sich um 10 cm unterscheiden. Exemplarisch verwenden wir \(x_1 = 1{.78}\) und \(x_2 = 1{.}88\):
    \(\hat{y_1}= -131 + 120 \cdot x = -131 + 120 \cdot 1{.}78 = 82{.}6\)
    \(\hat{y_2}= -131 + 120 \cdot x = -131 + 120 \cdot 1{.}88 = 94{.}6\)
    Wenn wir die Differenz der beiden erwarteten Kriteriumswerte berechnen, erhalten wir den Wert, mit dem sich zwei Personen in ihrem Gewicht voraussichtlich unterscheiden, die einen Größenunterschied von 10 cm aufweisen:
    \(|\hat{y_1} - \hat{y_2}| = |82{.}6 - 94{.}6| = \underline{\underline{12}}\)

  2. Lösungsweg: Wir wissen, dass die Steigung b die erwartete Änderung des Kriteriums y angibt, wenn sich der Prädiktor x um eine Einheit erhöht.
    Da die Steigung in unserem Beispiel \(b = 120\) beträgt, wissen wir, dass der Gewichtsunterschied von zwei Personen, die sich in ihrer Körpergröße um 1 Meter unterscheiden, voraussichtlich 120 kg beträgt.
    Nun suchen wir aber den Gewichtsunterschied von zwei Personen, die sich nicht um einen ganzen Meter sondern nur um 10 cm, also 0.1 Meter unterscheiden.
    Weil es sich hierbei um \(\frac {1} {10}\) eines Meters handelt, teilen wir den Gewichtsunterschied bei einem Größenunterschied von 1 m (die Steigung) durch 10, um unser Ergebnis zu erhalten:
    \(120 \div 10 = \underline{\underline {12}}\)

Beide Lösungswege sind gültig. Wir kommen in beiden Fällen zu der Lösung, dass sich zwei Personen um voraussichtlich 12 kg in ihrem Gewicht unterscheiden, wenn sie einen Größenunterschied von 10 cm aufweisen.


2. Interpretation der Regressionskoeffizienten

Ein Psychologe berechnet aufgrund einer Stichprobe von \(n = 9\) Personen für den Zusammenhang zwischen Arbeitsleistung y mit dem Neurotizismuswert x folgende Regressionsgleichung: \(\hat{y} = 350 - 3 \cdot x\)

Wie interpretieren wir…

(a) Das unstandardisierte Regressionsgewicht b?


Lösung

Das unstandardisierte Regressionsgewicht b entspricht der voraussichtlichen Differenz zweier Personen im Kriterium y, die sich hinsichtlich des Prädiktors x um eine Einheit unterscheiden.
In dieser Aufgabe beträgt die unstandardisierte Steigung -3. Unterscheiden sich zwei Personen in ihrem Neurotizismuswert um eine Einheit, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Arbeitsleistung um -3 Einheiten.


(b) Den unstandardisierten y-Achsenabschnitt a?


Lösung

Der unstandardisierte Achsenabschnittsparameter a entspricht dem erwarteten Kriteriumswert \(\hat{y}\) an der Stelle \(x=0\).
Da a hier 350 beträgt, bedeutet dies, dass eine Person mit einem Neurotizismuswert von 0 voraussichtlich einen Wert von 350 in ihrer Arbeitsleistung aufweist.



Jetzt standardisieren wir die Gleichung \(\hat{y} = 350 - 3 \cdot x\), um die Abhängigkeit der Steigung von den Messeinheiten zu beseitigen: \(s_x = 2.75\), \(s_y = 17.8\)

Wie interpretieren wir…

(c) Die standardisierte Steigung B (das Beta-Gewicht)?


Lösung

Standardisierung von b zu B (dem Beta Gewicht):
\(\begin{aligned} B &= b \cdot \frac {s_x} {s_y} \\ &= -3 \cdot \frac {2{.}75} {17.8} \\ &\approx - 0{.}463\\ \end{aligned}\)

Durch die Standardisierung ist die Steigung B nun unabhängig von den Messeinheiten.
Wir können 2 Interpretationen von ihr ableiten:

  1. Sie gibt nun die erwartete Differenz zwischen zwei Personen im z-stanardisierten Kriterium an, die sich in ihren Prädiktorwerten um 1 Standardabweichung unterscheiden.
    In unserem Fall bedeutet dies: Wenn der sich zwei Personen in ihren Neurotizismuswerten um 1 Standardabweichung (SD) unterscheiden, beträgt die Differenz ihrer Arbeitsleistungen rund 0.463 Standardabweichungen.

  2. Zudem entspricht in der einfachen linearen Regression das Beta Gewicht der Korrelation zwischen Prädiktor und Kriterium:
    \(B = r_{xy}\)
    (Bei multiplen linearen Regressionen, die im späteren Verlauf des Semesters besprochen werden, gilt dies nicht.)


(d) Den standardisierten y-Achsenabschnitt A?


Lösung

A ist in der Regression z-standardisierter Variablen immer 0.

Dies lässt sich folgendermaßen erklären:
Die Formel zur Berechnung des unstandardisierten y-Achsenabschnitts a lautet:
\(a = \bar{y} - b \cdot \bar {x}\)

Standardisieren wir diese Formel ergibt sich:
\(A = \bar{z_y} - B \cdot \bar {z_x}\)

Wie wir bereits aus der Methodenlehre I Vorlesung zu Standardnormalverteilungen wissen, sind diese so standardisiert, dass ihr Mittel- bzw. Erwartungswert immer 0 beträgt. Dies gilt natürlich auch bei \(\bar{z_y}\) und \(\bar{z_x}\). Setzen wir dies in die Formel zur Berechnung von A ein, wird klar, dass A in der Regression z-standardisierter Variablen immer 0 sein muss:
\(A = \bar{z_y} - B \cdot \bar {z_x} = 0 - B \cdot 0= 0\)



Zusätzliche Erkärung: Warum standardisieren wir eine Regressionsgleichung?

Die Interpretation der unstandardisierten Regressionskoeffizienten (insbesondere der Steigung b) ist immer stark von den Einheiten des jeweiligen Kontextes abhängig.

Das lässt sich am Beispiel der Aufgabe zur “Bestimmung der Regressionsgleichung” (s.o.) gut erklären:

Das Kriterium Gewicht wurde hier in kg und der Prädiktor Körpergröße in m angegeben. Die unstandardisierte Steigung b betrug 120, was bedeutet, dass Personen mit einem Größenunterschied von 1 Meter sich in ihrem Gewicht voraussichtlich um 120 kg unterscheiden.
Hätten wir aber das Gewicht in Gramm statt in Kilogramm angegeben, würde unser b 120.000 betragen: Zwei Personen mit einem Größenunterschied von 1 Meter unterscheiden sich in ihrem Gewicht dann voraussichtlich um 120 kg = 120.000 Gramm.

Diese beiden Steigungen sagen dasselbe aus, aber durch die Änderung der Messeinheit unterscheiden sie sich drastisch.
Dies erschwert die Vergleichbarkeit von Studien, die unterschiedliche Messeinheiten verwenden.

Die Regressionskoeffizienten also häufig z-standardisiert, um ihre Abhängigkeit von den Messeinheiten zu beseitigen.

In der einfachen linearen Regressionen hat die Standardisierung der Steigung zudem den Vorteil, dass B und \(r_{xy}\) identisch sind.


3. Determinationskoeffizient

In einer zweiten Studie berechnet ein weiterer Psychologe für den Zusammenhang zwischen Arbeitsleistung y mit dem Neurotizismuswert x folgende standardisierte Regressionsgleichung: \(\hat{z_y } = -.46 \cdot z_x\).

(a) Wie groß ist der Determinationskoeffizient \(R^2\)?


Lösung

Für die einfache lineare Regression gilt:

\(R^2 = r^2_{xy}\)

Die Korrelation können wir der gegebenen standardisierten Regressionsgleichung entnehmen, da bei einer einfachen linearen Regression das Beta Gewicht B der Korrelation zwischen Prädiktor und Kriterium entspricht (Vgl. Aufg. 2c).

\(B = r_{xy} = -0{.}46\)

\(R^2 = r^2_{xy} = (-0{.}46)^2 \approx \underline{\underline{0{.}212}}\)


(b) Wie interpretieren wir ihn?


Lösung

Aus dem Determinationskoeffizienten \(R^2\) können wir folgende Informationen gewinnen:

  1. Zunächst ist \(R^2\) ein normierter Indikator dafür, wie weit die Beobachtungen von der Regressionsgeraden entfernt liegen. \(R^2\) kann Werte von 0 bis 1 annehmen, wobei er sich mit zunehmender Größe der Residuen verringert.
    Im Falle eines perfekten linearen Zusammenhangs, bei welchem alle Beobachtungen auf der Regressionsgeraden liegen, sind die Residuen gleich 0 und der Determinationskoeffizient nimmt den Wert 1 an.
    Je höher der Determinationskoeffizient, desto geringer die Abweichungen der Beobachtungen von der Regressionsgeraden.

  2. Zudem gibt \(R^2\) den Anteil der gemeinsamen Varianz von x und y an: Der Determinationskoeffizient beschreibt folglich den prozentualen Anteil der Variation im Kriterium, den der Prädiktor x aufklärt.

Achtung: diese Interpretation von \(R^2\) ist nur bei einer einfachen linearen Regression gültig.

Im Kontext unserer Aufgabe interpretieren wir somit, dass durch Neurotizismus ca. 21% der Variation in Arbeitsleistung erklärt wird.



4. Statistische Inferenz der einfachen linearen Regression

Ein Psychologe fand in einer Stichprobe von \(n = 9\) Personen für den Zusammenhang zwischen Arbeitsleistung y mit Neurotizismus x folgende Regressionsgleichung: \[\hat{y} = 350 - 3 \cdot x\]   Der Standardschätzfehler \(s_e\) beträgt 16.9, die Varianz des Prädiktors \(s^2_x\) liegt bei 7.5.

Teste die Nullhypothese, dass kein linearer Zusammenhang zwischen Arbeitsleistung und Neurotizismus besteht gegen eine ungerichtete Alternativhypothese (\(\alpha = .05\)).  Fülle die nachfolgenden Lücken aus:

\(H_0\):_______________________
\(H_1\):_________________________
Prüfgröße:__________________________
Standardfehler der Steigung \(s_b\):________________________________
kritischer Wert:________________________
Konfidenzintervall für die Steigung \(\beta\):___________________________
Testentscheidung: Die \(H_0\) wird___________________________________
möglicher Fehler nach erfolgter Testentscheidung:_________________________________


Lösung

\(H_0\): \(\underline {\beta = 0}\)
\(H_1\): \(\underline {\beta \neq 0}\)
Prüfgröße: \(\underline {t_{emp} = - 1{.}375}\)
Standardfehler der Steigung \(s_b\): \(\underline {s_{b} \approx 2{.}182}\)
kritischer Wert: \(\underline {t_{7;97{.}5 \%} = \pm 2{.}365}\)
Konfidenzintervall für die Steigung \(\beta\): \(\underline {[-8{.}16, 2{.}16]}\)
Testentscheidung: Die \(H_0\) wird \(\underline {beibehalten}\)
möglicher Fehler nach erfolgter Testentscheidung:\(\underline {\beta-Fehler}\)

Erklärung:

Alle für die Lösung der Aufgabenstellung relevanten Formeln findet ihr in der Formelsammlung.

  • Formulierung von \(H_0\) und \(H_1\):
    Die Nullhypothese geht davon aus, dass kein linearer Zusammenhang zwischen Arbeitsleistung und Neurotizismus besteht. Sollte dies der Fall sein, ist die Regressionssteigung in der Population \(\beta\) gleich 0.
    Unsere ungerichtete Alternativhypothese spezifiziert somit erschöpfend, dass die Populationssteigung \(\beta\) von 0 abweicht (entweder ins Positive oder ins Negative).
    Wir operationalisieren unsere Hypothesen also folgendermaßen:
    \(H_0\) : \(\beta = 0\)
    \(H_1\) : \(\beta \neq 0\)

  • Berechnung der Prüfgröße:
    Die Formel zur Berechnung der Prüfgröße t lautet:
    \(t_{emp} = \frac {b} {s_b}\).
    Im Nenner der Formel befindet sich der Standardfehler \(s_b\). Er dient als Maß für die Unsicherheit, mit der ß durch b geschätzt wird. In dieser Aufgabenstellung ist der Standardfehler nicht gegeben. Wir müssen ihn also zunächst berechnen:
    \(s_b = \frac {s_e} {\sqrt {QS_x}}\)
    Auch hier fehlt uns ein Wert (die Quadratsumme des Prädiktors \(QS_x\)), den wir zunächst ermitteln müssen:
    \(\begin{aligned} QS_x =& (n-1) \cdot s^2_x \\ =& QS_x = (9-1) \cdot 7{.}5 \\ =& QS_x = 60 \\ \end{aligned}\)
    Wir können nun auch den Standardschätzfehler berechnen…
    \(\begin{aligned} s_b =& \frac {s_e} {\sqrt {QS_x}} \\ =&\frac {16.9} {\sqrt {60}} \\ \approx& 2.182 \\ \end{aligned}\)
    …und folglich unsere Prüfgröße:
    \(\begin{aligned} t_{emp} =& \frac {b} {s_b} \\ =& \frac {-3} {2.182} \\ \approx& \underline{\underline{-1.375}}\\ \end{aligned}\)

  • Ermittlung des kritischen Werts:
    Um den kritischen Wert in der t-Wertetabelle abzulesen, berechnen wir zuerst die Freiheitsgrade:
    \(df = n – k – 1 = 9 - 1 -1 = 7\).
    Da wir zweiseitig mit einem Alpha-Niveau von \(\alpha = 5 \%\) testen, lesen wir den entsprechenden t-Wert des 97.5% Perzentils ab:
    \(t_{7;97{.}5\%} = \pm \underline{\underline{2{.}365}}\)

  • Testentscheidung:
    Vergleich von kritischem und empririschem t-Wert:
    \(|t_{emp}| < |t_{krit}\)| \(|-1.378| < |\pm 2{.}365|\) \(\rightarrow\) Beibehaltung der \(H_0\)

  • Berechnung des Konfidenzintervalls um ß:
    Die Formel zur Berechnung des Konfidenzintervalls um die Populationssteigung \(\beta\) lautet: \(b_j \pm t_{df;1-\frac {\alpha} {2}} \cdot s_b\)
    Berechnung der oberen Grenze:
    \(-3 + 2{.}365 \cdot 2.182 \approx 2{.}16\)
    Berechnung der unteren Grenze:
    \(-3 - 2{.}365 \cdot 2.182 \approx -8{.}16\)
    Folglich ergibt sich folgendes Konfidenzintervall um die Steigung \(\beta\):
    \(\underline{\underline{[-8{.}16, 2{.}16]}}\)