Bei einer linearen Einfachregression von \(y\) auf \(x\) werden die Regressionsgewichte \(a\) und \(b\) mit der KQ-Methode berechnet. Es ergibt sich ein Determinationskoeffizient in Höhe von Eins (\(R^2=1\)).
Welche der folgenden Aussagen treffen zu und welche sind inkorrekt?
1. Alle Wertepaare \((x_i,y_i)\) aus der Stichprobe liegen exakt auf einer Geraden.
Richtig.
Da der Regressionskoeffizient gleich 1 ist (\(R^2=1\)), wissen wir, dass die gesamte Variation im Kriterium \(y\) durch den Prädiktor \(x\) vorhergesagt wird. Es liegt ein deterministischer Zusammenhang vor. Alle Wertepaare liegen exakt auf der Regressionsgeraden und die tatsächlich beobachteten \(y\) Werte entsprechenden den vorhergesagten \(\hat{y}\) Werten.
Richtig
Für die einfache lineare Regression gilt, dass der
Determinationskoeffizient und die quadrierte Korrelation zwischen
Prädiktor und Kriterium identisch sind: \(R^2
= r_{xy}^2\).
Folglich ist \(r_{xy} = \pm \sqrt
{R^2}\).
Da der Determinationskoeffizient \(R^2\) gleich 1 ist, können wir mit
Gewissheit sagen, dass \(r_{xy}\) auch
gleich 1 sein muss:
\(\begin{aligned} r_{xy} =& \pm \sqrt
{R^2} \\ =& \pm \sqrt {1} \\ =& \pm 1
\end{aligned}\)
Bei einem deterministischen Zusammenhang ist die Korrelation von Prädiktor und Kriterium also gleich \(\pm\) 1.
Falsch
Die vorliegenden Informationen reichen nicht aus, um eine Aussage
über die unstandardisierte Regressionssteigung \(b\) treffen zu können.
Zwar kennen wir \(r_{xy}\), jedoch
erlaubt dies nur eine Aussage über das Beta-Gewicht \(B\). Da bei der einfachen linearen
Regression gilt, dass \(B = r_{xy}\),
wissen wir, dass das Beta-Gewicht gleich 1 sein muss.
Die Regressionssteigung \(b\) hingegen
ist zwar proportional zur Korrelation \(r_{xy}\), jedoch nicht identisch.
Stattdessen ist sie von den Messeinheiten abhängig.
Richtig
(Dies lässt sich zum einen inhaltlich, zum anderen mathematisch erklären:)
1. Mathematische Erklärung anhand des Prinzips der
Varianzzerlegung:
Die Gesamtvarianz lässt sich aufteilen in den Anteil der
aufgeklärten Variation an der Gesamtvarianz \(\frac {QS_{\hat{y}}} {QS_y}\) (dem
Determinationskoeffizienten) und den Anteil der nicht
aufgeklärten Variation an der Gesamtvarianz \(\frac {QS_e} {QS_y}\):
Addiert ergeben diese beiden Anteile 1 (also 100%).
Da wir wissen, dass \(R^2\), also \(\frac {QS_{\hat{y}}} {QS_y}\) gleich 1 ist,
muss \(\frac {QS_e} {QS_y}\)
gleich 0 sein.
Dies kann nur der Fall sein, wenn der Zähler des Bruchs, also \(QS_e\) ebenfalls 0 ist.
2. Inhaltliche Erklärung:
Inhaltlich bedeutet ein Determinationskoeffizient von \(R^2 = 1\), dass die Variation im Kriterium
\(y\) vollständig vorhergesagt werden
kann. In diesem Fall liegen keine Abweichungen der beobachteten Werte
von der Geraden, also keine Residuen vor. Somit muss die
Fehlerquadratsumme \(QS_e\) null
sein.
Richtig.
Wie auch in (4) können wir uns die Antwort wieder mathematisch und inhaltlich hierleiten:
1. Mathematische Erklärung:
Da wir wissen, dass der Determinationskoeffizient \(\frac {QS_{\hat{y}}} {QS_y}\) gleich 1 ist,
müssen Zähler (die QS der vorhergesagten Werte) und Nenner (die QS der
tatsächlichen Werte) dieses Bruchs identisch sein.
2. Inhaltliche Erklärung:
Da ein Determinationskoeffizient von \(R^2 =
1\) bedeutet, dass die gesamte Varianz des Kriteriums
vorhergesagt werden kann und ein deterministischer Zusammenhang
vorliegt, liegen alle beobachteten Werte exakt auf der
Regressionsgeraden (Vgl. Teilaufgabe 1). Dies bedeutet, dass die
vorhergesagten \(\hat {y}\) und die
tatsächlich beobachteten \(y\)-Werte
für jeden \(x\)- Wert identisch sind.
Folglich sind ihre Quadratsummen \(QS_{\hat{y}}\) und \(QS_y\) gleich groß.
Richtig.
Da der Determinationskoeffizient \(R^2 = 1\) ist, wird sämtliche Varianz im Kriterium vorhergesagt werden. Es besteht ein deterministischer Zusammenhang, was bedeutet, dass alle beobachteten \(y\)- Werte auf der Regressionsgeraden liegen. Sie können folglich ohne Vorhersagefehler (also ohne Abweichung von der Regressionsgeraden) vorhergesagt werden.
Richtig
Da durch \(R^2=1\) sämtliche \(y\)- Werte exakt durch die Regressionsgerade vorhergesagt werden können (also ein deterministischer Zusammenhang vorliegt), wissen wir, dass die beobachteten Werte exakt auf der Regressionsgeraden liegen. Somit sind alle Residuen in der Stichprobe gleich Null.
Richtig
Diese Eigenschaft der Residuen gilt unabhängig von der Größe des Determinationskoeffizienten immer (Vgl. VL Einfache lineare Regression, Folie 29f.).
Richtig
Diese Eigenschaft der Residuen gilt immer und ergibt sich aus der Methode der kleinsten Quadrate.
Falsch
Wir können zwar sagen, dass ein perfekter linearer Zusammenhang zwischen \(x\) und \(y\) besteht, jedoch nicht, welche Richtung dieser annimmt (d.h. ob er perfekt linear positiv oder perfekt linear negativ ist).
Falsch
Der Standardschätzfehler drückt die Streuung der Residuen um die Regressionsgerade (in \(y\)-Richtung) aus.
Falsch
Betrachtet man die Formel von \(s_b\), so lässt sich feststellen, dass diese u.a. abhängig vom Standardschätzfehler \(s_e\) ist:
Bei einer linearen Einfachregression von \(y\) auf \(x\) werden die Regressionsgewichte \(a\) und \(b\) mit der KQ-Methode berechnet. Es ergibt sich ein Determinationskoeffizient in Höhe von Null (\(R^2=0\)).
Welche der folgenden Aussagen treffen zu und welche sind inkorrekt?
1. Die Produkt-Momenten Korrelation zwischen \(x\) und \(y\) ist minus Eins, d.h. \(r_{xy}=-1\)..
Falsch
Da bei der einfachen linearen Regression gilt, dass \(R^2 = r_{xy}^2\) und da wir wissen, dass \(R^2 = 0\) ist, können wir schlussfolgern, dass \(r_{xy}^2 = 0\) und folglich auch \(r_{xy}=0\) sein muss.
Richtig
Wir wissen, dass \(r_{xy} = 0\) ist
(s. Teilaufgabe 2).
Anhand der Formel der Regressionsparameters \(b\) ist zu erkennen, dass dieser u.a. von
\(r_{xy}\) abhängig ist: \[b = r_{xy} \cdot \frac {s_y} {s_x}\]
Da \(r_{xy}\) gleich Null ist, ist die
gesamte Gleichung und somit unsere unstandardisierte Steigung \(b\) gleich Null.
Inhaltlich bedeutet dies folgendes:
Die unstandardisierte Steigung \(b\)
gibt den voraussichtlichen Unterschied von zwei Personen im Kriterium
\(y\) an, die sich in ihrem
Prädiktorwert \(x\) um 1
unterscheiden.
Bei einem Determinationskoeffizienten von \(R^2 = 0\) kann der Prädiktor \(x\) absolut keine Varianz in \(y\) vorhersagen. Wir würden somit auch
keinen Unterschied von zwei Personen im Kriterium, die sich in ihrem
Prädiktorwert um 1 unterscheiden, vorhersagen können. Somit beträgt die
Steigung unserer Regressionsgeraden \(b=0\).
Falsch
Dies lässt sich sowohl mathematisch, als auch inhaltlich erklären:
1. Inhaltliche Erklärung:
Eine Fehlerquadratsumme von \(QS_e =
0\) läge vor, wenn alle beobachteten Wertepaare exakt auf der
Regressionsgeraden lägen, also ein deterministischer Zusammenhang mit
einem Determinationskoeffizienten von \(R^2 =
1\) bestünde.
Hier beträgt der Determinationskoeffizient jedoch \(R^2 = 0\), was bedeutet, dass der Prädiktor
in unserem Modell keine Varianz im Kriterium vorhersagen kann.
Somit entsprechen die beobachteten Werte nicht den von unserer
Regressionsgeraden vorhergesagten \(\hat
{y}\) Werten.
Dies bedeutet, dass Residuen vorliegen und die Fehlerquadratsumme \(QS_e\) größer Null sein muss.
2. Mathematische Erklärung:
Laut dem Prinzip der Varianzzerlegung lässt sich sämtliche Varianz
folgendermaßen aufteilen:
Da der Determinationskoeffizient (\(\frac
{QS_{\hat{y}}} {QS_y}\)) gleich Null ist, muss die nicht
aufgeklärte Varianz, also der Bruch \(\frac
{QS_e} {QS_y}\) gleich 1 sein.
Wäre die Fehlerquadratsumme \(QS_e\)
jedoch gleich 0, könnte der Bruch \(\frac
{QS_e} {QS_y}\) nicht 1 sein.
Somit ist eine Fehlerquadratsumme von \(QS_e\)= 0 in diesem Kontext nicht
möglich.
Richtig
Wie auch Teilaufgabe 4 lässt sich dies anhand des Prinzips der Varianzzerlegung erklären:
Falsch
Der Determinationskoeffizient von \(R^2 = 0\) impliziert, dass keine Variation im Kriterium durch den Prädiktor vorhergesagt und \(x\) und \(y\) nicht miteinander korrelieren. Da wir jedoch anhand der KQ-Methode unsere Regressionsgerade basierend auf den (nicht zusammenhängenden) Wertepaaren aus \(yx\) und \(y\) aufgestellt haben, können wir davon ausgehen, dass die beobachteten \(y\) Werte nicht anhand unserer Regressionsgeraden vorhergesagt werden können.
Falsch
Dies wäre der Fall, wenn \(R^2 = 1\) wäre, also wenn die gesamte Variation der Kriteriumswerte durch den Prädiktor vorhergesagt werden würde. In diesem Fall lägen sämtliche \(y\) Werte auf unserer Regressionsgeraden und es würden keine Abweichungen existieren, d.h. alle Residuen wären gleich Null.
Richtig
Diese Annahme gilt für sämtliche Residuen, unabhängig von der Summe der Residuen. (Erkärung: siehe. Quiz 1, Teilaufgabe 8)
Falsch
Da die Fehlerterme anhand der Residuen in der Stichprobe geschätzt werden, ist davon auszugehen, dass sie hoch mit den Residuen korrelieren.
Richtig
Hier handelt es sich ebenfalls um eine allgemeingültige Annahme bezüglich der Residuen, die aus der Methode der kleinsten Quadrate resultiert. (Erklärung: s. Quiz 1, Teilaufgabe 9a)
Falsch
Ein perfekter negativer Zusammenhang würde bei einer Korrelation von \(r_{xy}= -1\) bestehen.
Falsch
Dies lässt sich anhand der Formeln von \(s_e\) und \(s_y\), verdeutlichen:
\(s_e = \sqrt {s_y^2 \cdot ( 1- r_{xy}^2)
\cdot \frac {(n-1)} {(n-2)}}\)
\(s_y = \sqrt {s_y^2}\)
Wir wissen, dass \(r_{xy}^2 = 0\)
ist (Vgl. Teilaufgabe 2). Setzen wir dies in Formel für \(s_e\) ein, erhalten wir folgendes
Resultat:
\(\begin{aligned} s_e =& \sqrt {s_y^2
\cdot ( 1- r_{xy}^2) \cdot \frac {(n-1)} {(n-2)}} \\ =& \sqrt
{s_y^2 \cdot ( 1- 0) \cdot \frac {(n-1)} {(n-2)}} \\ =& \sqrt
{s_y^2 \cdot 1 \cdot \frac {(n-1)} {(n-2)}} \\ =& \sqrt {s_y^2
\cdot \frac {(n-1)} {(n-2)}} \\ \end{aligned}\)
Vergleichen wir dies mit der Formel für \(s_y\) erkennen wir, dass sie sich hinsichtlich des Faktors \(\frac {(n-1)} {(n-2)}\) unterscheiden:
\(s_e = \sqrt {s_y^2 \cdot \frac {(n-1)}
{(n-2)}}\)
\(s_y = \sqrt {s_y^2}\)
Die beiden Werte können somit nicht identisch sein.
Richtig
Betrachtet man die Formel von \(s_b\), ist zu erkennen, dass \(s_b\) nur dann gleich Null sein kann, wenn
\(s_e\) (der Zähler des Bruchs) gleich
Null ist:
\(s_b = \frac {s_e} {\sqrt
{QS_x}}\)
Falsch
Wenn alle Wertepaare auf einer horizontalen Gerade liegen, dann liegt ein deterministischer Zusammenhang vor. Wir könnten also davon ausgehen, dass \(R^2=1\) ist, da wir eine perfekte Vorhersage über unsere \(y\)-Werte treffen können. Die Schätzgüte unseres Modells ist maximal.