Ein Persönlichkeitspsychologe interessiert sich für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte für die Stichprobengröße \(n = 64\) sind gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
(a) Wie groß ist der Zusammenhang zwischen Beziehungsdauer und Neurotizismus, wenn die Verträglichkeit herauspartialisiert wird?
Die Formel zur Berechnung von Partialkorrelationen lautet allgemein: \[r_{01\cdot 2} = \frac{r_{01} - r_{02}\cdot r_{12}}{\sqrt{1 - r_{02}^2}\cdot\sqrt{1 - r_{12}^2}}\]
Wir wenden die Formel aus der Formelsammlung \(r_{01\cdot 2} = \frac{r_{01} - r_{02}\cdot r_{12}}{\sqrt{1 - r_{02}^2}\cdot\sqrt{1 - r_{12}^2}}\) auf unser Beispiel an und erhalten: \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}}\]
Durch das Einsetzen der gegebenen Korrelationen ergibt sich: \[r_{y2\cdot1} = \frac{-.56 - .65\cdot -.35}{\sqrt{1 - .65^2}\cdot\sqrt{1 - (-.35)^2}} \approx \underline{\underline{- .467}}\] Erklärung:
Wir interessieren uns für den Zusammenhang von Beziehungsdauer und Neurotizismus, bereinigt von dem Einfluss der Verträglichkeit.
Das geschieht mit Hilfe zweier Regressionen:
Durch die Residuen dieser Regressionen erhalten wir also die vom Einfluss der Verträglichkeit bereinigten Variablen Beziehungsdauer und Neurotizismus.
Nun müssen wir nur noch die beiden bereinigten Variablen \(y^*\) und \(x_{2}^*\) korrelieren und erhalten so die vom Einfluss der Verträglichkeit bereinigte, partielle Korrelation von Beziehungsdauer und Neurotizismus \(r_{y^*x_{2}^*} = r_{y2\cdot 1}\).
Unsere Formel \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}}\] erspart uns die Berechnung zweier Regressionen und lässt die Berechnung der Partialkorrelation \(r_{y2\cdot 1}\) allein aufgrund der Korrelationen zwischen allen Variablen zu:
(b) Ist die vom Einfluss der Verträglichkeit bereinigte Korrelation bedeutsam? Vervollständige nachfolgende Lücken für \(\alpha = .05\)!
\(H_{0}\): _______________
\(H_{1}\): _______________
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
\(\boldsymbol{H_{0}}\): \(\underline{\rho = 0}\)
\(\boldsymbol{H_{1}}\): \(\underline{\rho \neq 0}\)
Prüfgröße: \(\underline{-3.919}\)
kritischer Wert: \(\underline{z_{2,5\%} = -1.96}\)
Testentscheidung: Die \(H_0\) wird \(\underline{verworfen}\)
möglicher Fehler nach erfolgter Testentscheidung: \(\underline{\alpha-Fehler}\)
Erklärung:
Ein Persönlichkeitspsychologe interessiert sich für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
(a) Berechne die semipartiellen Korrelationen \(sr_{1}\) und \(sr_{2}\)!
Die Formel zur Berechnung von Semipartialkorrelationen lautet allgemein: \[sr_{1} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}} = r_{y1 \cdot 2} \sqrt{1 - r_{y2}^2}\]
Der Persönlichkeitspsychologe interessiert sich immer noch für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind (genau wie die Ergebnisse der vorangegangenen Aufgabe) gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
Semipartialkorrelationen: \(sr_{1} = .485, sr_{2} = -.355\)
Er möchte die Beziehungsdauer durch Verträglichkeit und Neurotizismus vorhersagen.
(a) Bestimme die unstandardisierte Regressionsgleichung!
Die Formeln zur Berechnung der Regressionsgewichte in der multiplen linearen Regression lauten allgemein:
\(b_{j} = sr_{j} \cdot \frac{s_{y}}{s^*_{j}}\), wobei \(s^*_{j} = s_{j} \cdot \sqrt{1 - R^2_{j}}\)
\(b_{0} = \bar{y} - b_{1} \cdot \bar{x}_{1} - b_{2} \cdot \bar{x}_{2} - ... - b_{k} \cdot \bar{x}_{k}\)
Erklärung:
(b) Wie werden die Regressionsgewichte (allgemein und spezifisch für diese Aufgabe) interpretiert?
Allgemein wird das unstandardisierte partielle Regressionsgewicht \(\boldsymbol{b_{1}}\) interpretiert als voraussichtliche Differenz zweier Personen im Kriterium y, die sich hinsichtlich des Prädiktors \(x_{1}\) um eine Einheit unterscheiden, wohingegen alle anderen Prädiktoren konstant sind.
Der unstandardisierte Intercept \(\boldsymbol{b_{0}}\) wird allgemein als Kriteriumswert \(\hat{y}\) an der Stelle \(x_{1} = x_{2} = ... = x_{k} = 0\) interpretiert.
(c) Welche Beziehungsdauer sagt man einer Person mit einem Verträglichkeitswert von 23 und einem Neurotizismuswert von 14 vorher?
(d) Wie groß sind die standardisierten B-Gewichte und was sagen sie aus?
In einer multiplen Regressionsanalyse wird der Einfluss der unabhängigen Variablen A, B, C und D auf die abhängige Variable E untersucht. Die einzelnen unabhängigen Variablen wurden nacheinander in die Regressionsanalyse aufgenommen. In der folgenden Tabelle sind die Werte der zugehörigen Determinationskoeffizienten angegeben:
Prädiktoren im Modell | \(R^{2}\) |
---|---|
A | 0.36 |
A, B | 0.48 |
A, B, C | 0.64 |
A, B, C, D | 0.67 |
Es seien alle bivariaten Zusammenhänge zwischen den Variablen positiv. Welche Aussage ist falsch?
Weiterführung der Aufgabe aus “Multiple lineare Regression”:
Der Persönlichkeitspsychologe interessiert sich immer noch für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind (genau wie die Ergebnisse der vorangegangenen Aufgabe) gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
Semipartialkorrelationen: \(sr_{1} = .485, sr_{2} = -.355\)
Er möchte die Beziehungsdauer durch Verträglichkeit und Neurotizismus vorhersagen.
Der Psychologe erhebt eine Stichprobe mit \(N= 30\) und berechnet den Standardschätzfehler \(s_e = 6.3\), die Quadratsumme der Verträglichkeit \(QS_1 = 97.5\) und die Toleranz dieses Prädiktors \(Tol_1=0.79\).
(a) Teste, ob Verträglichkeit signifikant viel zur Vorhersage der Beziehungsdauer beiträgt (alpha = 5%).
In dieser Aufgabe sollen wir den Steigungskoeffizienten \(b_1\) der Verträglichkeit auf Signifikanz testen. Die statistischen Hypothesen lauten: \(H_0\): \(\beta_1=0\), \(H_1\): \(\beta_1\neq 0\).
Dafür nehmen wir als Erstes den unstandardisierten Steigungskoeffizient \(b_1=.828\) aus Aufgabe (a).
Um die Steigung \(b_1\) auf Signifikanz zu testen, brauchen wir noch den zugehörigen Standardfehler \(s_{b_1}\).
\[s_{b_1}= \frac{s_e}{\sqrt{QS_1\cdot Tol_1}} = \frac{6.3}{\sqrt{97.5\cdot 0.79}} \approx 0.718\]
Jetzt können wir den empirischen \(t\)-Wert berechnen:
\[t = \frac{b_1}{s_{b_1}} = \frac{.828}{.718} \approx 1.153\]
Wir bestimmen den kritischen \(t\)-Wert mit \(df=n-k-1= 30-2-1 = 27\) Freiheitsgraden für \(\alpha=0.05\), zweiseitig: \(t_{27; 97.5\%}=2.052\)
\(t_{27; 97.5\%}=2.052 > 1.153 = t_{emp}\) \(\rightarrow\) Die Verträglichkeit trägt nicht signifikant viel zur Vorhersage der Beziehungsdauer.
(b) Der Persönlichkeitspsychologe möchte das Ergebnis zusammen mit einem 95%-Konfidenzintervall berichten. Berechne das KI!
Wir verwenden die folgende Formel zur Berechnung des KI:
\[b_j \pm t_{df; 1-\frac{\alpha}{2}}\cdot s_{b_j}\]
Alles Notwendige haben wir schon in der Aufgabe davor berechnet:
Wir setzen die Werte ein:
Das 95%-Konfidenzintervall für \(b_1\) beträgt \([-0.645; 2.301]\). Daran, dass das KI die 0 umschließt, sehen wir auch, dass \(b_1\) nicht signifikant verschieden von 0 ist.
(c) Welcher Prädiktor hat eine höhere Nützlichkeit?
Die Nützlichkeit eines Prädiktors ist die quadrierte semipartielle Korrelation (dieses Prädiktors mit dem Kriterium) der höchstmöglichen Ordnung.
Da wir nur 2 Prädiktoren haben, fallen die semipartiellen Korrelationen darunter, die uns in Aufgabe a) vorgegeben sind:
\[sr_1=.485\] \[sr_2=−.355\]
Wenn wir diese quadrieren, sind das die Varianzanteile, die der jeweilige Prädiktor zusätzlich zu dem anderen aufklärt. Wir schauen uns das am Beispiel des Prädiktors Verträglichkeit an:
\[U_1= R^2_{y,12}-R^2_{y,2}\]
\[R^2_{y,12}=r^2_{y2}+ sr^2_{1\cdot 2}\]
\[U_1=R^2_{y,12}-R^2_{y,2}=(r^2_{y2}+ sr^2_{1\cdot 2})- r^2_{y2}= sr^2_{1\cdot 2}=sr^2_1\]
Also, um die Aufgabenstellung zu beantworten, müssen wir die beiden semipartiellen Korrelationen aus a) quadrieren und miteinander vergleichen:
\[sr^2_1=.485^2=0.235\] \[sr^2_2=−.355^2=0.126\]
Das Prädiktor Verträglichkeit (\(x_1\)) hat eine höhere Nützlichkeit und klärt somit einen größeren Varianzanteil von Beziehungsdauer zusätzlich zum Neurotizismus (\(x_2\)) auf als umgekehrt.
Die Prädiktoren \(x_{1}, x_{2}, x_{3}, x_{4}\) und \(x_{5}\) werden schrittweise in einer Regressionsanalyse mit n = 206 berücksichtigt; zuerst \(x_{1}, x_{2}, x_{3}\) und \(x_{4}\), dann zusätzlich \(x_{5}\). Folgende Determinationskoeffizienten ergeben sich:
\(R^{2}\) | \(\Delta R^{2}\) | ||
---|---|---|---|
Modell I | \(x_{1}, x_{2}, x_{3}, x_{4}\) | 0.701 | |
Modell II | \(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}\) | 0.708 | 0.007 |
(a) Teste, ob die Vorhersage des Kriteriums durch das Modell I signifikant ist (\(\alpha = .05\)). Fülle die folgenden Lücken aus!
Hypothesen: _______________
Empirische Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_{0}\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Hypothesen: \(H_0\): \(b_1=b_2=b_3=b_4=0\), \(H_1\): mindestens ein \(b_j\neq 0\)
Empirische Prüfgröße: \(F_{emp}=117.810\)
kritischer Wert: \(F_{krit}=2.417\)
Testentscheidung: Die \(H_{0}\) wird abgelehnt
möglicher Fehler nach erfolgter Testentscheidung: \(\alpha\)-Fehler
\(H_0\): \(b_1=b_2=b_3=b_4=0\), \(H_1\): mindestens ein \(b_j\neq 0\)
\[F = \frac{\frac{R^{2}}{k}}{\frac{1 - R^{2}}{n-k-1}}= \frac{\frac{0.701}{4}}{\frac{1 - 0.701}{206-4-1}} = \frac{\frac{0.701}{4}}{\frac{0.299}{201}} = 117.810\]
\[F_{k, n-k-1; 1-\alpha}= F_{4, 201; 0.95}=2.417\]
Also, klärt das Modell I signifikant viel Varianz des Kriteriums auf.
(b) Überprüfe die Nullhypothese, dass die zusätzliche Berücksichtigung von \(x_{5}\) in Modell II nicht zu einer Verbesserung der Vorhersagekraft gegenüber Modell I führt (\(\alpha = .05\)). Fülle die folgenden Lücken aus!
Empirische Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_{0}\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Achtung: Diese Aufgabe könnt ihr erst mit dem Wissen aus der VL zur Dummykodierung lösen. Wenn ihr also nicht gleich auf die richtige Lösung gekommen seid, ist das kein Problem. Wir wollten euch diese Aufgabe dennoch bereitstellen, da sie sich hier methodisch als Folge von (a) anbietet.
Empirische Prüfgröße: \(\underline{4.794}\)
kritischer Wert: \(\underline{F_{1;200;95\%} = 3.888}\)
Testentscheidung: Die \(H_{0}\) wird \(\underline{verworfen}\).
möglicher Fehler nach erfolgter Testentscheidung: \(\underline{\alpha-Fehler}\)
(a) Benenne die Zusammenhänge, die in folgenden Pfaddiagrammen dargestellt sind.
1) Bivariate Korrelation
2) Collider
3) Partielle Korrelation
4) Semipartielle Korrelation
5) Multiple lineare Regression
6) Partielle Korrelation von 0
partielle Korrelation ist eine Korrelation zwischen den Regressionsresiduen (\(e_0\) und \(e_1\)) von zwei Variablen (\(x_0\) und \(x_1\)). Davor wurde jeweils eine lineare Regression von diesen zwei Variablen auf eine dritte (\(x_2\)) gerechnet. Die Regression wird durch einseitige Pfeile abgebildet, die die Einflussrichtung von \(x_2\) auf die anderen beiden Variablen zeigen.
bivariate Korrelation ist eine Korrelation zwischen zwei Variablen (z.B. \(x_0\) und \(x_2\)) und berücksichtigt keine weiteren Variablen.
Collider ist eine Outcome-Variable, auf die mehrere “Verursacher”-Variablen einwirken (also, die Pfeile nur in eine Richtung zeigen im Gegensatz zur Korrelation). Bei graphischer Betrachtung ergibt sich: Ein Collider ist immer die Variable, bei der sich die Pfeile treffen bzw. “kollidieren”.
Semipartielle Korrelation ist eine Korrelation zwischen einer Variablen (\(y\)) und einem Regressionsresiduum (\(e_1\)). Davor wurde eine Regression von einer Variablen (\(x_1\)) auf eine andere (\(x_2\), korreliert mit \(y\) und \(x_1\)) gerechnet (der Pfeil zwischen \(x_2\) und \(x_1\) zeigt nur in eine Richtung).
Das Pfaddiagramm einer multiplen linearen Regression zeigt eine Variable \(y\), die auf mehrere Variablen (\(x_1\) und \(x_2\)) regrediert wurde (einseitige Pfeile in Richtung von \(y\) zeigen die Richtung des Einflusses) und das Residuum \(e\) als Ergebnis dieser Regression.
(b) Fülle den Lückentext aus!
Das Phänomen, dass manchmal die partielle Korrelation auch größer als die bivariate Korrelation ausfallen kann, heißt _______. Die Vorhersage des Kriteriums im Rahmen einer multiplen linearen Regression wird dadurch verbessert bzw. die ____________ eines anderen Prädiktors wird dadurch erhöht, dass _________, welche in dem anderen Prädiktor enthalten sind, unterdrückt werden.
Es ist bekannt, dass Narzissmus positiv mit antisozialem Verhalten korreliert. Gleichzeitig hat Selbstwertschätzung ebenfalls eine geringe bis mittelhohe positive Korrelation mit antisozialem Verhalten. Wenn man Narzissmus und Selbstwertschätzung gemeinsam als Prädiktoren in die Regressionsgleichung zur Vorhersage von antisozialem Verhalten aufnimmt, werden die Zusammenhänge der Prädiktoren mit dem Kriterium stärker als die einzelnen bivariaten Korrelationen. Dies ist ein Beispiel der __________. Bei dieser Art von _______ ist die Korrelation zwischen den beiden Prädiktoren ___________.
Im Gegensatz zu einem Suppressor bezeichnet ein ______ eine Outcomevariable, also ein potenzielles ________, welche durch zwei oder mehr Variablen „verursacht“ wird. Wenn man so eine Variable statistisch kontrolliert, d.h. eine _________ Korrelation von den „Verursacher“-Variablen, also von potenziellen ________, berechnet, kann dies zu ____________ zwischen Variablen führen.
Das Phänomen, dass manchmal die partielle Korrelation auch größer als die bivariate Korrelation ausfallen kann, heißt Suppression. Die Vorhersage des Kriteriums im Rahmen einer multiplen linearen Regression wird dadurch verbessert bzw. die prädiktive Validität eines anderen Prädiktors wird dadurch erhöht, dass Fehler bzw. Störgrößen, welche in dem anderen Prädiktor enthalten sind, unterdrückt werden.
Es ist bekannt, dass Narzissmus mittelstark positiv mit antisozialem Verhalten korreliert. Gleichzeitig hat Selbstwertschätzung ebenfalls eine geringe bis mittelhohe positive Korrelation mit antisozialem Verhalten. Wenn man Narzissmus und Selbstwertschätzung gemeinsam als Prädiktoren in die Regressionsgleichung zur Vorhersage von antisozialem Verhalten aufnimmt, werden die Zusammenhänge der Prädiktoren mit dem Kriterium stärker als die einzelnen bivariaten Korrelationen. Dies ist ein Beispiel der reziproken Suppression. Bei dieser Art von Suppression ist die Korrelation zwischen den beiden Prädiktoren negativ.
Hier geht es darum, dass durch die Aufnahme der beiden Prädiktoren in das Regressionsmodell die partiellen Steigungen der beiden Prädiktoren größer als ihre bivariaten Korrelationen mit dem Kriterium werden. Damit sind die beiden Prädiktoren Suppressoren!
Für nicht-negative Validitäten (\(r_{y1}, r_{y2} \geq 0\)) [d.h. für nicht-negative bivariate Korrelation der Prädiktoren mit dem Kriterium] liegt reziproke Suppression vor, falls die Korrelation der Prädiktoren negativ ist, d.h. falls \(r_{12} < 0\).
Im Gegensatz zu einem Suppressor bezeichnet ein Collider eine Outcomevariable, also ein potenzielles Kriterium, welche durch zwei oder mehr Variablen „verursacht“ wird. Wenn man so eine Variable statistisch kontrolliert, d.h. eine partielle Korrelation von den „Verursacher“-Variablen, also von potenziellen Prädiktoren, berechnet, kann dies zu Scheinabhängigkeiten zwischen Variablen führen.