Partielle Korrelation
Ein Persönlichkeitspsychologe interessiert sich für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte für die Stichprobengröße \(n = 64\) sind gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
(a) Wie groß ist der Zusammenhang zwischen Beziehungsdauer und Neurotizismus, wenn die Verträglichkeit herauspartialisiert wird?
Lösungsansatz
Die Formel zur Berechnung von Partialkorrelationen lautet allgemein: \[r_{01\cdot 2} = \frac{r_{01} - r_{02}\cdot r_{12}}{\sqrt{1 - r_{02}^2}\cdot\sqrt{1 - r_{12}^2}}\]
Lösung
Wir wenden die Formel aus der Formelsammlung \(r_{01\cdot 2} = \frac{r_{01} - r_{02}\cdot r_{12}}{\sqrt{1 - r_{02}^2}\cdot\sqrt{1 - r_{12}^2}}\) auf unser Beispiel an und erhalten: \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}}\]
Durch das Einsetzen der gegebenen Korrelationen ergibt sich: \[r_{y2\cdot1} = \frac{-.56 - .65\cdot -.35}{\sqrt{1 - .65^2}\cdot\sqrt{1 - (-.35)^2}} \approx \underline{\underline{- .467}}\] Erklärung:
Wir interessieren uns für den Zusammenhang von Beziehungsdauer und Neurotizismus, bereinigt von dem Einfluss der Verträglichkeit.
- Unter der Voraussetzung, dass Verträglichkeit mit Beziehungsdauer zu \(r_{y1} = .65\) korreliert und mit Neurotizismus zu \(r_{12} = -.35\), wissen wir, dass ein Teil der gemeinsamen Varianz von Beziehungsdauer und Neurotizismus \(r_{y2} = -.56\) durch die jeweiligen Zusammenhänge mit Verträglichkeit erklärt werden kann.

- Diesen Anteil wollen wir “herausrechnen” aus dem Zusammenhang von Beziehungsdauer und Neurotizismus.
Das geschieht mit Hilfe zweier Regressionen:
- Aus der Regression von Beziehungsdauer \(y\) auf Verträglichkeit \(x_{1}\) erhalten wir für \(y = a + b\cdot x_{1} + e\) das Residuum \(e\), welches per Definition unkorreliert mit dem Prädiktor Verträglichkeit ist. Das Residuum \(e\) ist der Teil von der Beziehungsdauer \(y\), der im Vorhersagemodell nicht durch Verträglichkeit \(x_{1}\) vorhergesagt werden kann. Wir bezeichnen dieses Residuum als bezüglich Verträglichkeit bereinigte Variable Beziehungsdauer \(y^*\).
- In der Regression von Neurotizismus \(x_{2}\) auf Verträglichkeit \(x_{1}\) erhalten wir für \(x_{2} = a + b\cdot x_{1} + e_{2}\) das Residuum \(e_{2}\), welches ebenfalls unkorreliert mit dem Prädiktor Verträglichkeit ist. Wir bezeichnen dieses Residuum als bezüglich Verträglichkeit bereinigte Variable Neurotizismus \(x_{2}^*\).
Durch die Residuen dieser Regressionen erhalten wir also die vom Einfluss der Verträglichkeit bereinigten Variablen Beziehungsdauer und Neurotizismus.
Nun müssen wir nur noch die beiden bereinigten Variablen \(y^*\) und \(x_{2}^*\) korrelieren und erhalten so die vom Einfluss der Verträglichkeit bereinigte, partielle Korrelation von Beziehungsdauer und Neurotizismus \(r_{y^*x_{2}^*} = r_{y2\cdot 1}\). 
Unsere Formel \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}}\] erspart uns die Berechnung zweier Regressionen und lässt die Berechnung der Partialkorrelation \(r_{y2\cdot 1}\) allein aufgrund der Korrelationen zwischen allen Variablen zu:
- Im Zähler sehen wir, dass von dem interessierenden Zusammenhang von Beziehungsdauer und Neurotizismus \(r_{y2}\) das Produkt der Korrelationen der beiden interessierenden Variablen mit Verträglichkeit, die wir herauspartialisieren wollen, abgezogen wird. Das ergibt die Kovarianz der bereinigten Variablen \(y^*\) und \(x_{2}^*\).
- Diese Kovarianz teilen wir durch das Produkt \(\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}\). Der Nenner der Formel ist gleich dem Produkt der Standardschätzfehler \(s_{e}\cdot s_{e_{2}} = s_{y^*}\cdot s_{x_{2}^*}\) der oben besprochenen Regressionen.
- Die Kovarianz geteilt durch die Standardabweichungen entspricht der üblichen Berechnung von Korrelationen - in diesem Fall aber zweier bereinigter Variablen.
(b) Ist die vom Einfluss der Verträglichkeit bereinigte Korrelation bedeutsam? Vervollständige nachfolgende Lücken für \(\alpha = .05\)!
\(H_{0}\): _______________
\(H_{1}\): _______________
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Lösungsansatz
- Wir wollen testen, ob sich die Partialkorrelation in der Population von 0 unterscheidet.
- Auch Partialkorrelationen müssen Fisher-Z-transformiert werden, um sie auf Signifikanz zu testen.
- Die Formel für die Prüfgröße lautet: \[z = \sqrt{n - k - 1}\cdot(Z - Z_{0})\]
Lösung
\(\boldsymbol{H_{0}}\): \(\underline{\rho = 0}\)
\(\boldsymbol{H_{1}}\): \(\underline{\rho \neq 0}\)
Prüfgröße: \(\underline{-3.919}\)
kritischer Wert: \(\underline{z_{2,5\%} = -1.96}\)
Testentscheidung: Die \(H_0\) wird \(\underline{verworfen}\)
möglicher Fehler nach erfolgter Testentscheidung: \(\underline{\alpha-Fehler}\)
Erklärung:
- Wir testen gegen die Nullhypothese, dass sich die vom Einfluss der Verträglichkeit bereinigte Partialkorrelation zwischen Neurotizismus und Verträglichkeit in der Population nicht von 0 unterscheidet: \(\underline{\underline{H_{0}: \rho = 0}}\)
- Unsere Alternativhypothese lautet somit: \(\underline{\underline{H_{1}: \rho \neq 0}}\)
- Die Prüfgröße berechnen wir anhand der Formel \(z = \sqrt{n - k - 1}\cdot(Z - Z_{0})\)
- \(k\) ist die Anzahl der beteiligten Variablen, in unserem Fall ist \(k = 3\) (Beziehungsdauer, Verträglichkeit und Neurotizismus).
- Wir müssen unsere Paritalkorrelation Fisher-Z-transformieren: \(Z = \frac{1}{2} ln(\frac{1 + r_{y2\cdot 1}}{1 - r_{y2\cdot 1}}) = \frac{1}{2} ln(\frac{1 + (- .467)}{1 - (- .467)}) \approx -.506\)
- Die unter der Nullhypothese postulierte Partialkorrelation ist 0, somit ist auch \(Z_{0} = 0\)
- Wir setzen ein: \(z = \sqrt{64 - 3 - 1}\cdot(-.506 - 0) = \underline{\underline{-3.919}}\)
- Der kritische Wert lautet \(\underline{\underline{z_{2,5\%} = -1.96}}\)
- \(-3.919 < -1.96\), daher verwerfen wir die Nullhypothese, dass sich die vom Einfluss der Verträglichkeit bereinigte Korrelation von Beziehungsdauer und Neurotizismus nicht von 0 unterscheidet.
- Dabei können wir den \(\boldsymbol{\alpha}-Fehler\) begehen.
Semipartielle Korrelation
Ein Persönlichkeitspsychologe interessiert sich für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
(a) Berechne die semipartiellen Korrelationen \(sr_{1}\) und \(sr_{2}\)!
Lösungsansatz
Die Formel zur Berechnung von Semipartialkorrelationen lautet allgemein: \[sr_{1} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}} = r_{y1 \cdot 2} \sqrt{1 - r_{y2}^2}\]
Lösung
- Die Semipartialkorrelation \(\boldsymbol{sr_{2}}\) beschreibt den Zusammenhang zwischen der vom Einfluss der Verträglichkeit bereinigten Variable Neurotizismus \(x_{2}^*\) und der (unbereinigten) Beziehungsdauer \(y\).
- Mit der Partialkorrelation \(r_{y2 \cdot 1}\) haben wir die vom Einfluss der Verträglichkeit bereinigte Beziehungsdauer \(y^*\) berechnet. Im Gegensatz dazu interessieren wir uns jetzt für die tatsächlich existente Beziehungsdauer in Jahren \(y\) (als sinnvolles Kriterium) und ihren Zusammenhang mit Neurotizismus ohne dessen gemeinsamen Varianzanteil mit Verträglichkeit, d.h. mit \(x_{2}^*\): \(sr_{2} = r_{y(x_{2} \cdot x_{1})} = r_{yx_{2}^*}\)

- Berechnet wird sie durch die Formel: \[sr_{2} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{12}^2}}\]
- (Man muss hier genau aufpassen, wenn man die Formel aus der Formelsammlung anpasst.)
- Wir setzen die gegebenen Korrelationen ein und erhalten: \[sr_{2} = \frac{-.56 - .65 \cdot (-.35)}{\sqrt{1 - (-.35)}} = \underline{\underline{-.355}}\]
- Der Vergleich mit der Formel für die Partialkorrelation hilft uns beim Verständnis: \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}} \enspace vs. \enspace sr_{2} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}}\]
- Im Nenner steht nun nicht mehr das Produkt der Standardschätzfehler beider Regressionen, sondern nur noch der Teil, der sich auf die für die Semipartialkorrelation ausgeführte Regression von Neurotizismus auf Verträglichkeit bezieht.
- Alternativ könnten wir die Formel aus der Formelsammlung \(sr_{1} = r_{y1 \cdot 2} \sqrt{1 - r_{y2}^2}\) anwenden und mittels der in der vorigen Aufgabe ermittelten Partialkorrelation \(r_{y1 \cdot 2}\) berechnen: \(sr_{2} = r_{y2 \cdot 1} \sqrt{1 - r_{y2}^2} = -.467 \sqrt{1 - (-.56)^2} \approx -.387\)
- (hier entsteht offensichtlich ein relativ großer Rundungsfehler)
- Analog verhält es sich für die Semipartialkorrelation \(\boldsymbol{sr_{1}}\):
- Sie beschreibt den Zusammenhang der vom Einfluss des Neurotizismus bereinigten Variable Verträglichkeit \(x^*_{1}\) mit der Beziehungsdauer \(y\) (unbereinigt): \(sr_{1} = r_{y(x_{1} \cdot x_{2})} = r_{yx_{1}^*}\)

- Berechnet wird sie durch die Formel: \[sr_{1} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}}\]
- Wir setzen die gegebenen Korrelationen ein und erhalten: \[sr_{1} = \frac{.65 - (-.56) \cdot (-.35)}{\sqrt{1 - (-.35)}} = \underline{\underline{.485}}\]
Multiple lineare Regression
Der Persönlichkeitspsychologe interessiert sich immer noch für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind (genau wie die Ergebnisse der vorangegangenen Aufgabe) gegeben:
Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
Semipartialkorrelationen: \(sr_{1} = .485, sr_{2} = -.355\)
Er möchte die Beziehungsdauer durch Verträglichkeit und Neurotizismus vorhersagen.
(a) Bestimme die unstandardisierte Regressionsgleichung!
Lösungsansatz
Die Formeln zur Berechnung der Regressionsgewichte in der multiplen linearen Regression lauten allgemein:
\(b_{j} = sr_{j} \cdot \frac{s_{y}}{s^*_{j}}\), wobei \(s^*_{j} = s_{j} \cdot \sqrt{1 - R^2_{j}}\)
\(b_{0} = \bar{y} - b_{1} \cdot \bar{x}_{1} - b_{2} \cdot \bar{x}_{2} - ... - b_{k} \cdot \bar{x}_{k}\)
Lösung
- Um die Beziehungsdauer \(y\) vorherzusagen, stehen uns zwei Prädiktoren, nämlich Verträglichkeit \(x_{1}\) und Neurotizismus \(x_{2}\), zur Verfügung. Wir müssen für jeden Prädiktor einen Slope berechnen.
- \(\boldsymbol{b_{1}}\): Verträglichkeit
- Wir wenden die allgemeine Formel für die Berechnung von \(b_{j} = sr_{j} \cdot \frac{s_{y}}{s^*_{j}}\) mit \(s^*_{j} = s_{j} \cdot \sqrt{1 - R^2_{j}}\) an: \(\boldsymbol{b_{1} = sr_{1} \cdot \frac{s_{y}}{s^*_{1}}}\)
- Zunächst müssen wir die partielle Standardabweichung \(s^*_{1}\), also die Standardabweichung der vom Einfluss des Neurotizismus bereinigten Verträglichkeit berechnen: \(s^*_{1} = s_{1} \sqrt{1 - r^2_{12}} = 3.25 \sqrt{1 - (-.35)^2} = 3.044\)
- Für unseren Fall von zwei Prädiktoren gilt \(R^2_{j} = r_{12}^2\), denn der Anteil an der Varianz des Prädiktors \(x_{1}\) (Verträglichkeit), der durch anderen Prädiktor Neurotizismus \(x_{2}\) erklärt werden kann, entspricht der quadrierten Korrelation \(r_{12}\) der beiden Prädiktoren. (Gleiches gilt natürlich andersherum für die Berechnung von \(s_{2}^*\))
- Somit können wir einsetzen: \[b_{1} = .485 \cdot \frac{5.2}{\frac{3.25}{\sqrt{1 - (-.35)^2}}} \approx \underline{\underline{.828}}\]
- Anmerkung: Im Falle von mehr als zwei Prädiktoren ist die partielle Standardabweichung \(s^*_{j}\) die Standardabweichung der vom Einfluss aller anderen k - 1 Prädiktoren befreiten Variable \(x^*_{j}\). Somit gilt bei \(k > 3\) nicht mehr der Zusammenhang \(R^2_{j} = r_{12}^2\).
- Entsprechend berechnen wir \(\boldsymbol{b_{2}}\): \[b_{2} = sr_{2} \cdot \frac{s_{y}}{s^*_{2}} = -.355 \cdot \frac{5.2}{6.5{\sqrt{1 - (-.35)^2}}} = \underline{\underline{-.303}}\]
- Den unstandardisierten Intercept \(\boldsymbol{b_{0}}\) erhalten wir, indem wir die Formel \(b_{0} = \bar{y} - b_{1} \cdot \bar{x}_{1} - b_{2} \cdot \bar{x}_{2}\) anwenden.
- \(b_{0} = 30 - .828 \cdot 25 -.303 \cdot 10 = \underline{\underline{12,330}}\)
- Hierbei verändert sich also konzeptionell nichts im Vergleich zur einfachen linearen Regression.
- Unsere unstandardisierte Regressionsgleichung lautet somit: \[\boldsymbol{\hat{y} = 12.330 + .828 \cdot x_{1} - .303 \cdot x_{2}}\]
Erklärung:
- Die Formel \(b_{1} = sr_{1} \cdot \frac{s_{y}}{s^*_{1}}\) verhält sich analog zum unstandardisierten Regressionsgewicht in der einfachen linearen Regression \(b_{1} = r_{y1} \cdot \frac{s_{y}}{s_{1}}\)
- Statt der bivariaten Korrelation \(r_{y1}\) verwenden wir allerdings nun die semipartielle Korrelation \(sr_{1} = r_{y(1 \cdot 2)}\) zwischen Beziehungsdauer und Verträglichkeit. Dabei, genau wie im Fall der partiellen Standardabweichung \(s^*_{1}\), wurde Verträglichkeit bereinigt vom Einfluss des anderen Prädiktors (Neurotizismus).
- Diese Veränderung ist notwendig, da ansonsten der Varianzanteil, den die im Modell verwendeten Prädiktoren Verträglichkeit und Neurotizismus mit Beziehungsdauer gemein haben, doppelt in die Vorhersage einfließen und sie somit verzerren würde.

- Ebenfalls möglich wäre die Berechnung via \[b_{1} = \frac{r_{y1} - r_{y2} \cdot r_{12}}{1 - r_{12}^2} \cdot \frac{s_{y}}{s_{1}}\]
- Dabei entspricht der erste Faktor dem standardisierten Regressionsgewicht \(B\) aus der einfachen linearen Regression, das wir durch die Multiplikation mit den Standardabweichungen von \(\boldsymbol{y}\) und \(\boldsymbol{x_{1}}\) in die Einheiten der Variablen “versetzen”.
(b) Wie werden die Regressionsgewichte (allgemein und spezifisch für diese Aufgabe) interpretiert?
Lösungsansatz
Allgemein wird das unstandardisierte partielle Regressionsgewicht \(\boldsymbol{b_{1}}\) interpretiert als voraussichtliche Differenz zweier Personen im Kriterium y, die sich hinsichtlich des Prädiktors \(x_{1}\) um eine Einheit unterscheiden, wohingegen alle anderen Prädiktoren konstant sind.
Der unstandardisierte Intercept \(\boldsymbol{b_{0}}\) wird allgemein als Kriteriumswert \(\hat{y}\) an der Stelle \(x_{1} = x_{2} = ... = x_{k} = 0\) interpretiert.
Lösung
- Allgemein wird das unstandardisierte partielle Regressionsgewicht \(\boldsymbol{b_{1}}\) interpretiert als voraussichtliche Differenz zweier Personen im Kriterium y, die sich hinsichtlich des Prädiktors \(x_{1}\) um eine Einheit unterscheiden, wohingegen alle anderen Prädiktoren konstant sind.
- Bezogen auf unser Beispiel bedeutet das: Unterscheiden sich zwei Personen in ihrer Verträglichkeit um eine Einheit, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um .828 Jahre - unter Konstanthaltung des Neurotizismus.
- Entsprechend interpretieren wir auch das unstandardisierte Regressionsgewicht \(\boldsymbol{b_{2}}\): Unterscheiden sich zwei Personen in ihrem Neurotizismus um eine Einheit, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um -.303 Jahre - unter Konstanthaltung der Verträglichkeit. Für eine Person, deren Neurotizismus um eine Einheit stärker ausgeprägt ist, deren Verträglichkeit sich hingegen nicht unterscheidet, wird durch das lineare Modell also eine um .303 Jahre verringerte Beziehungsdauer vorhergesagt.
- Der unstandardisierte Intercept \(\boldsymbol{b_{0}}\) wird allgemein als Kriteriumswert \(\hat{y}\) an der Stelle \(x_{1} = x_{2} = ... = x_{k} = 0\) interpretiert.
- In unserem Beispiel (wie so oft in psychologischen Anwendungsfällen) hat der y-Achsenabschnitt keine sinnvolle Bedeutung: Für eine Person mit einem Neurotizismuswert wie auch einem Verträglichkeitswert von 0 wird eine Beziehungsdauer von 12.330 Jahren vorhergesagt.
(c) Welche Beziehungsdauer sagt man einer Person mit einem Verträglichkeitswert von 23 und einem Neurotizismuswert von 14 vorher?
Lösung
- Wir setzen die beiden Werte in unsere Regressionsgleichung \(\hat{y} = 12.330 + .828 \cdot x_{1} - .303 \cdot x_{2}\) ein: \[\hat{y} = 12.330 + .828 \cdot 23 - .303 \cdot 14 = \underline{\underline{27.132}}\]
- Es wird durch unser lineares Modell für eine Person mit einem Verträglichkeitswert von 23 und einem Neurotizismuswert von 14 eine Beziehungsdauer von 27.132 Jahren vorhergesagt.
(d) Wie groß sind die standardisierten B-Gewichte und was sagen sie aus?
Lösungsansatz
- Der standardisierte Slope \(B_{j}\) ist allgemein durch \(B_{j} = b_{j} \cdot \frac{s_{j}}{s_{y}}\) gegeben.
- Der Intercept \(B_{0}\) ist in der standardisierten Regressionsgleichung immer 0.
Lösung
- Die standardisierten B-Gewichte berechnen wir mittels der Formel \(B_{j} = b_{j} \cdot \frac{s_{j}}{s_{y}}\):
\(B_{1} = b_{1} \cdot \frac{s_{1}}{s_{y}} = .828 \cdot \frac{3.25}{5.2} \approx \underline{\underline{.518}}\)
\(B_{2} = b_{2} \cdot \frac{s_{2}}{s_{y}} = -.303 \cdot \frac{6.5}{5.2} = \underline{\underline{-.379}}\)
- Alternativ (wenn wir nicht schon die unstandardisierten Regressionskoeffizienten berechnet haben) können wir auch die Formel \(B_{1} = \frac{r_{y1} - r_{y2} \cdot r_{12}}{1 - r^2_{12}}\) bzw. \(B_{2} = \frac{r_{y2} - r_{y1} \cdot r_{12}}{1 - r^2_{12}}\) verwenden.
- Der Intercept \(\boldsymbol{B_{0}}\) ist in der standardisierten Regressionsgleichung immer 0.
- Die z-Standardisierung der Variablen bewirkt die Befreiung von den Einheiten, sodass Variablen direkt miteinander verglichen werden können.
- Für die Interpretation folgt daraus:
- \(\boldsymbol{B_{1}}\): Unterscheiden sich zwei Personen in ihrer Verträglichkeit um eine Standardabweichung, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um .518 Standardabweichungen - unter Konstanthaltung des Neurotizismus.
- \(\boldsymbol{B_{2}}\): Unterscheiden sich zwei Personen in ihrem Neurotizismus um eine Standardabweichung, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um -.379 Standardabweichungen - unter Konstanthaltung der Verträglichkeit.
Determinationskoeffizient
In einer multiplen Regressionsanalyse wird der Einfluss der unabhängigen Variablen A, B, C und D auf die abhängige Variable E untersucht. Die einzelnen unabhängigen Variablen wurden nacheinander in die Regressionsanalyse aufgenommen. In der folgenden Tabelle sind die Werte der zugehörigen Determinationskoeffizienten angegeben:
Prädiktoren im Modell
|
\(R^{2}\)
|
A
|
0.36
|
A, B
|
0.48
|
A, B, C
|
0.64
|
A, B, C, D
|
0.67
|
Es seien alle bivariaten Zusammenhänge zwischen den Variablen positiv. Welche Aussage ist falsch?
- Die bivariate Korrelation zwischen der Variablen \(E\) und der Variablen \(A\) beträgt .36.
- Die multiple Korrelation zwischen der Variablen \(E\) und den Variablen \(A, B\) und \(C\) beträgt 0.8.
- Die Semipartialkorrelation zwischen den Variablen \(E\) und \(C\) beträgt .40.
- Die Variable \(D\) erklärt 3% der Variation in \(E\) unter der Bedingung, dass der Einfluss der Variablen \(A, B\) und \(C\) herauspartialisiert wurde.
Lösung
- Die bivariate Korrelation zwischen der Variablen \(E\) und der Variablen \(A\) beträgt .36.
- Falsch - Wenn \(R^2_{E,A} = .36\), gilt \(R^2_{E,A} = \boldsymbol{r^2_{E,A}}\). Wir berechnen: \(r_{E,A} = \sqrt{R^2_{E,A}} = \sqrt{.36} = \underline{\underline{.6 \neq .36}}\)
- Die durch das Vorhersagemodell (durch den Prädiktor \(A\)) aufgeklärte Varianz an E entspricht der quadrierten bivariaten Korrelation von Prädiktor \(A\) und Kriterium \(E\).
- Die multiple Korrelation zwischen der Variablen \(E\) und den Variablen \(A, B\) und \(C\) beträgt 0.8.
- Richtig - \(r_{E,ABC} = \sqrt{R^2_{E,ABC}} = \sqrt{.64} = \underline{\underline{.8}}\)
- Die Semipartialkorrelation zwischen den Variablen \(E\) und \(C\) beträgt .40.
- Richtig - \(sr_{C \cdot AB} = \sqrt{R^2_{E,ABC} - R^2_{E,AB}} = \sqrt{sr^2_{C \cdot AB}} \rightarrow \sqrt{.64 - .48} = \sqrt{.16} = \underline{\underline{.40}}\)
- \(R^2_{E,ABC} = r^2_{E,A} + sr^2_{B \cdot A} + sr^2_{C \cdot AB}\): Der Determinationskoeffizient ergibt sich aus der Summe der quadrierten bivariaten Korrelation des Prädoktors \(j\) (in unserem Fall \(A\)) mit dem Kriterium \(E\) und den quadrierten bivariaten Semiparitalkorrelationen des Kriteriums mit den anderen Prädiktoren, jeweils bereinigt vom Einfluss der zuvor aufgenommenen Prädiktoren (d.h. bereinigt von \(A\) für die quadrierte Semipartialkorrelation \(sr^2_{B \cdot A}\) und von \(A \enspace und \enspace B\) für die quadrierte Semipartialkorrelation \(sr^2_{C \cdot AB}\)).
- Entsprechend gilt \(R^2_{E,AB} = r^2_{E,A} + sr^2_{B \cdot A}\).
- Wenn wird also die Semipartialkorrelation \(sr_{C \cdot AB}\) berechnen möchten, bilden wir die Differenz zwischen dem Determinationskoeffizienten \(R^2_{E,ABC}\) des Modells, in dem der Prädiktor \(C\) berücksichtigt wurde, und dem Determinationskoeffizienten \(R^2_{E,AB}\) des Modells, in dem der Prädiktor \(C\) nicht berücksichtigt wurde: \(R^2_{E,ABC} - R^2_{E,AB} = sr^2_{C \cdot AB} \rightarrow .64 - .48 = .16\) und erhalten die quadrierte Semipartialkorrelation \(sr^2_{C \cdot AB}\).
- Wir ziehen die Wurzel und erhalten die Semipartialkorrelation \(sr_{C \cdot AB}\): \(sr_{C \cdot AB} = \sqrt{sr^2_{C \cdot AB}} = \sqrt{.16} = \underline{\underline{.40}}\)
- Die Variable \(D\) erklärt 3% der Variation in \(E\) unter der Bedingung, dass der Einfluss der Variablen \(A, B\) und \(C\) herauspartialisiert wurde.
- Richtig - \(R^2_{E,ABCD} - R^2_{E,ABC} = sr^2_{D \cdot ABC} = U_{D} \rightarrow .67 - .64 = \underline{\underline{.03}}\)
- Gemeint ist die Nützlichkeit \(U_{D}\), also die Varianz, die der Prädiktor \(D\) zusätzlich zu allen anderen Prädiktoren im Vorhersagemodell aufklären kann.
- Die Nützlichkeit entspricht also der quadrierten Semipartialkorrelation \(U_{D} = sr_{D \cdot ABC}\).
- Diese erhalten wir, indem wir die Differenz bilden aus dem Determinationskoeffizienten \(R^2_{E,ABCD}\) des Modells, in dem der Prädiktor \(D\) berücksichtigt wurde, und dem Determinationskoeffizienten \(R^2_{E,ABC}\) des Modells, in dem der Prädiktor \(D\) nicht berücksichtigt wurde: \(R^2_{E,ABCD} - R^2_{E,ABC} = sr^2_{D \cdot ABC} \rightarrow U_{D} = sr^2_{D \cdot ABC} = .67 - .64 = \underline{\underline{.03}}\)
- Die Variable \(D\) erklärt 3% der Varianz in \(E\) zusätzlich zu den Variablen \(A, B\) und \(C\), also unter der Bedingung, dass der Einfluss der Variablen \(A, B\) und \(C\) herauspartialisiert wurde.
Signifikanztestung
Die Prädiktoren \(x_{1}, x_{2}, x_{3}, x_{4}\) und \(x_{5}\) werden schrittweise in einer Regressionsanalyse mit n = 206 berücksichtigt; zuerst \(x_{1}, x_{2}, x_{3}\) und \(x_{4}\), dann zusätzlich \(x_{5}\). Folgende Determinationskoeffizienten ergeben sich:
|
|
\(R^{2}\)
|
\(\Delta R^{2}\)
|
Modell I
|
\(x_{1}, x_{2}, x_{3}, x_{4}\)
|
0.701
|
|
Modell II
|
\(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}\)
|
0.708
|
0.007
|
Überprüfe die Nullhypothese, dass die zusätzliche Berücksichtigung von \(x_{5}\) in Modell II nicht zu einer Verbesserung der Vorhersagekraft gegenüber Modell I führt (\(\alpha = .05\)). Fülle die folgenden Lücken aus!
Empirische Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_{0}\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Lösungsansatz
- Wir wollen die Veränderung der Vorhersage durch das Hinzuziehen des Prädiktors \(x_{5}\) auf Bedeutsamkeit testen.
- Die allgemeine Formel für den Signifikanztest des Determinationskoeffizienten lautet
\(F = \frac{\frac{R^{2}}{k}}{\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}}\)
- Welche Anpassung müssen wir im Kontext unserer Aufgabe vornehmen?
Lösung
Empirische Prüfgröße: \(\underline{4.794}\)
kritischer Wert: \(\underline{F_{1;200;95\%} = 3.888}\)
Testentscheidung: Die \(H_{0}\) wird \(\underline{verworfen}\).
möglicher Fehler nach erfolgter Testentscheidung: \(\underline{\alpha-Fehler}\)
- Die empirische Prüfgröße F berechnen wir in diesem Fall via \[\frac{\frac{\Delta R^{2}}{\Delta k}}{\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}}\] - denn wir wollen die Veränderung der aufgeklärten Varianz prüfen.
- Deshalb steht \(\Delta R^{2} = .007\) im Zähler. Auf diese Größe beziehen sich auch die Zählerfreiheitsgrade \(df_{Zähler} = \Delta k = 1\): Es kommt ein Prädiktor hinzu.
- Im Nenner steht dennoch \(\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}\), also der Anteil, der durch das Modell nicht erklärten Varianz \(1 - R^{2}_{y,x_{1}...x_{k}} = 1 - .708\), relativiert an den Fehlerfreiheitsgraden \(df_{Nenner} = n - k - 1 = 206 - 5 - 1\). Die Veränderung der Vorhersagestärke soll auf ihre Bedeutsamkeit getestet, d.h. mit der durch das Modell nicht erklärbaren Varianz verglichen werden (so wie beim “normalen” Signifikanztest für \(R^{2}\)).
- Wir berechnen: \[\frac{\frac{\Delta R^{2}}{\Delta k}}{\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}} = \frac{\frac{.007}{1}}{\frac{1 - .708}{200}} \approx \underline{\underline{4.794}}\]
- Den kritischen F-Wert bestimmen wir mit \(df_{Zähler} = 1\) Zählerfreiheitsgraden und \(df_{Nenner} = 200\) Nennerfreiheitsgraden (wir testen auf einem \(\alpha\)-Niveau von 5%). \(F_{1;200;95\%} = \underline{\underline{3.888}}\)
- Man kann diesen Wert durch unsere Tabelle leider nicht so genau bestimmen. Erinnert euch das Prinzip des Hypothesentestens: Den Falsifikationismus. Im Zweifelsfall sind wir lieber etwas konservativer beim Verwerfen unseres bisherigen Wissens (üblicherweise die Nullhypothese).
- Alternativ können wir beim Üben und später in der Forschungspraxis R verwenden, in diesem Fall durch den Befehl
qf(.95, df1=1, df2=200).
Wir berechnen das 95%-Perzentil der F-Verteilung (qf) für df1=1 Zählerfreiheitsgrade und df2=200 Nennerfreiheitsgrade.
- Da 4.794 > 3.89 verwerfen wir die Nullhypothese, dass die zusätzliche Berücksichtigung von \(x_{5}\) in Modell II nicht zu einer Verbesserung der Vorhersagekraft gegenüber Modell I führt.
- Dabei können wir einen \(\boldsymbol{\alpha}\)-Fehler begehen.