Partielle Korrelation

Ein Persönlichkeitspsychologe interessiert sich für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte für die Stichprobengröße \(n = 64\) sind gegeben:

Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)

(a) Wie groß ist der Zusammenhang zwischen Beziehungsdauer und Neurotizismus, wenn die Verträglichkeit herauspartialisiert wird?


Lösungsansatz

Die Formel zur Berechnung von Partialkorrelationen lautet allgemein: \[r_{01\cdot 2} = \frac{r_{01} - r_{02}\cdot r_{12}}{\sqrt{1 - r_{02}^2}\cdot\sqrt{1 - r_{12}^2}}\]



Lösung

  • Wir wenden die Formel aus der Formelsammlung \(r_{01\cdot 2} = \frac{r_{01} - r_{02}\cdot r_{12}}{\sqrt{1 - r_{02}^2}\cdot\sqrt{1 - r_{12}^2}}\) auf unser Beispiel an und erhalten: \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}}\]

  • Durch das Einsetzen der gegebenen Korrelationen ergibt sich: \[r_{y2\cdot1} = \frac{-.56 - .65\cdot -.35}{\sqrt{1 - .65^2}\cdot\sqrt{1 - (-.35)^2}} \approx \underline{\underline{- .467}}\] Erklärung:

  • Wir interessieren uns für den Zusammenhang von Beziehungsdauer und Neurotizismus, bereinigt von dem Einfluss der Verträglichkeit.

    • Unter der Voraussetzung, dass Verträglichkeit mit Beziehungsdauer zu \(r_{y1} = .65\) korreliert und mit Neurotizismus zu \(r_{12} = -.35\), wissen wir, dass ein Teil der gemeinsamen Varianz von Beziehungsdauer und Neurotizismus \(r_{y2} = -.56\) durch die jeweiligen Zusammenhänge mit Verträglichkeit erklärt werden kann.
    • Diesen Anteil wollen wir “herausrechnen” aus dem Zusammenhang von Beziehungsdauer und Neurotizismus.
  • Das geschieht mit Hilfe zweier Regressionen:

    • Aus der Regression von Beziehungsdauer \(y\) auf Verträglichkeit \(x_{1}\) erhalten wir für \(y = a + b\cdot x_{1} + e\) das Residuum \(e\), welches per Definition unkorreliert mit dem Prädiktor Verträglichkeit ist. Das Residuum \(e\) ist der Teil von der Beziehungsdauer \(y\), der im Vorhersagemodell nicht durch Verträglichkeit \(x_{1}\) vorhergesagt werden kann. Wir bezeichnen dieses Residuum als bezüglich Verträglichkeit bereinigte Variable Beziehungsdauer \(y^*\).
    • In der Regression von Neurotizismus \(x_{2}\) auf Verträglichkeit \(x_{1}\) erhalten wir für \(x_{2} = a + b\cdot x_{1} + e_{2}\) das Residuum \(e_{2}\), welches ebenfalls unkorreliert mit dem Prädiktor Verträglichkeit ist. Wir bezeichnen dieses Residuum als bezüglich Verträglichkeit bereinigte Variable Neurotizismus \(x_{2}^*\).
  • Durch die Residuen dieser Regressionen erhalten wir also die vom Einfluss der Verträglichkeit bereinigten Variablen Beziehungsdauer und Neurotizismus.

  • Nun müssen wir nur noch die beiden bereinigten Variablen \(y^*\) und \(x_{2}^*\) korrelieren und erhalten so die vom Einfluss der Verträglichkeit bereinigte, partielle Korrelation von Beziehungsdauer und Neurotizismus \(r_{y^*x_{2}^*} = r_{y2\cdot 1}\).

  • Unsere Formel \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}}\] erspart uns die Berechnung zweier Regressionen und lässt die Berechnung der Partialkorrelation \(r_{y2\cdot 1}\) allein aufgrund der Korrelationen zwischen allen Variablen zu:

    • Im Zähler sehen wir, dass von dem interessierenden Zusammenhang von Beziehungsdauer und Neurotizismus \(r_{y2}\) das Produkt der Korrelationen der beiden interessierenden Variablen mit Verträglichkeit, die wir herauspartialisieren wollen, abgezogen wird. Das ergibt die Kovarianz der bereinigten Variablen \(y^*\) und \(x_{2}^*\).
    • Diese Kovarianz teilen wir durch das Produkt \(\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}\). Der Nenner der Formel ist gleich dem Produkt der Standardschätzfehler \(s_{e}\cdot s_{e_{2}} = s_{y^*}\cdot s_{x_{2}^*}\) der oben besprochenen Regressionen.
    • Die Kovarianz geteilt durch die Standardabweichungen entspricht der üblichen Berechnung von Korrelationen - in diesem Fall aber zweier bereinigter Variablen.


(b) Ist die vom Einfluss der Verträglichkeit bereinigte Korrelation bedeutsam? Vervollständige nachfolgende Lücken für \(\alpha = .05\)!

\(H_{0}\): _______________
\(H_{1}\): _______________
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösungsansatz

  • Wir wollen testen, ob sich die Partialkorrelation in der Population von 0 unterscheidet.
  • Auch Partialkorrelationen müssen Fisher-Z-transformiert werden, um sie auf Signifikanz zu testen.
  • Die Formel für die Prüfgröße lautet: \[z = \sqrt{n - k - 1}\cdot(Z - Z_{0})\]



Lösung

\(\boldsymbol{H_{0}}\): \(\underline{\rho = 0}\)
\(\boldsymbol{H_{1}}\): \(\underline{\rho \neq 0}\)
Prüfgröße: \(\underline{-3.919}\)
kritischer Wert: \(\underline{z_{2,5\%} = -1.96}\)
Testentscheidung: Die \(H_0\) wird \(\underline{verworfen}\)
möglicher Fehler nach erfolgter Testentscheidung: \(\underline{\alpha-Fehler}\)

Erklärung:

  • Wir testen gegen die Nullhypothese, dass sich die vom Einfluss der Verträglichkeit bereinigte Partialkorrelation zwischen Neurotizismus und Verträglichkeit in der Population nicht von 0 unterscheidet: \(\underline{\underline{H_{0}: \rho = 0}}\)
  • Unsere Alternativhypothese lautet somit: \(\underline{\underline{H_{1}: \rho \neq 0}}\)
  • Die Prüfgröße berechnen wir anhand der Formel \(z = \sqrt{n - k - 1}\cdot(Z - Z_{0})\)
    • \(k\) ist die Anzahl der beteiligten Variablen, in unserem Fall ist \(k = 3\) (Beziehungsdauer, Verträglichkeit und Neurotizismus).
    • Wir müssen unsere Partialkorrelation Fisher-Z-transformieren: \(Z = \frac{1}{2} ln(\frac{1 + r_{y2\cdot 1}}{1 - r_{y2\cdot 1}}) = \frac{1}{2} ln(\frac{1 + (- .467)}{1 - (- .467)}) \approx -.506\)
    • Die unter der Nullhypothese postulierte Partialkorrelation ist 0, somit ist auch \(Z_{0} = 0\)
    • Wir setzen ein: \(z = \sqrt{64 - 3 - 1}\cdot(-.506 - 0) = \underline{\underline{-3.919}}\)
  • Der kritische Wert lautet \(\underline{\underline{z_{2,5\%} = -1.96}}\)
  • \(-3.919 < -1.96\), daher verwerfen wir die Nullhypothese, dass sich die vom Einfluss der Verträglichkeit bereinigte Korrelation von Beziehungsdauer und Neurotizismus nicht von 0 unterscheidet.
  • Dabei können wir den \(\boldsymbol{\alpha}-Fehler\) begehen.


Semipartielle Korrelation

Ein Persönlichkeitspsychologe interessiert sich für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind gegeben:

Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)

(a) Berechne die semipartiellen Korrelationen \(sr_{1}\) und \(sr_{2}\)!


Lösungsansatz

Die Formel zur Berechnung von Semipartialkorrelationen lautet allgemein: \[sr_{1} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}} = r_{y1 \cdot 2} \sqrt{1 - r_{y2}^2}\]



Lösung

  • Die Semipartialkorrelation \(\boldsymbol{sr_{2}}\) beschreibt den Zusammenhang zwischen der vom Einfluss der Verträglichkeit bereinigten Variable Neurotizismus \(x_{2}^*\) und der (unbereinigten) Beziehungsdauer \(y\).
    • Mit der Partialkorrelation \(r_{y2 \cdot 1}\) haben wir die vom Einfluss der Verträglichkeit bereinigte Beziehungsdauer \(y^*\) berechnet. Im Gegensatz dazu interessieren wir uns jetzt für die tatsächlich existente Beziehungsdauer in Jahren \(y\) (als sinnvolles Kriterium) und ihren Zusammenhang mit Neurotizismus ohne dessen gemeinsamen Varianzanteil mit Verträglichkeit, d.h. mit \(x_{2}^*\): \(sr_{2} = r_{y(x_{2} \cdot x_{1})} = r_{yx_{2}^*}\)
  • Berechnet wird sie durch die Formel: \[sr_{2} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{12}^2}}\]
    • (Man muss hier genau aufpassen, wenn man die Formel aus der Formelsammlung anpasst.)
    • Wir setzen die gegebenen Korrelationen ein und erhalten: \[sr_{2} = \frac{-.56 - .65 \cdot (-.35)}{\sqrt{1 - (-.35)}} = \underline{\underline{-.355}}\]
  • Der Vergleich mit der Formel für die Partialkorrelation hilft uns beim Verständnis: \[r_{y2\cdot 1} = \frac{r_{y2} - r_{y1}\cdot r_{12}}{\sqrt{1 - r_{y1}^2}\cdot\sqrt{1 - r_{12}^2}} \enspace vs. \enspace sr_{2} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}}\]
    • Im Nenner steht nun nicht mehr das Produkt der Standardschätzfehler beider Regressionen, sondern nur noch der Teil, der sich auf die für die Semipartialkorrelation ausgeführte Regression von Neurotizismus auf Verträglichkeit bezieht.
  • Alternativ könnten wir die Formel aus der Formelsammlung \(sr_{1} = r_{y1 \cdot 2} \sqrt{1 - r_{y2}^2}\) anwenden und mittels der in der vorigen Aufgabe ermittelten Partialkorrelation \(r_{y1 \cdot 2}\) berechnen: \(sr_{2} = r_{y2 \cdot 1} \sqrt{1 - r_{y2}^2} = -.467 \sqrt{1 - (-.56)^2} \approx -.387\)
    • (hier entsteht offensichtlich ein relativ großer Rundungsfehler)
  • Analog verhält es sich für die Semipartialkorrelation \(\boldsymbol{sr_{1}}\):
    • Sie beschreibt den Zusammenhang der vom Einfluss des Neurotizismus bereinigten Variable Verträglichkeit \(x^*_{1}\) mit der Beziehungsdauer \(y\) (unbereinigt): \(sr_{1} = r_{y(x_{1} \cdot x_{2})} = r_{yx_{1}^*}\)
  • Berechnet wird sie durch die Formel: \[sr_{1} = \frac{r_{y1} - r_{y2}\cdot r_{12}}{\sqrt{1 - r_{12}^2}}\]
    • Wir setzen die gegebenen Korrelationen ein und erhalten: \[sr_{1} = \frac{.65 - (-.56) \cdot (-.35)}{\sqrt{1 - (-.35)^2}} = \underline{\underline{.485}}\]


Multiple lineare Regression

Der Persönlichkeitspsychologe interessiert sich immer noch für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind (genau wie die Ergebnisse der vorangegangenen Aufgabe) gegeben:

Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
Semipartialkorrelationen: \(sr_{1} = .485, sr_{2} = -.355\)

Er möchte die Beziehungsdauer durch Verträglichkeit und Neurotizismus vorhersagen.

(a) Bestimme die unstandardisierte Regressionsgleichung!


Lösungsansatz

Die Formeln zur Berechnung der Regressionsgewichte in der multiplen linearen Regression lauten allgemein:
\(b_{j} = sr_{j} \cdot \frac{s_{y}}{s^*_{j}}\), wobei \(s^*_{j} = s_{j} \cdot \sqrt{1 - R^2_{j}}\)
\(b_{0} = \bar{y} - b_{1} \cdot \bar{x}_{1} - b_{2} \cdot \bar{x}_{2} - ... - b_{k} \cdot \bar{x}_{k}\)



Lösung

  • Um die Beziehungsdauer \(y\) vorherzusagen, stehen uns zwei Prädiktoren, nämlich Verträglichkeit \(x_{1}\) und Neurotizismus \(x_{2}\), zur Verfügung. Wir müssen für jeden Prädiktor einen Slope berechnen.
    • \(\boldsymbol{b_{1}}\): Verträglichkeit
      • Wir wenden die allgemeine Formel für die Berechnung von \(b_{j} = sr_{j} \cdot \frac{s_{y}}{s^*_{j}}\) mit \(s^*_{j} = s_{j} \cdot \sqrt{1 - R^2_{j}}\) an: \(\boldsymbol{b_{1} = sr_{1} \cdot \frac{s_{y}}{s^*_{1}}}\)
      • Zunächst müssen wir die partielle Standardabweichung \(s^*_{1}\), also die Standardabweichung der vom Einfluss des Neurotizismus bereinigten Verträglichkeit berechnen: \(s^*_{1} = s_{1} \sqrt{1 - r^2_{12}} = 3.25 \sqrt{1 - (-.35)^2} = 3.044\)
      • Für unseren Fall von zwei Prädiktoren gilt \(R^2_{j} = r_{12}^2\), denn der Anteil an der Varianz des Prädiktors \(x_{1}\) (Verträglichkeit), der durch anderen Prädiktor Neurotizismus \(x_{2}\) erklärt werden kann, entspricht der quadrierten Korrelation \(r_{12}\) der beiden Prädiktoren. (Gleiches gilt natürlich andersherum für die Berechnung von \(s_{2}^*\))
      • Somit können wir einsetzen: \[b_{1} = .485 \cdot \frac{5.2}{3.25 \sqrt{1 - (-.35)^2})} \approx \underline{\underline{.828}}\]
      • Anmerkung: Im Falle von mehr als zwei Prädiktoren ist die partielle Standardabweichung \(s^*_{j}\) die Standardabweichung der vom Einfluss aller anderen k - 1 Prädiktoren befreiten Variable \(x^*_{j}\). Somit gilt bei \(k > 3\) nicht mehr der Zusammenhang \(R^2_{j} = r_{12}^2\).
    • Entsprechend berechnen wir \(\boldsymbol{b_{2}}\): \[b_{2} = sr_{2} \cdot \frac{s_{y}}{s^*_{2}} = -.355 \cdot \frac{5.2}{6.5{\sqrt{1 - (-.35)^2}}} = \underline{\underline{-.303}}\]
  • Den unstandardisierten Intercept \(\boldsymbol{b_{0}}\) erhalten wir, indem wir die Formel \(b_{0} = \bar{y} - b_{1} \cdot \bar{x}_{1} - b_{2} \cdot \bar{x}_{2}\) anwenden.
    • \(b_{0} = 30 - .828 \cdot 25 - (-.303) \cdot 10 = \underline{\underline{12.33}}\)
    • Hierbei verändert sich also konzeptionell nichts im Vergleich zur einfachen linearen Regression.
  • Unsere unstandardisierte Regressionsgleichung lautet somit: \[\boldsymbol{\hat{y} = 12.33 + .828 \cdot x_{1} - .303 \cdot x_{2}}\]

Erklärung:

  • Die Formel \(b_{1} = sr_{1} \cdot \frac{s_{y}}{s^*_{1}}\) verhält sich analog zum unstandardisierten Regressionsgewicht in der einfachen linearen Regression \(b_{1} = r_{y1} \cdot \frac{s_{y}}{s_{1}}\)
    • Statt der bivariaten Korrelation \(r_{y1}\) verwenden wir allerdings nun die semipartielle Korrelation \(sr_{1} = r_{y(1 \cdot 2)}\) zwischen Beziehungsdauer und Verträglichkeit. Dabei, genau wie im Fall der partiellen Standardabweichung \(s^*_{1}\), wurde Verträglichkeit bereinigt vom Einfluss des anderen Prädiktors (Neurotizismus).
    • Diese Veränderung ist notwendig, da ansonsten der Varianzanteil, den die im Modell verwendeten Prädiktoren Verträglichkeit und Neurotizismus mit Beziehungsdauer gemein haben, doppelt in die Vorhersage einfließen und sie somit verzerren würde.
  • Ebenfalls möglich wäre die Berechnung via \[b_{1} = \frac{r_{y1} - r_{y2} \cdot r_{12}}{1 - r_{12}^2} \cdot \frac{s_{y}}{s_{1}}\]
    • Dabei entspricht der erste Faktor dem standardisierten Regressionsgewicht \(B\) aus der einfachen linearen Regression, das wir durch die Multiplikation mit den Standardabweichungen von \(\boldsymbol{y}\) und \(\boldsymbol{x_{1}}\) in die Einheiten der Variablen “versetzen”.


(b) Wie werden die Regressionsgewichte (allgemein und spezifisch für diese Aufgabe) interpretiert?


Lösungsansatz

Allgemein wird das unstandardisierte partielle Regressionsgewicht \(\boldsymbol{b_{1}}\) interpretiert als voraussichtliche Differenz zweier Personen im Kriterium y, die sich hinsichtlich des Prädiktors \(x_{1}\) um eine Einheit unterscheiden, wohingegen alle anderen Prädiktoren konstant sind.
Der unstandardisierte Intercept \(\boldsymbol{b_{0}}\) wird allgemein als Kriteriumswert \(\hat{y}\) an der Stelle \(x_{1} = x_{2} = ... = x_{k} = 0\) interpretiert.



Lösung

  • Allgemein wird das unstandardisierte partielle Regressionsgewicht \(\boldsymbol{b_{1}}\) interpretiert als voraussichtliche Differenz zweier Personen im Kriterium y, die sich hinsichtlich des Prädiktors \(x_{1}\) um eine Einheit unterscheiden, wohingegen alle anderen Prädiktoren konstant sind.
    • Bezogen auf unser Beispiel bedeutet das: Unterscheiden sich zwei Personen in ihrer Verträglichkeit um eine Einheit, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um .828 Jahre - unter Konstanthaltung des Neurotizismus.
    • Entsprechend interpretieren wir auch das unstandardisierte Regressionsgewicht \(\boldsymbol{b_{2}}\): Unterscheiden sich zwei Personen in ihrem Neurotizismus um eine Einheit, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um -.303 Jahre - unter Konstanthaltung der Verträglichkeit. Für eine Person, deren Neurotizismus um eine Einheit stärker ausgeprägt ist, deren Verträglichkeit sich hingegen nicht unterscheidet, wird durch das lineare Modell also eine um .303 Jahre verringerte Beziehungsdauer vorhergesagt.
  • Der unstandardisierte Intercept \(\boldsymbol{b_{0}}\) wird allgemein als Kriteriumswert \(\hat{y}\) an der Stelle \(x_{1} = x_{2} = ... = x_{k} = 0\) interpretiert.
    • In unserem Beispiel (wie so oft in psychologischen Anwendungsfällen) hat der y-Achsenabschnitt keine sinnvolle Bedeutung: Für eine Person mit einem Neurotizismuswert wie auch einem Verträglichkeitswert von 0 wird eine Beziehungsdauer von 12.330 Jahren vorhergesagt.


(c) Welche Beziehungsdauer sagt man einer Person mit einem Verträglichkeitswert von 23 und einem Neurotizismuswert von 14 vorher?


Lösung

  • Wir setzen die beiden Werte in unsere Regressionsgleichung \(\hat{y} = 12.330 + .828 \cdot x_{1} - .303 \cdot x_{2}\) ein: \[\hat{y} = 12.330 + .828 \cdot 23 - .303 \cdot 14 = \underline{\underline{27.132}}\]
  • Es wird durch unser lineares Modell für eine Person mit einem Verträglichkeitswert von 23 und einem Neurotizismuswert von 14 eine Beziehungsdauer von 27.132 Jahren vorhergesagt.


(d) Wie groß sind die standardisierten B-Gewichte und was sagen sie aus?


Lösungsansatz

  • Der standardisierte Slope \(B_{j}\) ist allgemein durch \(B_{j} = b_{j} \cdot \frac{s_{j}}{s_{y}}\) gegeben.
  • Der Intercept \(B_{0}\) ist in der standardisierten Regressionsgleichung immer 0.



Lösung

  • Die standardisierten B-Gewichte berechnen wir mittels der Formel \(B_{j} = b_{j} \cdot \frac{s_{j}}{s_{y}}\):
    \(B_{1} = b_{1} \cdot \frac{s_{1}}{s_{y}} = .828 \cdot \frac{3.25}{5.2} \approx \underline{\underline{.518}}\)
    \(B_{2} = b_{2} \cdot \frac{s_{2}}{s_{y}} = -.303 \cdot \frac{6.5}{5.2} = \underline{\underline{-.379}}\)
    • Alternativ (wenn wir nicht schon die unstandardisierten Regressionskoeffizienten berechnet haben) können wir auch die Formel \(B_{1} = \frac{r_{y1} - r_{y2} \cdot r_{12}}{1 - r^2_{12}}\) bzw. \(B_{2} = \frac{r_{y2} - r_{y1} \cdot r_{12}}{1 - r^2_{12}}\) verwenden.
  • Der Intercept \(\boldsymbol{B_{0}}\) ist in der standardisierten Regressionsgleichung immer 0.
  • Die z-Standardisierung der Variablen bewirkt die Befreiung von den Einheiten, sodass Variablen direkt miteinander verglichen werden können.
  • Für die Interpretation folgt daraus:
    • \(\boldsymbol{B_{1}}\): Unterscheiden sich zwei Personen in ihrer Verträglichkeit um eine Standardabweichung, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um .518 Standardabweichungen - unter Konstanthaltung des Neurotizismus.
    • \(\boldsymbol{B_{2}}\): Unterscheiden sich zwei Personen in ihrem Neurotizismus um eine Standardabweichung, so unterscheiden sich ihre (im Rahmen des linearen Modells) vorhergesagten Werte bzgl. der Beziehungsdauer um -.379 Standardabweichungen - unter Konstanthaltung der Verträglichkeit.


Determinationskoeffizient

In einer multiplen Regressionsanalyse wird der Einfluss der unabhängigen Variablen A, B, C und D auf die abhängige Variable E untersucht. Die einzelnen unabhängigen Variablen wurden nacheinander in die Regressionsanalyse aufgenommen. In der folgenden Tabelle sind die Werte der zugehörigen Determinationskoeffizienten angegeben:

Prädiktoren im Modell \(R^{2}\)
A 0.36
A, B 0.48
A, B, C 0.64
A, B, C, D 0.67

Es seien alle bivariaten Zusammenhänge zwischen den Variablen positiv. Welche Aussage ist falsch?

  1. Die bivariate Korrelation zwischen der Variablen \(E\) und der Variablen \(A\) beträgt .36.
  2. Die multiple Korrelation zwischen der Variablen \(E\) und den Variablen \(A, B\) und \(C\) beträgt 0.8.
  3. Die Semipartialkorrelation zwischen den Variablen \(E\) und \(C\) beträgt .40.
  4. Die Variable \(D\) erklärt 3% der Variation in \(E\) unter der Bedingung, dass der Einfluss der Variablen \(A, B\) und \(C\) herauspartialisiert wurde.

Lösung

  1. Die bivariate Korrelation zwischen der Variablen \(E\) und der Variablen \(A\) beträgt .36.
  • Falsch - Wenn \(R^2_{E,A} = .36\), gilt \(R^2_{E,A} = \boldsymbol{r^2_{E,A}}\). Wir berechnen: \(r_{E,A} = \sqrt{R^2_{E,A}} = \sqrt{.36} = \underline{\underline{.6 \neq .36}}\)
  • Die durch das Vorhersagemodell (durch den Prädiktor \(A\)) aufgeklärte Varianz an E entspricht der quadrierten bivariaten Korrelation von Prädiktor \(A\) und Kriterium \(E\).
  1. Die multiple Korrelation zwischen der Variablen \(E\) und den Variablen \(A, B\) und \(C\) beträgt 0.8.
  • Richtig - \(r_{E,ABC} = \sqrt{R^2_{E,ABC}} = \sqrt{.64} = \underline{\underline{.8}}\)
  1. Die Semipartialkorrelation zwischen den Variablen \(E\) und \(C\) beträgt .40.
  • Richtig - \(sr_{C \cdot AB} = \sqrt{R^2_{E,ABC} - R^2_{E,AB}} = \sqrt{sr^2_{C \cdot AB}} \rightarrow \sqrt{.64 - .48} = \sqrt{.16} = \underline{\underline{.40}}\)
  • \(R^2_{E,ABC} = r^2_{E,A} + sr^2_{B \cdot A} + sr^2_{C \cdot AB}\): Der Determinationskoeffizient ergibt sich aus der Summe der quadrierten bivariaten Korrelation des Prädoktors \(j\) (in unserem Fall \(A\)) mit dem Kriterium \(E\) und den quadrierten bivariaten Semiparitalkorrelationen des Kriteriums mit den anderen Prädiktoren, jeweils bereinigt vom Einfluss der zuvor aufgenommenen Prädiktoren (d.h. bereinigt von \(A\) für die quadrierte Semipartialkorrelation \(sr^2_{B \cdot A}\) und von \(A \enspace und \enspace B\) für die quadrierte Semipartialkorrelation \(sr^2_{C \cdot AB}\)).
  • Entsprechend gilt \(R^2_{E,AB} = r^2_{E,A} + sr^2_{B \cdot A}\).
  • Wenn wird also die Semipartialkorrelation \(sr_{C \cdot AB}\) berechnen möchten, bilden wir die Differenz zwischen dem Determinationskoeffizienten \(R^2_{E,ABC}\) des Modells, in dem der Prädiktor \(C\) berücksichtigt wurde, und dem Determinationskoeffizienten \(R^2_{E,AB}\) des Modells, in dem der Prädiktor \(C\) nicht berücksichtigt wurde: \(R^2_{E,ABC} - R^2_{E,AB} = sr^2_{C \cdot AB} \rightarrow .64 - .48 = .16\) und erhalten die quadrierte Semipartialkorrelation \(sr^2_{C \cdot AB}\).
  • Wir ziehen die Wurzel und erhalten die Semipartialkorrelation \(sr_{C \cdot AB}\): \(sr_{C \cdot AB} = \sqrt{sr^2_{C \cdot AB}} = \sqrt{.16} = \underline{\underline{.40}}\)
  1. Die Variable \(D\) erklärt 3% der Variation in \(E\) unter der Bedingung, dass der Einfluss der Variablen \(A, B\) und \(C\) herauspartialisiert wurde.
  • Richtig - \(R^2_{E,ABCD} - R^2_{E,ABC} = sr^2_{D \cdot ABC} = U_{D} \rightarrow .67 - .64 = \underline{\underline{.03}}\)
  • Gemeint ist die Nützlichkeit \(U_{D}\), also die Varianz, die der Prädiktor \(D\) zusätzlich zu allen anderen Prädiktoren im Vorhersagemodell aufklären kann.
  • Die Nützlichkeit entspricht also der quadrierten Semipartialkorrelation \(U_{D} = sr_{D \cdot ABC}\).
  • Diese erhalten wir, indem wir die Differenz bilden aus dem Determinationskoeffizienten \(R^2_{E,ABCD}\) des Modells, in dem der Prädiktor \(D\) berücksichtigt wurde, und dem Determinationskoeffizienten \(R^2_{E,ABC}\) des Modells, in dem der Prädiktor \(D\) nicht berücksichtigt wurde: \(R^2_{E,ABCD} - R^2_{E,ABC} = sr^2_{D \cdot ABC} \rightarrow U_{D} = sr^2_{D \cdot ABC} = .67 - .64 = \underline{\underline{.03}}\)
  • Die Variable \(D\) erklärt 3% der Varianz in \(E\) zusätzlich zu den Variablen \(A, B\) und \(C\), also unter der Bedingung, dass der Einfluss der Variablen \(A, B\) und \(C\) herauspartialisiert wurde.


Signifikanztestung

Aufgabe 1:

Weiterführung der Aufgabe aus “Multiple lineare Regression”:
Der Persönlichkeitspsychologe interessiert sich immer noch für den Vorhersagezusammenhang von Verträglichkeit (\(x_{1}\)) und Neurotizismus (\(x_{2}\)) auf die Beziehungsdauer (\(y\)) in Jahren. Folgende Werte sind (genau wie die Ergebnisse der vorangegangenen Aufgabe) gegeben:

Mittelwerte: \(\bar{y} = 30, \bar{x}_{1} = 25, \bar{x}_{2} = 10\)
Standardabweichungen: \(s_{y} = 5.2, s_{1} = 3.25, s_{2} = 6.5\)
Korrelationen: \(r_{y1} = .65, r_{y2} = -.56, r_{12} = -.35\)
Semipartialkorrelationen: \(sr_{1} = .485, sr_{2} = -.355\)

Er möchte die Beziehungsdauer durch Verträglichkeit und Neurotizismus vorhersagen.

Der Psychologe erhebt eine Stichprobe mit \(N= 30\) und berechnet den Standardschätzfehler \(s_e = 6.3\), die Quadratsumme der Verträglichkeit \(QS_1 = 97.5\) und die Toleranz dieses Prädiktors \(Tol_1=0.79\).

(a) Teste, ob Verträglichkeit signifikant viel zur Vorhersage der Beziehungsdauer beiträgt (alpha = 5%).


Lösung

In dieser Aufgabe sollen wir den Steigungskoeffizienten \(b_1\) der Verträglichkeit auf Signifikanz testen. Die statistischen Hypothesen lauten: \(H_0\): \(\beta_1=0\), \(H_1\): \(\beta_1\neq 0\).

Dafür nehmen wir als Erstes den unstandardisierten Steigungskoeffizient \(b_1=.828\) aus Aufgabe (a).

Um die Steigung \(b_1\) auf Signifikanz zu testen, brauchen wir noch den zugehörigen Standardfehler \(s_{b_1}\).

  • Den Standardfehler berechnen wir mit Hilfe der folgenden Formel:

\[s_{b_1}= \frac{s_e}{\sqrt{QS_1\cdot Tol_1}} = \frac{6.3}{\sqrt{97.5\cdot 0.79}} \approx 0.718\]

Jetzt können wir den empirischen \(t\)-Wert berechnen:

\[t = \frac{b_1}{s_{b_1}} = \frac{.828}{.718} \approx 1.153\]

Wir bestimmen den kritischen \(t\)-Wert mit \(df=n-k-1= 30-2-1 = 27\) Freiheitsgraden für \(\alpha=0.05\), zweiseitig: \(t_{27; 97.5\%}=2.052\)

\(t_{27; 97.5\%}=2.052 > 1.153 = t_{emp}\) \(\rightarrow\) Die Verträglichkeit trägt nicht signifikant viel zur Vorhersage der Beziehungsdauer.


(b) Der Persönlichkeitspsychologe möchte das Ergebnis zusammen mit einem 95%-Konfidenzintervall berichten. Berechne das KI!


Lösung

Wir verwenden die folgende Formel zur Berechnung des KI:

\[b_j \pm t_{df; 1-\frac{\alpha}{2}}\cdot s_{b_j}\]

Alles Notwendige haben wir schon in der Aufgabe davor berechnet:

  • \(b_1=.828\)
  • \(t_{27; 97.5\%}=2.052\)
  • \(s_{b_1}=0.718\)

Wir setzen die Werte ein:

  • untere Grenze: \(.828 - 2.052\cdot 0.718 =-0.645\)
  • obere Grenze: \(.828 + 2.052\cdot 0.718 = 2.301\)

Das 95%-Konfidenzintervall für \(b_1\) beträgt \([-0.645; 2.301]\). Daran, dass das KI die 0 umschließt, sehen wir auch, dass \(b_1\) nicht signifikant verschieden von 0 ist.


(c) Welcher Prädiktor hat eine höhere Nützlichkeit?


Lösung

Die Nützlichkeit eines Prädiktors ist die quadrierte semipartielle Korrelation (dieses Prädiktors mit dem Kriterium) der höchstmöglichen Ordnung.

Da wir nur 2 Prädiktoren haben, fallen die semipartiellen Korrelationen darunter, die uns in Aufgabe a) vorgegeben sind:

\[sr_1=.485\] \[sr_2=−.355\]

Wenn wir diese quadrieren, sind das die Varianzanteile, die der jeweilige Prädiktor zusätzlich zu dem anderen aufklärt. Wir schauen uns das am Beispiel des Prädiktors Verträglichkeit an:

  • Die Nützlichkeit für Prädiktor \(x_1\) ist der Varianzanteil von \(y\), der durch diesen Prädiktor zusätzlich zu \(x_2\) aufgeklärt wird. Sie wird mit folgender Formel beschrieben:

\[U_1= R^2_{y,12}-R^2_{y,2}\]

  • Gleichzeitig können wir den Determinationskoeffizienten der multiplen linearen Regression folgendermaßen zerlegen:

\[R^2_{y,12}=r^2_{y2}+ sr^2_{1\cdot 2}\]

  • Der Determinationskoeffizient der einfachen linearen Regression \(R^2_{y,2}\) entspricht der quadrierten bivariaten Korrelation \(r^2_{y2}\).
  • Daraus folgt, dass die Nützlichkeit des Prädiktors \(x_1\) in diesem Fall seiner quadrierten semipartiellen Korrelation mit dem Kriterium entspricht:

\[U_1=R^2_{y,12}-R^2_{y,2}=(r^2_{y2}+ sr^2_{1\cdot 2})- r^2_{y2}= sr^2_{1\cdot 2}=sr^2_1\]

Also, um die Aufgabenstellung zu beantworten, müssen wir die beiden semipartiellen Korrelationen aus a) quadrieren und miteinander vergleichen:

\[sr^2_1=.485^2=0.235\] \[sr^2_2=−.355^2=0.126\]

Das Prädiktor Verträglichkeit (\(x_1\)) hat eine höhere Nützlichkeit und klärt somit einen größeren Varianzanteil von Beziehungsdauer zusätzlich zum Neurotizismus (\(x_2\)) auf als umgekehrt.


Aufgabe 2

Die Prädiktoren \(x_{1}, x_{2}, x_{3}, x_{4}\) und \(x_{5}\) werden schrittweise in einer Regressionsanalyse mit n = 206 berücksichtigt; zuerst \(x_{1}, x_{2}, x_{3}\) und \(x_{4}\), dann zusätzlich \(x_{5}\). Folgende Determinationskoeffizienten ergeben sich:

\(R^{2}\) \(\Delta R^{2}\)
Modell I \(x_{1}, x_{2}, x_{3}, x_{4}\) 0.701
Modell II \(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}\) 0.708 0.007

(a) Teste, ob die Vorhersage des Kriteriums durch das Modell I signifikant ist (\(\alpha = .05\)). Fülle die folgenden Lücken aus!

Hypothesen: _______________
Empirische Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_{0}\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösung

Hypothesen: \(H_0\): \(b_1=b_2=b_3=b_4=0\), \(H_1\): mindestens ein \(b_j\neq 0\)
Empirische Prüfgröße: \(F_{emp}=117.810\)
kritischer Wert: \(F_{krit}=2.417\)
Testentscheidung: Die \(H_{0}\) wird abgelehnt
möglicher Fehler nach erfolgter Testentscheidung: \(\alpha\)-Fehler

  • wenn wir die Varianzaufklärung des Modells I auf Signifikanz testen wollen, stellen wir folgende statistische Hypothesen auf:

\(H_0\): \(b_1=b_2=b_3=b_4=0\), \(H_1\): mindestens ein \(b_j\neq 0\)

  • Die empirische Prüfgröße wird mit der folgenden Formel berechnet:

\[F = \frac{\frac{R^{2}}{k}}{\frac{1 - R^{2}}{n-k-1}}= \frac{\frac{0.701}{4}}{\frac{1 - 0.701}{206-4-1}} = \frac{\frac{0.701}{4}}{\frac{0.299}{201}} = 117.810\]

  • Der kritische Wert beträgt

\[F_{k, n-k-1; 1-\alpha}= F_{4, 201; 0.95}=2.417\]

  • Diesen Wert können wir in der Tabelle nicht nachschauen. Jedoch können wir konservativ vorgehen und in der Tabelle für die am nächsten liegenden Freiheitsgrade \(df_{Zähler}=4\) und \(df_{Nenner}=120\) nachschauen: \(F_{4, 120; 0.95}=2.447\).
  • Wir sehen aber auch, dass der empirische Wert sehr groß ist und wir auf jeden Fall die \(H_0\) ablehnen müssen.

Also, klärt das Modell I signifikant viel Varianz des Kriteriums auf.



(b) Überprüfe die Nullhypothese, dass die zusätzliche Berücksichtigung von \(x_{5}\) in Modell II nicht zu einer Verbesserung der Vorhersagekraft gegenüber Modell I führt (\(\alpha = .05\)). Fülle die folgenden Lücken aus!

Empirische Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_{0}\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Achtung: Diese Aufgabe könnt ihr erst mit dem Wissen aus der VL zur Dummykodierung lösen. Wenn ihr also nicht gleich auf die richtige Lösung gekommen seid, ist das kein Problem. Wir wollten euch diese Aufgabe dennoch bereitstellen, da sie sich hier methodisch als Folge von (a) anbietet.


Lösungsansatz

  • Wir wollen die Veränderung der Vorhersage durch das Hinzuziehen des Prädiktors \(x_{5}\) auf Bedeutsamkeit testen.
  • Die allgemeine Formel für den Signifikanztest des Determinationskoeffizienten lautet
    \(F = \frac{\frac{R^{2}}{k}}{\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}}\)
  • Welche Anpassung müssen wir im Kontext unserer Aufgabe vornehmen?



Lösung

Empirische Prüfgröße: \(\underline{4.794}\)
kritischer Wert: \(\underline{F_{1;200;95\%} = 3.888}\)
Testentscheidung: Die \(H_{0}\) wird \(\underline{verworfen}\).
möglicher Fehler nach erfolgter Testentscheidung: \(\underline{\alpha-Fehler}\)

  • Die empirische Prüfgröße F berechnen wir in diesem Fall via \[\frac{\frac{\Delta R^{2}}{\Delta k}}{\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}}\] - denn wir wollen die Veränderung der aufgeklärten Varianz prüfen.
    • Deshalb steht \(\Delta R^{2} = .007\) im Zähler. Auf diese Größe beziehen sich auch die Zählerfreiheitsgrade \(df_{Zähler} = \Delta k = 1\): Es kommt ein Prädiktor hinzu.
    • Im Nenner steht dennoch \(\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}\), also der Anteil, der durch das Modell nicht erklärten Varianz \(1 - R^{2}_{y,x_{1}...x_{k}} = 1 - .708\), relativiert an den Fehlerfreiheitsgraden \(df_{Nenner} = n - k - 1 = 206 - 5 - 1\). Die Veränderung der Vorhersagestärke soll auf ihre Bedeutsamkeit getestet, d.h. mit der durch das Modell nicht erklärbaren Varianz verglichen werden (so wie beim “normalen” Signifikanztest für \(R^{2}\)).
    • Wir berechnen: \[\frac{\frac{\Delta R^{2}}{\Delta k}}{\frac{1 - R^{2}_{y,x_{1}...x_{k}}}{n-k-1}} = \frac{\frac{.007}{1}}{\frac{1 - .708}{200}} \approx \underline{\underline{4.794}}\]
  • Den kritischen F-Wert bestimmen wir mit \(df_{Zähler} = 1\) Zählerfreiheitsgraden und \(df_{Nenner} = 200\) Nennerfreiheitsgraden (wir testen auf einem \(\alpha\)-Niveau von 5%). \(F_{1;200;95\%} = \underline{\underline{3.888}}\)
    • Man kann diesen Wert durch unsere Tabelle leider nicht so genau bestimmen. Erinnert euch das Prinzip des Hypothesentestens: Den Falsifikationismus. Im Zweifelsfall sind wir lieber etwas konservativer beim Verwerfen unseres bisherigen Wissens (üblicherweise die Nullhypothese).
    • Alternativ können wir beim Üben und später in der Forschungspraxis R verwenden, in diesem Fall durch den Befehl
      qf(.95, df1=1, df2=200).
      Wir berechnen das 95%-Perzentil der F-Verteilung (qf) für df1=1 Zählerfreiheitsgrade und df2=200 Nennerfreiheitsgrade.
  • Da 4.794 > 3.89 verwerfen wir die Nullhypothese, dass die zusätzliche Berücksichtigung von \(x_{5}\) in Modell II nicht zu einer Verbesserung der Vorhersagekraft gegenüber Modell I führt.
  • Dabei können wir einen \(\boldsymbol{\alpha}\)-Fehler begehen.


Arten von Zusämmenhängen zwischen Variablen


(a) Benenne die Zusammenhänge, die in folgenden Pfaddiagrammen dargestellt sind.

1) Bivariate Korrelation
2) Collider
3) Partielle Korrelation
4) Semipartielle Korrelation
5) Multiple lineare Regression
6) Partielle Korrelation von 0



Lösung


  • partielle Korrelation ist eine Korrelation zwischen den Regressionsresiduen (\(e_0\) und \(e_1\)) von zwei Variablen (\(x_0\) und \(x_1\)). Davor wurde jeweils eine lineare Regression von diesen zwei Variablen auf eine dritte (\(x_2\)) gerechnet. Die Regression wird durch einseitige Pfeile abgebildet, die die Einflussrichtung von \(x_2\) auf die anderen beiden Variablen zeigen.

    • Wenn nach dem herauspartialisieren der dritten Variable die Residuen der beiden anderen miteinander nicht korrelieren, beträgt die partielle Korrelation 0.
  • bivariate Korrelation ist eine Korrelation zwischen zwei Variablen (z.B. \(x_0\) und \(x_2\)) und berücksichtigt keine weiteren Variablen.

  • Collider ist eine Outcome-Variable, auf die mehrere “Verursacher”-Variablen einwirken (also, die Pfeile nur in eine Richtung zeigen im Gegensatz zur Korrelation). Bei graphischer Betrachtung ergibt sich: Ein Collider ist immer die Variable, bei der sich die Pfeile treffen bzw. “kollidieren”.

  • Semipartielle Korrelation ist eine Korrelation zwischen einer Variablen (\(y\)) und einem Regressionsresiduum (\(e_1\)). Davor wurde eine Regression von einer Variablen (\(x_1\)) auf eine andere (\(x_2\), korreliert mit \(y\) und \(x_1\)) gerechnet (der Pfeil zwischen \(x_2\) und \(x_1\) zeigt nur in eine Richtung).

  • Das Pfaddiagramm einer multiplen linearen Regression zeigt eine Variable \(y\), die auf mehrere Variablen (\(x_1\) und \(x_2\)) regrediert wurde (einseitige Pfeile in Richtung von \(y\) zeigen die Richtung des Einflusses) und das Residuum \(e\) als Ergebnis dieser Regression.



(b) Fülle den Lückentext aus!

  1. Fehler bzw. Störgrößen
  2. Suppression
  3. negativ
  4. partielle
  5. Collider
  6. reziproke Suppression
  7. Kriterium
  8. Prädiktoren
  9. Suppression
  10. Scheinabhängigkeiten
  11. prädiktive Validität

Das Phänomen, dass manchmal die partielle Korrelation auch größer als die bivariate Korrelation ausfallen kann, heißt _______. Die Vorhersage des Kriteriums im Rahmen einer multiplen linearen Regression wird dadurch verbessert bzw. die ____________ eines anderen Prädiktors wird dadurch erhöht, dass _________, welche in dem anderen Prädiktor enthalten sind, unterdrückt werden.

Es ist bekannt, dass Narzissmus positiv mit antisozialem Verhalten korreliert. Gleichzeitig hat Selbstwertschätzung ebenfalls eine geringe bis mittelhohe positive Korrelation mit antisozialem Verhalten. Wenn man Narzissmus und Selbstwertschätzung gemeinsam als Prädiktoren in die Regressionsgleichung zur Vorhersage von antisozialem Verhalten aufnimmt, werden die Zusammenhänge der Prädiktoren mit dem Kriterium stärker als die einzelnen bivariaten Korrelationen. Dies ist ein Beispiel der __________. Bei dieser Art von _______ ist die Korrelation zwischen den beiden Prädiktoren ___________.

Im Gegensatz zu einem Suppressor bezeichnet ein ______ eine Outcomevariable, also ein potenzielles ________, welche durch zwei oder mehr Variablen „verursacht“ wird. Wenn man so eine Variable statistisch kontrolliert, d.h. eine _________ Korrelation von den „Verursacher“-Variablen, also von potenziellen ________, berechnet, kann dies zu ____________ zwischen Variablen führen.


Lösung

Das Phänomen, dass manchmal die partielle Korrelation auch größer als die bivariate Korrelation ausfallen kann, heißt Suppression. Die Vorhersage des Kriteriums im Rahmen einer multiplen linearen Regression wird dadurch verbessert bzw. die prädiktive Validität eines anderen Prädiktors wird dadurch erhöht, dass Fehler bzw. Störgrößen, welche in dem anderen Prädiktor enthalten sind, unterdrückt werden.

Es ist bekannt, dass Narzissmus mittelstark positiv mit antisozialem Verhalten korreliert. Gleichzeitig hat Selbstwertschätzung ebenfalls eine geringe bis mittelhohe positive Korrelation mit antisozialem Verhalten. Wenn man Narzissmus und Selbstwertschätzung gemeinsam als Prädiktoren in die Regressionsgleichung zur Vorhersage von antisozialem Verhalten aufnimmt, werden die Zusammenhänge der Prädiktoren mit dem Kriterium stärker als die einzelnen bivariaten Korrelationen. Dies ist ein Beispiel der reziproken Suppression. Bei dieser Art von Suppression ist die Korrelation zwischen den beiden Prädiktoren negativ.


Erklärung

Hier geht es darum, dass durch die Aufnahme der beiden Prädiktoren in das Regressionsmodell die partiellen Steigungen der beiden Prädiktoren größer als ihre bivariaten Korrelationen mit dem Kriterium werden. Damit sind die beiden Prädiktoren Suppressoren!

Für nicht-negative Validitäten (\(r_{y1}, r_{y2} \geq 0\)) [d.h. für nicht-negative bivariate Korrelation der Prädiktoren mit dem Kriterium] liegt reziproke Suppression vor, falls die Korrelation der Prädiktoren negativ ist, d.h. falls \(r_{12} < 0\).


Im Gegensatz zu einem Suppressor bezeichnet ein Collider eine Outcomevariable, also ein potenzielles Kriterium, welche durch zwei oder mehr Variablen „verursacht“ wird. Wenn man so eine Variable statistisch kontrolliert, d.h. eine partielle Korrelation von den „Verursacher“-Variablen, also von potenziellen Prädiktoren, berechnet, kann dies zu Scheinabhängigkeiten zwischen Variablen führen.