Zur Vorhersage von Depressivität (\(y\)) nach einer bestimmten Behandlung soll eine multiple lineare Regression durchgeführt werden. Insgesamt neun Personen werden in zwei Treatment-Gruppen \(a_1\) und \(a_2\) sowie einer Kontrollgruppe \(a_3\) (= Referenzgruppe) untersucht. Durch Kodierung sollen nun zwei Indikatorvariablen erstellt werden, um das Kriterium \(y\) vorherzusagen. In der nachfolgenden Tabelle ist abgebildet, welche Personen (ID) welche Behandlungsform bekamen und welchen Depressivitätswert sie nach der Behandlung hatten:
Dummy- | Kodierung | Effekt- | Kodierung | Kontrast- | Kodierung | |||
---|---|---|---|---|---|---|---|---|
ID | Behandlung | \(x_1\) | \(x_2\) | \(x_1\) | \(x_2\) | \(x_1\) | \(x_2\) | Depressivität |
1 | \(a_1\) | 4 | ||||||
2 | \(a_1\) | 5 | ||||||
3 | \(a_1\) | 6 | ||||||
4 | \(a_2\) | 11 | ||||||
5 | \(a_2\) | 12 | ||||||
6 | \(a_2\) | 13 | ||||||
7 | \(a_3\) | 15 | ||||||
8 | \(a_3\) | 16 | ||||||
9 | \(a_3\) | 17 |
(a) Ergänze die fehlenden Werte für die Indikatorvariablen \(x_1\) und \(x_2\) in der obenstehenden Tabelle. Führe dazu einmal eine Dummy- und danach eine Effekt-Kodierung durch.
Dummy- | Kodierung | Effekt- | Kodierung | Kontrast- | Kodierung | |||
---|---|---|---|---|---|---|---|---|
ID | Behandlung | \(x_1\) | \(x_2\) | \(x_1\) | \(x_2\) | \(x_1\) | \(x_2\) | Depressivität |
1 | \(a_1\) | 1 | 0 | 1 | 0 | 4 | ||
2 | \(a_1\) | 1 | 0 | 1 | 0 | 5 | ||
3 | \(a_1\) | 1 | 0 | 1 | 0 | 6 | ||
4 | \(a_2\) | 0 | 1 | 0 | 1 | 11 | ||
5 | \(a_2\) | 0 | 1 | 0 | 1 | 12 | ||
6 | \(a_2\) | 0 | 1 | 0 | 1 | 13 | ||
7 | \(a_3\) | 0 | 0 | -1 | -1 | 15 | ||
8 | \(a_3\) | 0 | 0 | -1 | -1 | 16 | ||
9 | \(a_3\) | 0 | 0 | -1 | -1 | 17 |
Dummy-Kodierung:
Effekt-Kodierung:
Anmerkung: Wir brauchen zur Kodierung immer nur \(k-1\) Indikatiorvariablen, da wir die Zugehörigkeit zu \(k\) Gruppen immer eindeutig kodieren können, wenn wir eine von diesen Gruppen durchgehend mit \(0\) bzw. mit \(-1\) kodieren. Dies reicht uns aus: Eine eigene Indikatorvariable für diese, als Referenzgruppe bezeichnete, Gruppe zu erstellen, wäre überflüssig.
(b) Wie lauten die unstandardisierten Regressionsgleichungen zur Vorhersage von \(y\) in diesen beiden Fällen? Wie interpretiert man dabei die Regressionskonstante und die Regressionsgewichte?
Dummy-Kodierung:
\[\underline{\underline{\hat{y}_m = 16-11\cdot x_{1m} - 4\cdot x_{2m}}}\]
Effekt-Kodierung:
\[\underline{\underline{\hat{y}_m = 11- 6\cdot x_{1m} + 1\cdot x_{2m}}}\]
(c) Ergänze die fehlenden Werte für die Indikatorvariablen \(x_1\) und \(x_2\) in der obenstehenden Tabelle. Führe dazu je eine Kontrast-Kodierung für folgende Gruppenvergleiche durch:
1) \(a_1\) vs. \(a_2\) (wird durch die Indikatorvariabkle \(x_1\) abgebildet)
2) \(a_1\) und \(a_2\) vs. \(a_3\) (wird durch die Indikatorvariable \(x_2\) abegbildet)
Dummy- | Kodierung | Effekt- | Kodierung | Kontrast- | Kodierung | |||
---|---|---|---|---|---|---|---|---|
ID | Behandlung | \(x_1\) | \(x_2\) | \(x_1\) | \(x_2\) | \(x_1\) | \(x_2\) | Depressivität |
1 | \(a_1\) | 1 | 0 | 1 | 0 | 1 | 0.5 | 4 |
2 | \(a_1\) | 1 | 0 | 1 | 0 | 1 | 0.5 | 5 |
3 | \(a_1\) | 1 | 0 | 1 | 0 | 1 | 0.5 | 6 |
4 | \(a_2\) | 0 | 1 | 0 | 1 | -1 | 0.5 | 11 |
5 | \(a_2\) | 0 | 1 | 0 | 1 | -1 | 0.5 | 12 |
6 | \(a_2\) | 0 | 1 | 0 | 1 | -1 | 0.5 | 13 |
7 | \(a_3\) | 0 | 0 | -1 | -1 | 0 | -1 | 15 |
8 | \(a_3\) | 0 | 0 | -1 | -1 | 0 | -1 | 16 |
9 | \(a_3\) | 0 | 0 | -1 | -1 | 0 | -1 | 17 |
Kontrast-Kodierung: 1) \(a_1\) vs. \(a_2\)
\[\sum_i c_i = 0 \\ = c_1 + c_2 + c_3 + ... + c_8 + c_9 \\ = 1+1+1+(-1)+(-1)+(-1) +0+0+0\]
Anmerkung: Die Wahl der Zahlen für Kontraste ist ziemlich arbiträr. Wir haben jetzt \(1\) und \(-1\) gewählt, genauso könnte man auch z.B. \(2\) und \(-2\) wählen. Durch die Wahl von \(1\) und \(-1\) ergeben sich jedoch Vereinfachungen bei Berechnungen, weswegen wir oft genau diese Zahlen präferieren.
Kontrast-Kodierung: 2) \(a_1\) und \(a_2\) vs. \(a_3\)
\[\sum_i c_i = 0 \\ = c_1 + c_2 + c_3 + ... + c_8 + c_9 \\ = 0.5+0.5+0.5+0.5+0.5+0.5+(-1)+(-1)+(-1)\]
Eine Schulpsychologin untersucht, ob die Händigkeit der SchülerInnen (rechts-/links-/beidhändig) einen Einfluss auf ihre Teamfähigkeit in der Klasse hat. Sie nutzt die folgende Dummy-Kodierung für die drei Arten der Händigkeit:
Dann erhebt sie die Teamfähigkeit der SiebtklässlerInnen mithilfe von LehrerInnenurteilen auf einer Skala von 1 bis 10. Die Psychologin wertet die erhobenen Daten mit Hilfe einer multiplen linearen Regression aus und bekommt die folgende Regressionsgleichung:
\[\hat{y}= 7.5 – 0.6\cdot x_1 – 0.09\cdot x_2\]
(a) Welche Aussage(n) ist/sind richtig?
Mit Hilfe der Kodierung kann man ein kategoriales Kriterium in eine lineare Regression aufnehmen.
Die trichotome Variable „Händigkeit“ wird mit Hilfe zweier Dummy-Variablen kodiert, wobei die Variable „Teamfähigkeit“ hier mindestens intervallskaliert sein muss.
Die Schulpsychologin hat hier linkshändige SchülerInnen als Referenzgruppe festgelegt.
Anstelle einer multiplen Regression hätte man diese Forschungsfrage auch mit einer zweifaktoriellen ANOVA (Faktor A: Händigkeit, Faktor B: Teamfähigkeit) überprüfen können.
Mit Hilfe der Kodierung kann man ein kategoriales Kriterium in eine lineare Regression aufnehmen.
FALSCH. Die Kodierung ermöglicht die Aufnahme eines kategorialen Prädiktors in die lineare Regression.
Die trichotome Variable „Händigkeit“ wird mit Hilfe zweier Dummy-Variablen kodiert, wobei die Variable „Teamfähigkeit“ hier mindestens intervallskaliert sein muss.
RICHTIG. Man braucht \(k-1=3-1=2\) Dummy-Variablen zur Kodierung der \(k=3\) Stufen der Variable “Händigkeit”. Die Variable „Teamfähigkeit“ muss hier als intervallskaliert betrachtet werden, da man die punkt-biseriale Korrelation nicht mit einer Variable auf dem Ordinalskalenniveau berechnen kann.
Die Schulpsychologin hat hier linkshändige SchülerInnen als Referenzgruppe festgelegt.
FALSCH. Hier sind rechtshändige SchülerInnen die Referenzgruppe, da sie durchgängig mit 0 kodiert sind.
Anstelle einer multiplen Regression hätte man diese Forschungsfrage auch mit einer zweifaktoriellen ANOVA (Faktor A: Händigkeit, Faktor B: Teamfähigkeit) überprüfen können.
FALSCH. Diese Forschungsfrage hätte zwar tatsächlich auch mit einer ANOVA überprüft werden können, jedoch (in diesem Fall) nur mit einem Faktor. Die Bewertung der Teamfähigkeit ist die abhängige Variable (das Kriterium der linearen Regression), das durch den Faktor (die UV/den Prädiktor) Händigkeit vorhergesagt wird.
(b) Welche deskriptiven Erkenntnisse über die Teamfähigkeit der SchülerInnen in Abhängigkeit der Händigkeit kann man aus der Regressionsgleichung ableiten?
Wir schauen uns die Regressionsgleichung an:
\[\hat{y}= 7.5 – 0.6\cdot x_1 – 0.09\cdot x_2\]
Zusammenfassend kann man sagen, dass sich die Beliebtheit der rechts- und beidhändigen SchülerInnen deskriptiv nicht so stark unterscheidet, wobei die linkshändigen SchülerInnen ein bisschen weniger beliebt sind.
Die Schulpsychologin möchte auch wissen, ob die Händigkeit der SiebtklässlerInnen sich auch auf ihre Noten auswirkt. Sie nutzt diesmal eine Effektkodierung:
Nach der Auswertung der Daten mit Hilfe einer multiplen linearen Regression bekommt die Psychologin die folgende Regressionsgleichung:
\[\hat{y}= 2.9 - 0.3\cdot x_1 + 0.1\cdot x_2\]
(a) Welche deskriptiven Erkenntnisse über die Noten der SchülerInnen in Abhängigkeit von der Händigkeit kann man aus der Regressionsgleichung ableiten?
Man kann sagen, dass die Linkshänder deskriptiv ein bisschen besser als der Durchschnitt sind. Die beidhändigen Schüler sind deskriptiv ein bisschen schlechter als der Durchschnitt.
(b) Welche Aussage(n) ist/sind richtig?
Es ist hier inhaltlich wichtig, welche Gruppe mit -1 kodiert wird.
Für die Referenzgruppe können wir bei der Effektkodierung kein \(b\)-Gewicht berechnen und können somit erstmal aus der Regressionsgleichung nichts über diese Gruppe erfahren.
Es wäre sinnvoll gewesen, eine dritte Indikatorvariable aufzunehmen, sodass die Effekte von allen drei Ausprägungen der Händigkeit in der Regressionsgleichung abgelesen werden können.
Wenn die oben dargestellte Effektkodierung eine Kontrastkodierung wäre, würden wir mit Hilfe des Kontrasts \(x_1\) die Rechtshänder mit den Linkshändern vergleichen.
Es ist hier inhaltlich wichtig, welche Gruppe mit -1 kodiert wird.
FALSCH. Es ist bei Effekt-Kodierung grundsätzlich egal, welche Gruppe mit -1 kodiert wird, da wir die Gruppenmittelwerte mit dem Gesamtmittelwert (gleich gewichtetem Mittelwert) vergleichen. Im Gegensatz dazu hängt es bei der Dummy-Kodierung davon ab, mit welcher Gruppe wir die restlichen vergleichen wollen.
Für die Referenzgruppe können wir bei der Effektkodierung kein \(b\)-Gewicht berechnen und können somit erstmal aus der Regressionsgleichung nichts über diese Gruppe erfahren.
RICHTIG. Steigungsgewichte geben nur die Effekte der anderen Gruppen, nicht aber den der Referenzgruppe an. .
Anmerkung: Auf indirektem Weg ist die Berechnung aber dennoch möglich. Ihr könnt eure Lösungswege gern im Tutorium oder im Forum teilen.
Es wäre sinnvoll gewesen, eine dritte Indikatorvariable aufzunehmen, sodass die Effekte von allen drei Ausprägungen der Händigkeit in der Regressionsgleichung abgelesen werden können.
FALSCH. \(k=3\) Faktorausprägungen können durch \(k-1=2\)$ Indikatorvariablen kodiert werden. Eine weitere Indikatorvariable würde keine weiteren Informationen liefern – und da sie perfekt durch die anderen beiden Indikatorvariablen erklärt werden würde, käme es zu perfekter Multikollinearität.
Wenn die oben dargestellte Effektkodierung eine Kontrastkodierung wäre, würden wir mit Hilfe des Kontrasts \(x_1\) die Rechtshänder mit den Linkshändern vergleichen.
RICHTIG. Bei Kontrasten berücksichtigen wir die mit 0 kodierte(n) Gruppe(n) nicht [in diesem Fall ist das die Gruppe der beidhändigen Schüler]. Wir vergleichen die Gruppe(n), die mit einer positiven Zahl kodiert ist/sind, mit der/den Gruppe(n), die mit einer negativen Zahl kodiert ist/sind.
(a) Bezogen auf die Aufgabe zu Kodierungsarten (Vorhersage von Depressivität nach einer bestimmten Behandlung): Welches statistische Verfahren haben wir bisher verwendet, um ein \(p\)-fach gestuftes Merkmal als UV in Beziehung zu einer metrischen AV zu setzen? Was verändert sich im Vergleich dazu, wenn wir eine multiple lineare Regression durchführen?
(b) Es handelt sich weiterhin um das Beispiel aus der Aufgabenstellung zu den Kodierungsarten (d.h. die Depressionsintervention). Führe den Hypothesentest für \(\alpha = 5\%\) zur einfaktoriellen ANOVA im Rahmen des ALM durch! Die beiden Indikatorvariablen klären \(40\%\) der Varianz am Kriterium auf: \(R_{y, x_1x_2}^2 = 0.40\).
\[F = \frac{R_{y, x_1...x_k}^2 / k}{(1-R_{y, x_1...x_k}^2) /(N-k-1)} = \frac{R_{y, x_1x_2}^2 / k}{(1-R_{y, x_1x_2}^2) /(N-k-1)}\]
\[F = \frac{R_{y, x_1x_2}^2 / k}{(1-R_{y, x_1x_2}^2) /(N-k-1)} = \frac{0.4 / 2}{(1-0.4) /(9-2-1)} = 2\]
(c) Welche Aussage(n) ist/sind richtig bezüglich der Auswertung von zweifaktoriellen Versuchsplänen im Rahmen des ALM?
(d) Ermittle, wie viele Indikatorvariablen zur Kodierung in folgenden Versuchsplänen benötigt werden.
1) Zweifaktorieller Plan mit p = 5 und q = 2
Wir bestimmen die Anzahl der Indikatorvariablen für jeden Faktor, wie folgt:
Faktor A: \(p-1 = 5-1 = 4\)
Faktor B: \(q-1 = 2-1 = 1\)
Interaktion AB: \((p-1)\cdot(q-1) = 4\cdot 1 = 4\)
Insgesamt benötigen wir 9 Indikatorvariablen zur Kodierung dieses Designs.
3) Dreifaktorieller Plan mit p = 3, q = 3 und r = 3
Wir bestimmen die Anzahl der Indikatorvariablen für jeden Faktor, wie folgt:
Faktor A: \(p-1 = 3-1 = 2\)
Faktor B: \(q-1 = 3-1 = 2\)
Faktor C: \(r-1 = 3-1 = 2\)
Interaktion AB: \((p-1)\cdot(q-1) = 2\cdot 2 = 4\)
Interaktion AC: \((p-1)\cdot(r-1) = 2\cdot 2 = 4\)
Interaktion BC: \((q-1)\cdot (r-1) = 2\cdot 2 = 4\)
Interaktion ABC: \((p-1)\cdot(q-1)\cdot (r-1) = 2\cdot 2\cdot 2 = 8\)
Insgesamt benötigen wir 26 Indikatorvariablen zur Kodierung dieses Designs.
In einer Studie wurde untersucht, ob sich die Dauer der Fahrpraxis (1: < 5 Jahre; 2: 5-10 Jahre; 3: > 10 Jahre) auf die Reaktionszeit (Zeit bis zum Einleiten des Bremsvorgangs in Sekunden) von Autofahrern auswirkt. Die Forscher haben in R eine einfaktorielle Varianzanalyse im Rahmen des ALM durchgeführt.
Zuerst haben sie eine Dummy-Kodierung verwendet (1. Gruppe als Referenz) und haben den folgenden Output erhalten.
(a) Welche für unsere Forschungsfrage wichtigen Informationen können wir aus dem Output ablesen? Wie lautet die Regressionsgleichung? Was sind die mittleren Reaktionszeiten der drei Gruppen?
Generell können wir aus dem Output folgende Werte ablesen:
Dabei liegt unser Fokus erstmal auf der Spalte Estimate
, welche die Werte für \(y\)-Achsenabschnitt \(a\) und die beiden partiellen Steigungen \(b_1\) und \(b_2\) angibt.
Mit diesen Werten können wir die Regressionsgleichung aufstellen:
\[\hat{y} = 1.421+0.037\cdot X_{12} - 0.056 \cdot X_{13}\]
Danach haben die Forscher eine Effekt-Kodierung verwendet (die 3. Gruppe als Referenz) und haben den folgenden Output erhalten.
(b) Welche für unsere Forschungsfrage wichtigen Informationen können wir aus dem Output ablesen? Wie lautet die Regressionsgleichung? Stimmen die mittleren Reaktionszeiten der drei Gruppen (bzw. der Gruppen, die wir ablesen können) mit den mittleren Reaktionszeiten aus a) überein?
Hinweis zum Kodierungsschema: hier wurde die 3. Gruppe mit -1 kodiert.
Aus dem Output der linearen Regression mit Effekt-Kodierung können wir folgende Informationen ablesen:
Die Regressionsgleichung lautet dann wie folgt:
\[\hat{y}=1.415+0.006\cdot X_{21}+0.043\cdot X_{22}\]
Also, ergeben sich bei Dummy- und Effekt-Kodierung die gleichen Gruppenmittelwerte.
(c) Unterscheidet sich die Höhe der aufgeklärten Varianz in beiden Fällen?
Den Anteil der aufgeklärten Varianz in einer Regression gibt der Determinationskoeffizient an. In den Lösungen zu a) und b) wurde dieser jeweils im unteren Teil des Outputs markiert. In beiden Fällen beträgt \(R^2=0.093\).
Der Anteil der aufgeklärten Varianz ist unabhängig von der Kodierungsart bei einer vollständigen Kodierung.
Eine andere Forschergruppe rechnet die Ergebnisse der Studie mit Hilfe der ANOVA nach. Folgender Output ergibt sich:
(d) Vergleiche diesen Output mit den beiden Outputs der multiplen linearen Regression von oben und entscheide, welche Aussage richtig ist.
Der \(F\)-Wert im ANOVA-Output gehört zu der Testung des Anteils der aufgeklärten Varianz durch den Faktor \(X_1\) (3 Gruppen der Fahrpraxis).
Die Testung des Anteils der aufgeklärten Varianz aus dem ANOVA-Output weicht von der Testung des Determinationskoeffizienten im Rahmen der multiplen linearen Regression ab.
Der kritische Wert, mit dem man den empirischen \(F\)-Wert vergleichen sollte, unterscheidet sich in den Outputs der ANOVA und multiplen linearen Regression.
Die Stichprobengröße beträgt in beiden Fällen (ANOVA und multiple lineare Regression) 58 Personen.
Der \(F\)-Wert im ANOVA-Output gehört zu der Testung des Anteils der aufgeklärten Varianz durch den Faktor \(X_1\) (3 Gruppen der Fahrpraxis).
RICHTIG. Im Rahmen der einfaktoriellen ANOVA wird hier getestet, ob die Zugehörigkeit zu den drei Fahrpraxis-Gruppen (Faktor \(X_1\)) signifikant viel Varianz des Kriteriums Reaktionszeit aufklärt.
Die Testung des Anteils der aufgeklärten Varianz aus dem ANOVA-Output weicht von der Testung des Determinationskoeffizienten im Rahmen der multiplen linearen Regression ab.
FALSCH. Am Beispiel des Dummy-kodierten Regressions-Outputs: Die beiden Tests testen das Gleiche - ob der Varianzanteil des Kriteriums, der durch den Faktor \(X_1\) bzw. durch die Dummy-kodierten Prädiktoren \(X_{12}\) und \(X_{13}\) aufgeklärt wird, signifikant von 0 unterschiedlich ist. Der empirische \(F\)-Wert ist in beiden Fällen der gleiche: \(F_{emp}=2.909\).
Der kritische Wert, mit dem man den empirischen \(F\)-Wert vergleichen sollte, unterscheidet sich in den Outputs der ANOVA und multiplen linearen Regression.
FALSCH. In beiden Fällen haben wir dieselben Freiheitgrade: \(df_{Zähler}=2\), \(df_{Nenner}=57\).
Die Stichprobengröße beträgt in beiden Fällen (ANOVA und multiple lineare Regression) 58 Personen.
FALSCH. Die Stichprobengröße können wir mit Hilfe der Nennerfreiheitsgrade bestimmen, da diese bei multipler linearen Regression \(df_{Nenner}=n-k-1\) bzw. bei einfaktoriellen ANOVA \(df_{Nenner}=n-p\) betragen. Daraus ergibt sich \(N=60\).