Kodierungsarten
Zur Vorhersage von Depressivität (\(y\)) nach einer bestimmten Behandlung soll eine multiple lineare Regression durchgeführt werden. Insgesamt neun Personen werden in zwei Treatment-Gruppen \(a_1\) und \(a_2\) sowie einer Kontrollgruppe \(a_3\) (=Referenzgruppe) untersucht. Durch Kodierung sollen nun zwei Indikatorvariablen erstellt werden, um das Kriterium \(y\) vorherzusagen. In der nachfolgenden Tabelle ist abgebildet, welche Personen (ID) welche Behandlungsform bekamen und welchen Depressivitätswert sie nach der Behandlung hatten:
|
|
Dummy-
|
Kodierung
|
Effekt-
|
Kodierung
|
Kontrast-
|
Kodierung
|
|
ID
|
Behandlung
|
\(x_1\)
|
\(x_2\)
|
\(x_1\)
|
\(x_2\)
|
\(x_1\)
|
\(x_2\)
|
Depressivität
|
1
|
\(a_1\)
|
|
|
|
|
|
|
4
|
2
|
\(a_1\)
|
|
|
|
|
|
|
5
|
3
|
\(a_1\)
|
|
|
|
|
|
|
6
|
4
|
\(a_2\)
|
|
|
|
|
|
|
11
|
5
|
\(a_2\)
|
|
|
|
|
|
|
12
|
6
|
\(a_2\)
|
|
|
|
|
|
|
13
|
7
|
\(a_3\)
|
|
|
|
|
|
|
15
|
8
|
\(a_3\)
|
|
|
|
|
|
|
16
|
9
|
\(a_3\)
|
|
|
|
|
|
|
17
|
(a) Ergänze die fehlenden Werte für die Indikatorvariablen \(x_1\) und \(x_2\) in der obenstehenden Tabelle. Führe dazu einmal eine Dummy- und danach eine Effekt-Kodierung durch.
Lösung
|
|
Dummy-
|
Kodierung
|
Effekt-
|
Kodierung
|
Kontrast-
|
Kodierung
|
|
ID
|
Behandlung
|
\(x_1\)
|
\(x_2\)
|
\(x_1\)
|
\(x_2\)
|
\(x_1\)
|
\(x_2\)
|
Depressivität
|
1
|
\(a_1\)
|
1
|
0
|
1
|
0
|
|
|
4
|
2
|
\(a_1\)
|
1
|
0
|
1
|
0
|
|
|
5
|
3
|
\(a_1\)
|
1
|
0
|
1
|
0
|
|
|
6
|
4
|
\(a_2\)
|
0
|
1
|
0
|
1
|
|
|
11
|
5
|
\(a_2\)
|
0
|
1
|
0
|
1
|
|
|
12
|
6
|
\(a_2\)
|
0
|
1
|
0
|
1
|
|
|
13
|
7
|
\(a_3\)
|
0
|
0
|
-1
|
-1
|
|
|
15
|
8
|
\(a_3\)
|
0
|
0
|
-1
|
-1
|
|
|
16
|
9
|
\(a_3\)
|
0
|
0
|
-1
|
-1
|
|
|
17
|
Dummy-Kodierung:
- Zur Kodierung der \(k = 3\) Merkmale benötigen wir \(k-1 = 2\) Dummy Variablen.
- Mit Hilfe von der Dummy-Variable \(x_1\) kodieren wir die Zugehörigkeit zur Gruppe \(a_1\) mit \(1\) und den Rest mit \(0\).
- Mit Hilfe von \(x_2\) kodieren wir die Zugehörigkeit zur Gruppe \(a_2\) mit \(1\) und den Rest mit \(0\).
- In der Aufgabenstellung wurde \(a_3\) als Referenzgruppe definiert. Für die Dummy-Kodierung heißt das, dass diese Gruppe durchgehend mit \(0\) kodiert wird.
Effekt-Kodierung:
- Die Effekt Kodierung erfolgt analog, nur die Referenzgruppe wird jetzt durchgehend mit \(-1\) kodiert:
- Mit Hilfe von der Dummy-Variable \(x_1\) kodieren wir die Zugehörigkeit zur Gruppe \(a_1\) mit \(1\), die Zugehörigkeit zur Gruppe \(a_3\) mit \(-1\) und den Rest mit \(0\).
- Mit Hilfe von \(x_2\) kodieren wir die Zugehörigkeit zur Gruppe \(a_2\) mit \(1\), die Zugehörigkeit zur Gruppe \(a_3\) mit \(-1\) und den Rest mit \(0\).
Anmerkung: Wir brauchen zur Kodierung immer nur \(k-1\) Indikatiorvariablen, da wir die Zugehörigkeit zu \(k\) Gruppen immer eindeutig kodieren können, wenn wir eine von diesen Gruppen durchgehend mit \(0\) bzw. mit \(-1\) kodieren. Dies reicht uns aus: Eine eigene Indikatorvariable für diese, als Referenzgruppe bezeichnete, Gruppe zu erstellen, wäre überflüssig.
(b) Wie lauten die unstandardisierten Regressionsgleichungen zur Vorhersage von \(y\) in diesen beiden Fällen? Wie interpretiert man dabei die Regressionskonstante und die Regressionsgewichte?
Lösung
Dummy-Kodierung:
- Zuerst wollen wir die durchschnittlichen Merkmalsausprägungen (also, die durchschnittlichen Werte der Depressivität \(y\)) in jeder Gruppe berechnen:
- Gruppe \(a_1\): \(\bar{y}_1 = \frac{4+5+6}{3}=5\)
- Gruppe \(a_2\): \(\bar{y}_2 = \frac{11+12+13}{3}=12\)
- Referenzgruppe \(a_3\): \(\bar{y}_3 = \frac{15+16+17}{3}=16\)
- In einer Regressionsgleichung mit dummykodierten Indikatorvariablen entspricht die Regressionskonstante \(a\) der durchschnittlichen Merkmalsausprägung in der Referenzgruppe (durchgängig mit \(0\) kodiert): \(a = \bar{y}_3=16\)
- Ein \(b_i\) Gewicht berechnet sich als Differenz der Mittelwerte für die \(i\)-te Gruppe und der Referenzgruppe:
- \(b_1 = \bar{y}_1 - a = 5-16 = -11\)
- \(b_2 = \bar{y}_2 - a = 12-16 = -4\)
- Somit ergibt sich die folgende unstandardisierte Regressionsgleichung:
\[\underline{\underline{\hat{y}_m = 16-11\cdot x_{1m} - 4\cdot x_{2m}}}\]
- Interpretation: die durchschnittliche Ausprägung der Depressivität in der Kontrollgruppe (Referenzgruppe) beträgt \(16\). Der Durchschnitt der ersten Treatmentgruppe (\(x_{1m}\)) ist um \(11\) Depressivitätspunkte niedriger als der Durchschnitt der Kontrollgruppe. Der Durchschnitt der zweiten Treatmentgruppe (\(x_{2m}\)) ist um \(4\) Depressivitätspunkte niedriger als der Durchschnitt der Kontrollgruppe.
Effekt-Kodierung:
- In einer Regressionsgleichung mit effektkodierten Indikatorvariablen entspricht die Regressionskonstante dem ungewichteten [gleich gewichteten] Mittelwert der einzelnen Gruppenmittelwerte: \(a = \frac{\bar{y}_1 + \bar{y}_2 + \bar{y}_3}{3} = \frac{5+ 12 + 16}{3} = 11\)
- Für balancierte Designs entspricht dies dem Gesamtmittelwert der abhängigen Variable.
- Ein Gewicht \(b_i\) bildet die Differenz des \(i\)-ten Mittelwerts vom Gesamtmittelwert ab:
- \(b_1 = \bar{y}_1 - a = 5-11 = -6\)
- \(b_2 = \bar{y}_2 - a = 12-11 = 1\)
- Somit ergibt sich die folgende unstandardisierte Regressionsgleichung:
\[\underline{\underline{\hat{y}_m = 11- 6\cdot x_{1m} + 1\cdot x_{2m}}}\]
- Interpretation: Die durchschnittliche Depressivität beträgt \(11\) Punkte. Die durchschnittliche Depressivität in der ersten Treatmentgruppe (\(x_{1m}\)) ist um \(6\) Punkte niedriger als der Gesamtmittelwert. Die durchschnittliche Depressivität in der zweiten Treatmentgruppe (\(x_{2m}\)) ist um \(1\) Punkt höher als der Gesamtmittelwert.
(c) Ergänze die fehlenden Werte für die Indikatorvariablen \(x_1\) und \(x_2\) in der obenstehenden Tabelle. Führe dazu je eine Kontrast-Kodierung für folgende Gruppenvergleiche durch:
1) \(a_1\) vs. \(a_2\) (wird durch die Indikatorvariabkle \(x_1\) abgebildet)
2) \(a_1\) und \(a_2\) vs. \(a_3\) (wird durch die Indikatorvariable \(x_2\) abegbildet)
Lösung
|
|
Dummy-
|
Kodierung
|
Effekt-
|
Kodierung
|
Kontrast-
|
Kodierung
|
|
ID
|
Behandlung
|
\(x_1\)
|
\(x_2\)
|
\(x_1\)
|
\(x_2\)
|
\(x_1\)
|
\(x_2\)
|
Depressivität
|
1
|
\(a_1\)
|
1
|
0
|
1
|
0
|
1
|
0.5
|
4
|
2
|
\(a_1\)
|
1
|
0
|
1
|
0
|
1
|
0.5
|
5
|
3
|
\(a_1\)
|
1
|
0
|
1
|
0
|
1
|
0.5
|
6
|
4
|
\(a_2\)
|
0
|
1
|
0
|
1
|
-1
|
0.5
|
11
|
5
|
\(a_2\)
|
0
|
1
|
0
|
1
|
-1
|
0.5
|
12
|
6
|
\(a_2\)
|
0
|
1
|
0
|
1
|
-1
|
0.5
|
13
|
7
|
\(a_3\)
|
0
|
0
|
-1
|
-1
|
0
|
-1
|
15
|
8
|
\(a_3\)
|
0
|
0
|
-1
|
-1
|
0
|
-1
|
16
|
9
|
\(a_3\)
|
0
|
0
|
-1
|
-1
|
0
|
-1
|
17
|
Kontrast-Kodierung: 1) \(a_1\) vs. \(a_2\)
- Wir erstellen pro Kontrast jeweils nur eine Indikatorvariable, mit deren Hilfe wir die uns interessierenden Gruppen vergleichen.
- In unserem Fall wollen wir die erste Treatmentgruppe \(a_1\) gegen die zweite Treatmentgruppe \(a_2\) kontrastieren und kodieren deswegen die Zugehörigkeit zu \(a_1\) mit \(1\) und die Zugehörigkeit zu \(a_2\) mit \(-1\).
- Die Gruppe \(a_3\) interessiert uns nicht, deswegen wird sie mit \(0\) kodiert.
- Die Gewichte, die wir zugewiesen haben, müssen in der Summe \(0\) ergeben:
\[\sum_i c_i = 0 \\
= c_1 + c_2 + c_3 + ... + c_8 + c_9 \\
= 1+1+1+(-1)+(-1)+(-1) +0+0+0\]
Anmerkung: Die Wahl der Zahlen für Kontraste ist ziemlich arbiträr. Wir haben jetzt \(1\) und \(-1\) gewählt, genauso könnte man auch z.B. \(2\) und \(-2\) wählen. Durch die Wahl von \(1\) und \(-1\) ergeben sich jedoch Vereinfachungen bei Berechnungen, weswegen wir oft genau diese Zahlen präferieren.
Kontrast-Kodierung: 2) \(a_1\) und \(a_2\) vs. \(a_3\)
- Hier wollen wir die beiden Treatmentgruppen \(a_1\) und \(a_2\) mit der Kontrollgruppe \(a_3\) vergleichen.
- In diesem Fall haben wir zwei Mengen mit \(u=2\) Gruppen in Menge \(1\) (die beiden Treatmentgruppen) und \(v=1\) Gruppen in Menge \(2\) (Kontrollgruppe).
- Wir können die Kontraste wie folgt bestimmen:
- Menge \(1\): \(\frac{1}{u} = \frac{1}{2} = 0.5\)
- Menge \(2\): \(-\frac{1}{v} = -\frac{1}{1} = -1\)
- Die Gewichte, die wir zugewiesen haben, müssen in der Summe wieder \(0\) ergeben:
\[\sum_i c_i = 0 \\
= c_1 + c_2 + c_3 + ... + c_8 + c_9 \\
= 0.5+0.5+0.5+0.5+0.5+0.5+(-1)+(-1)+(-1)\]
Allgemeines lineares Modell
(a) Bezogen auf die vorherige Aufgabe zu Kodierungsarten: Welches statistische Verfahren haben wir bisher verwendet, um ein \(p\)-fach gestuftes Merkmal als UV in Beziehung zu einer metrischen AV zu setzen? Was verändert sich im Vergleich dazu, wenn wir eine multiple lineare Regression durchführen?
Lösung
- Wir haben dafür eine einfaktorielle ANOVA verwendet.
- Wir können alternativ die Fragestellung mit einer multiplen linearen Regression auswerten, da die ANOVA als Spezialfall des ALM betrachtet werden kann.
- Dafür müssen wir die \(p\) Stufen des Faktors \(A\) in \(p-1\) Indikatorvariablen umkodieren. Dies haben wir bereits in der Aufgabe zu Kodierungsarten gemacht.
- außerdem ändert sich auch, dass wir eine Regressionsgleichung formulieren und entsprechend auch die Hypothesentestung anpassen. Wir können jetzt einen \(F\)-Test anwenden, mit dem wir den Determinationskoeffizienten \(R^2\) testen (z.B. wenn wir die Varianzaufklärung testen wollen). Oder wir können einen \(t\)-Test durchführen, mit dem wir die Regressionsgewichte auf Signifikanz testen (es wäre z.B. bei Kontrasten sinnvoll).
(b) Es handelt sich weiterhin um das Beispiel aus der Aufgabenstellung zu den Kodierungsarten. Führe den Hypothesentest für \(\alpha = 5\%\) zur einfaktoriellen ANOVA im Rahmen des ALM durch! Die beiden Indikatorvariablen klären \(40\%\) der Varianz am Kriterium auf: \(R_{y, x_1x_2}^2 = 0.40\).
Lösungsansatz
- Wir formulieren unsere Fragestellung:
- für die ANOVA: Unterscheiden sich die Stufen des Faktors \(A\) voneinander? Klärt der Faktor \(A\) signifikant viel Varianz am Kriterium auf?
- für die ANOVA im Rahmend des ALM: Ist der Varianzanteil \(R_{y, x_1x_2}^2\), der durch die beiden Indikatorvariablen aufgeklärt wird, signifikant?
- … und stellen unsere Hypothesen auf.
- Dann überlegen wir, welchen Test wir brauchen, um unsere Frage zu beantworten.
Lösung
- Wir wollen testen, ob der Varianzanteil, der durch die beiden Indikatorvariablen aufgeklärt wird, signifikant ist. Wir testen damit den Determinationskoeffizient auf Signifikanz und stellen folgende Hypothesen auf:
- für die ANOVA:
\(H_0:\) \(\mu_1=\mu_2 = \mu_3\)
\(H_1:\) \(\mu_1 \neq \mu_2 \neq \mu_3\)
- für die ANOVA im Rahmen des ALM behalten wir im Hinterkopf, dass wir eigentlich die folgenden Hypothesen testen:
\(H_0:\) \(R_{y, x_1x_2}^2=0\)
\(H_1:\) \(R_{y, x_1x_2}^2 \neq 0\)
- Wir nehmen dafür die Formel für die Signifikanztestung des Determinationskoeffizienten und setzen die passenden Indizes für den Fall mit zwei Indikatorvariablen ein:
\[F = \frac{R_{y, x_1...x_k}^2 / k}{(1-R_{y, x_1...x_k}^2) /(N-k-1)} = \frac{R_{y, x_1x_2}^2 / k}{(1-R_{y, x_1x_2}^2) /(N-k-1)}\]
- In unserem Fall haben wir Anzahl der Messungen in der Stichprobe \(N=9\) und Anzahl der Indikatorvariablen \(k= p-1 = 3-1 = 2\).
- Jetzt können wir die Signifikanztestung durchführen:
\[F = \frac{R_{y, x_1x_2}^2 / k}{(1-R_{y, x_1x_2}^2) /(N-k-1)} = \frac{0.4 / 2}{(1-0.4) /(9-2-1)} = 2\]
- Wir vergleichen diesen \(F\)-Wert mit dem kritischen Wert \(F_{k,N-k-1, 95\%}= F_{2, 6, 95\%} =5.1433\).
- Unser empirischer \(F\)-Wert ist kleiner als der kritische Wert. Die Nullhypothese, dass die Indikatorvariablen \(x_1\) und \(x_2\) (entsprechen dem Faktor \(A\) in der ANOVA) keine Varianz an der abhängigen Variablen aufklären, wird beibehalten.
(c) Welche Aussage ist falsch bezüglich der Auswertung von zweifaktoriellen Versuchsplänen im Rahmen des ALM?
- Für einen zweifaktoriellen Plan mit \(p = 4\) und \(q = 3\) werden \(11\) Indikatorvariablen zur vollständigen Kodierung benötigt.
- Die zweifaktorielle Analyse im Rahmen des ALM unterscheidet sich nicht für feste vs. zufällige “Effekte”.
- In unbalancierten Designs sind die Indikatorvariablen, welche Haupteffekte bzw. Interaktionen kodieren, miteinander korreliert.
- Die Signifikanztestung können wir separat jeweils für jeden Haupteffekt und für die Interaktion durchführen, wobei wir die gleiche Formel des \(F\)-Werts verwenden, wie im einfaktoriellen Fall in der Aufgabe (b).
Lösung
- Für einen zweifaktoriellen Plan mit \(p = 4\) und \(q = 3\) werden \(11\) Indikatorvariablen zur vollständigen Kodierung benötigt.
RICHTIG.
Bei der einfaktoriellen ANOVA hatten wir nur einen Faktor \(A\) und haben \(k=p-1\) Indikatorvariablen zur Kodierung gebraucht, wobei \(p\) die Anzahl der Faktorstufen von \(A\) war.
Bei der zweifaktoriellen ANOVA führen wir die Varianz der AV auf die beiden Haupteffekte, die Interaktion und den Fehlerterm zurück. Zur Kodierung benötigen wir \(p-1\) Indikatorvariablen für Faktor \(A\), \(q-1\) Indikatorvariablen für Faktor \(B\) und \((p-1)(q-1)\) Indikatorvariablen für die Interaktion.
Somit können wir ausrechnen, wie viele Indikatorvariablen wir zur Kodierung benötigen:
\(k_A = p-1 = 4-1=3\)
\(k_B = q-1 = 3-1 = 2\)
\(k_{AB} = (p-1)(q-1) = (4-1)(3-1)= 3 \cdot 2 = 6\)
\(k_{gesamt} = k_A+k_B+k_{AB} = 3+2+6 = \underline{\underline{11}}\)
- Die zweifaktorielle Analyse im Rahmen des ALM unterscheidet sich nicht für feste vs. zufällige “Effekte”.
FALSCH. Haben Faktoren zufällige “Effekte”, ändern sich wie zuvor die Prüfvarianzen der Haupteffekte (nicht der Interaktion!): Wir setzen die \(MQ_{AB}\) anstelle von \(MQ_e\) im Nenner des \(F\)-Bruchs ein. Im Falle der zweifaktoriellen Analyse mit dem ALM ersetzen wir den Term \((1-R_{y, x_1x_2}^2)\) im Nenner ( = Fehlervarianz) durch \(R_{y, x_{AB}}^2\) ( = durch die Interaktion aufgeklärte Varianz). Dabei steht \(x_{AB}\) für die Menge der Indikatorvariablen, die die Interaktion kodieren. Entsprechend müssen die Fehlerfreiheitsgrade durch die Freiheitsgrade der Interaktion ersetzt werden.
- In unbalancierten Designs sind die Indikatorvariablen, welche Haupteffekte bzw. Interaktionen kodieren, miteinander korreliert.
RICHTIG. Wie wir in der Vorlesung zur mehrfaktoriellen ANOVA gelernt haben, korrelieren die Haupteffekte und die Interaktion in einem unbalancierten Design miteinander. Dies gilt auch in dem Fall, wenn wir die Faktorstufenkombinationen durch die passende Anzahl an Indikatorvariablen kodieren.
- Die Signifikanztestung können wir separat jeweils für jeden Haupteffekt und für die Interaktion durchführen, wobei wir die gleiche Formel des \(F\)-Werts verwenden, wie im einfaktoriellen Fall in der Aufgabe (b).
RICHTIG. Wir testen die Varianzaufklärung durch jeden Faktor, d.h. jeweils durch die diesen Faktor kodierenden Indikatorvariablen. Dafür benutzen wir die Formel aus der Aufgabe (b): \[F = \frac{R_{y, x_1...x_k}^2 / k}{(1-R_{y, x_1...x_k}^2) /(N-k-1)}\] und setzen darin für \(R_{y, x_1...x_k}^2\) jeweils den entsprechenden Determinationskoeffizient ein: z.B. für Faktor \(A\) wäre das \(R_{y, x_{A_1}, x_{A_2}}^2\).