Aufgabe 1: Koffeinkonsum

Eine Forschungsgruppe will die Konzentrationsfähigkeit in Abhängigkeit vom Alter (\(a_1\): < Median, \(a_2\): > Median) und von Koffeinkonsum (\(b_1\): kein Koffeinkonsum, \(b_2\): Koffeinkonsum) testen, \(N = 12\).

(a) Vervollständige die Ergebnistabelle für die zweifaktorielle Varianzanalyse und führe die Signifikanztestung durch (Modell mit festen Effekten, \(\alpha = 0.05\))!

Quelle	QS	df	MQ	F
Alter (A)	3
Koffeinkonsum (B)	27
Interaktion (AB)
Fehler	16
Total	58

Lösung

Hypothesen aufstellen:

Bemerkung: wir haben in dieser Aufgabe ein Modell mit festen Effekten angenommen. Deswegen beziehen sich jetzt alle unsere Hypothesen auf die konkreten Unterschiede zwischen den gewählten Faktorstufen und Faktorstufenkombinationen.
Alter (A): \(H_0:\bar{\mu}_{1\cdot} = \bar{\mu}_{2\cdot}\)
- Die Populationsmittelwerte der Stufen des Faktors „Alter“ sind gleich. D.h. es gibt keinen Unterschied zwischen den Stufen des Faktors \(A\) und somit auch kein Haupteffekt \(A\).
Koffeinkonsum (B): \(H_0:\bar{\mu}_{\cdot 1} = \bar{\mu}_{\cdot 2}\)
- Die Populationsmittelwerte der Stufen des Faktors „Koffeinkonsum“ sind gleich. D.h. es gibt keinen Unterschied zwischen den Stufen des Faktors \(B\) und somit auch kein Haupteffekt \(B\).
Interaktion (AB) \(H_0: \mu_{ij} - \bar{\mu}_{i \cdot} - \bar{\mu}_{\cdot j} + \bar{\mu}_{\cdot \cdot} = 0\)
- Die Zellenmittelwerte der Faktorstufenkombination setzen sich additiv aus den Haupteffekten zusammen. Es gibt keinen Effekt über die beiden Haupteffekte \(A\) und \(B\) hinaus.

Prüfgrößen F berechen:

Als Erstes können wir die fehlende Quadratsumme \(QS_{AB}\) berechnen, da sich alle QS additiv zu der totalen Quadratsumme \(QS_{tot}\) zusammensetzen. \[QS_{AB} = QS_{tot} - QS_A - QS_B - QS_e \\ = 58 - 3 - 27 - 16 \\ = \underline{\underline{12}}\]
Dann können wir die Freiheitsgrade bestimmen:
- die totalen Freiheitsgrade \(df_{tot}\) ergeben sich aus der Stichprobengröße: \(df_{tot} = n \cdot p \cdot q - 1 = N - 1 = 12 -1 = \underline{\underline{11}}\)
- die Freiheitsgrade des Faktors \(A\) ergeben sich aus der Anzahl \(p\) der Stufen dieses Faktors (\(a_1\): < Median, \(a_2\): > Median): \(df_A = p -1 = 2 - 1 = \underline{\underline{1}}\)
- die Freiheitsgrade des Faktors \(B\) ergeben sich aus der Anzahl \(q\) der Stufen dieses Faktors (\(b_1\): kein Koffeinkonsum, \(b_2\): Koffeinkonsum): \(df_B = q -1= 2-1= \underline{\underline{1}}\)
- die Freiheitsgrade der Interaktion \(AB\): \(df_{AB} = (p-1)\cdot (q-1) = (2-1)\cdot (2-1) = \underline{\underline{1}}\)
- die Fehlerfreiheitsgrade können wir jetzt als: \(df_e = df_{tot}-df_A - df_B-df_{AB} = 11-1-1-1= \underline{\underline{8}}\) berechen, da alle Freiheitsgrade sich additiv zu \(df_{tot}\) zusammensetzen.
Jetzt können wir die mittleren Quadrate (MQ) berechen:
- dabei teilen wir die jeweilige Quadratsumme durch die zugehörigen Freiheitsgrade: \[MQ_A = \frac{QS_A}{df_A} = \frac{3}{1} = \underline{\underline{3}}\] \[MQ_B = \frac{QS_B}{df_B} = \frac{27}{1} = \underline{\underline{27}}\] \[MQ_{AB} = \frac{QS_{AB}}{df_{AB}} = \frac{12}{1} = \underline{\underline{12}}\] \[MQ_e = \frac{QS_e}{df_e} = \frac{16}{8} = \underline{\underline{2}}\]
Jetzt berechen wir die empirischen \(F\)-Werte:
- wir haben in dieser Aufgaben ein Modell mit festen Effekten angenommen, deswegen muss jetzt bei uns im Nenner immer \(MQ_e\) stehen. \[F_A = \frac{MQ_A}{MQ_e} = \frac{3}{2}= \underline{\underline{1.5}}\] \[F_B = \frac{MQ_B}{MQ_e} = \frac{27}{2}= \underline{\underline{13.5}}\] \[F_{AB} = \frac{MQ_{AB}}{MQ_e} = \frac{12}{2}= \underline{\underline{6.0}}\]

Quelle	QS	df	MQ	F
Alter (A)	3	1	3	1.5
Koffeinkonsum (B)	27	1	27	13.5
Interaktion (AB)	12	1	12	6.0
Fehler	16	8	2
Total	58	11

Kritische F-Werte berechnen:

das \(\alpha\)-Niveau ist auf \(5\%\) festgelegt, in unserer Tabelle der \(F\)-Werte finden wir genau die Werte für \(\alpha = 0.05\).
jetzt brauchen wir die Freiheitsgrade für unsere \(F_{krit}\)
dafür betrachten wir die Formeln für jeden berechneten empirischen \(F\)-Wert und nehmen als
- Zählerfreiheitsgrade den Wert, der der MQ im Zähler entspricht,
- Nennerfreiheitsgrade den Wert, der der MQ im Nenner entspricht (in unserem Fall ist es immer \(df_e\))
dann ergeben sich folgende Werte \(F_{krit}\): \[F_{df_A, df_e, 95\%} = F_{1, 8, 95\%} = \underline{\underline{5.318}}\] \[F_{df_B, df_e, 95\%} = F_{1, 8, 95\%} = \underline{\underline{5.318}}\] \[F_{df_{AB}, df_e, 95\%} = F_{1, 8, 95\%} = \underline{\underline{5.318}}\]
in unserem Fall ist es derselbe Wert für alle drei kritischen Werte.

Testentscheidung:

Jetzt vergleichen wir die Prüfgrößen mit den kritischen Werten:
- Haupteffekt \(A\): \(F_A = 1.5 < 5.318 = F_{krit}\). D.h. die \(H_0\) wird beibehalten. Möglicher Fehler: \(\beta\)-Fehler.
- Haupteffekt \(B\): \(F_B = 13.5 > 5.318 = F_{krit}\). D.h. die \(H_0\) wird abgelehnt. Möglicher Fehler: \(\alpha\)-Fehler.
- Interaktion \(AB\): \(F_{AB} = 6.0 > 5.318 = F_{krit}\). D.h. die \(H_0\) wird abgelehnt. Möglicher Fehler: \(\alpha\)-Fehler.

(b) Es sind die Mittelwerte für jede der \(4\) Zellen des zweifaktoriellen Versuchsplans gegeben. Zeichne die zugehörigen Interaktionsdiagramme! Welche Art von Interaktion liegt vor? Welche Auswirkungen hat dies auf die Interpretierbarkeit der Haupteffekte?

	\(a_1\)	\(a_2\)
\(b_1\)	3	2
\(b_2\)	4	7

Lösung

Erst wollen wir das Diagramm für den Haupteffekt \(A\) zeichnen.
- Wir zeichnen ein Koordinatensystem: auf der \(x\)-Achse tragen wir die beiden Stufen des Faktors \(B\) \(b_1\) und \(b_2\) im beliebigen Abstand voneinander ab. Auf der \(y\)-Achse markieren wir die Werte von \(1\) bis \(7\).
- Wir schauen uns die Spalte \(a_1\) an und tragen die beiden Werte aus dieser Spalte wie folgt in das Diagramm ein: erster Wert \((b_1, 3)\), zweiter Wert \((b_2, 4)\). Danach verbinden wir die beiden Punkte minteinander.
- Jetzt schauen wir uns die Spalte \(a_2\) an und tragen die beiden Werte aus dieser Spalte wie folgt in das Diagramm ein: erster Wert \((b_1, 2)\), zweiter Wert \((b_2, 7)\). Danach verbinden wir auch die beiden Punkte minteinander.
- Das Diagramm sieht folgendermaßen aus:

Jetzt wollen wir das Diagramm für den Haupteffekt \(B\) zeichnen.
- Wir zeichnen wieder ein Koordinatensystem: auf der \(x\)-Achse tragen wir die beiden Stufen des Faktors \(A\) \(a_1\) und \(a_2\) im beliebigen Abstand voneinander an. Auf der \(y\)-Achse markieren wir die Werte von \(1\) bis \(7\).
- Wir schauen uns die Zeile \(b_1\) an und tragen die beiden Werte aus dieser Zeile wie folgt in das Diagramm ein: erster Wert \((a_1, 3)\), zweiter Wert \((a_2, 2)\). Danach verbinden wir die beiden Punkte minteinander.
- Jetzt schauen wir uns die Zeile \(b_2\) an und tragen die beiden Werte aus dieser Zeile wie folgt in das Diagramm ein: erster Wert \((a_1, 4)\), zweiter Wert \((a_2, 7)\). Danach verbinden wir auch die beiden Punkte minteinander.
- Das Diagramm sieht folgendermaßen aus:

So haben wir die beiden Diagramme erstellt und können die Art der Interaktion bestimmen.
- Diese ist nämlich hybrid, da wir ein Diagramm haben, wo sich die beiden Linien überkreuzen und ein Diagramm, wo es nicht passiert.
Dies hat folgende Auswirkungen auf die Interpretierbarkeit der Effekte:
- die beiden \(a\)-Linien überschneiden sich (erstes Diagramm). Deswegen darf der Haupteffekt \(A\) auch bei Signifikanz nicht interpretiert werden!
- die beiden \(b\)-Linien überschneiden sich nicht (zweites Diagramm). Deswegen darf der Haupteffekt \(B\) bei Signifikanz interpretiert werden!

(c) Vervollständige die Ergebnistabelle einer einfaktoriellen Varianzanalyse unter der Annahme, dass der Faktor \(A\) vernachlässigt wurde, und führe die Signifikanztestung durch.

Quelle	QS	df	MQ	F
Koffeinkonsum (B)
Fehler
Total

Lösung

Hypothesen aufstellen:

Faktor \(B\) (Koffeinkonsum): \(H_0: \mu_1 = \mu_2 = \mu_3\), \(H_1: \mu_i \neq \mu_j\)
- Nullhypothese: Die Populationsmittelwerte der Stufen des Faktors „Koffeinkonsum“ sind gleich. D.h. es gibt keinen Unterschied zwischen den Stufen des Faktors \(B\).
- Alternativhypothese: Mindestens zwei Faktorstufen unterscheiden sich.

Prüfgröße \(F\) berechen (Tabelle vervollständigen):

Als Erstes bestimmen wir die Quadratsummen:
- Dabei wissen wir, dass die totale Quadratsumme sich zwischen der einfaktoriellen und multifaktoriellen ANOVA nicht unterscheidet. D.h. wir können die \(QS_{tot} = \underline{\underline{58}}\) aus der Aufgabenstellung zu (a) übernehmen.
- Die \(QS_B = \underline{\underline{27}}\) bleibt auch ohne Änderungen, da der Faktor \(B\) immer noch die gleiche Varianz aufklärt, wie zuvor.
- Die Fehlerquadratsumme ergibt sich dementsprechend als \(QS_e = QS_{tot}-QS_B = 58 -27 = \underline{\underline{31}}\)
- Wir können uns diese Fehlerquadratsumme inhaltlich auch so vorstellen: dazu gehört alles, was wir an nicht aufgeklärter Varianz haben. Jetzt haben wir Faktor \(A\) vernachlässigt. Somit gehört jetzt die Varianz, die durch diesen Faktor und durch die Interaktion \(AB\) aufgeklärt werden könnte, auch zur nicht aufgeklärten Varianz. \[QS_{e(einfaktoriell)}= QS_{e(mehrfaktoriell)} + QS_A + QS_{AB} \\ = 16 + 3+ 12 = \underline{\underline{31}}\]
- Hier nochmal die Veranschaulichung der Varianzzerlegung im mehr- vs. einfaktoriellen Fall:

Zu den Freiheitsgraden:
- hier wenden wir den gleichen Ansatz an: die \(df_{tot} = \underline{\underline{11}}\) bleibt erhalten
- genauso auch die \(df_B = \underline{\underline{1}}\)
- die restlichen Freiheitsgrade sind jetzt die Fehlerfreiheitsgrade, die sich wie folgt berechen lassen: \[df_{e (einfaktoriell)} = df_{e (mehrfaktoriell)} + df_A + df_{AB} \\ = 1 + 1 + 8 = \underline{\underline{10}}\]
Zu den mittleren Quadraten:
- jetzt können wir die MQ wie gewohnt berechnen: \[MQ_B = \frac{QS_B}{df_B} = \frac{27}{1} = \underline{\underline{27}}\] \[MQ_e = \frac{QS_e}{df_e} = \frac{31}{10} = \underline{\underline{3.1}}\]
Zum empirischen \(F\)-Wert: \[F_B = \frac{MQ_B}{MQ_e} = \frac{27}{3.1}= \underline{\underline{8.71}}\]

Quelle	QS	df	MQ	F
Koffeinkonsum (B)	27	1	27	8.71
Fehler	31	10	3.1
Total	58	11

Wird der Faktor \(A\) vernachlässigt, geht „systematische Variationsinformation“ verloren. Die Quadratsummen und Freiheitsgrade des Haupteffekts \(A\), der Interaktion und des Fehlers „verschmelzen/addieren sich“ zu einem, unaufgeklärten (Varianz-)Anteil. Die \(MQ_e\) und der \(F\)-Wert sind neu zu berechnen!

kritischer Wert und Testentscheidung

\[F_{df_B, df_e, 95\%} = F_{1, 10, 95\%} = \underline{\underline{4.965}}\] \[F_B = 8.71 > 4.965 = F_{krit}\] D.h. die \(H_0\) wird abgelehnt. Möglicher Fehler: \(\alpha\)-Fehler.

(d) Vervollständige die Ergebnistabelle der einfaktoriellen Varianzanalyse unter der Annahme, dass die vier Zellen des zweifaktoriellen Versuchsplans als die vier Stufen eines neuen Faktors \(C\) betrachtet werden!

Quelle	QS	df	MQ	F
C
Fehler
Total

Lösung

Zu Quadratsummen:
- die totale Quadratsumme bleibt wieder erhalten, da die Gesamtvarianz, die zu erklären ist, sich nicht verändert. \(QS_{tot} = \underline{\underline{58}}\)
- Der neue Faktor \(C\) fasst jetzt die ganze systematische Variazionsinformation zusammen, die in \(A\), \(B\) und Interaktion \(AB\) enthalten war. D.h. wir verlieren nichts an aufgeklärter Varianz, sie wird jetzt lediglich durch \(C\) allein aufgeklärt.

\[QS_C = QS_A + QS_B + QS_{AB} = 3 + 27 + 12 = \underline{\underline{42}}\]

die Fehlervarianz bleibt in diesem Fall unverändert wie in Aufgabe (a): \(QS_e = \underline{\underline{16}}\)
Hier nochmal die Veranschaulichung der Varianzzerlegung im mehr- vs. einfaktoriellen Fall:

Zu den Freiheitsgraden:
- die \(df_{tot} = \underline{\underline{11}}\) bleiben unverändert
- die \(df_e = \underline{\underline{8}}\) bleiben auch wie im mehrfaktoriellen Fall aus Aufgabe (a)
- die Freiheitsgrade des Faktors \(C\) ergeben sich aus den \(df\) von \(A\), \(B\) und \(AB\):

\[df_C = df_A + df_B + df_{AB} = 1 +1 +1 = \underline{\underline{3}} \]

Zu den mittleren Quadraten:
- jetzt können wir die MQ wie gewohnt berechnen: \[MQ_C = \frac{QS_C}{df_C} = \frac{42}{3} = \underline{\underline{14}}\] \[MQ_e = \frac{QS_e}{df_e} = \frac{16}{8} = \underline{\underline{2}}\]
Zum empirischen \(F\)-Wert: \[F_C = \frac{MQ_C}{MQ_e} = \frac{14}{2}= \underline{\underline{7}}\]

Quelle	QS	df	MQ	F
C	42	3	14	7
Fehler	16	8	2
Total	58	11

Werden die \(4\) Zellen des zweifaktoriellen Designs als \(4\) Stufen eines neuen Faktors \(C\) definiert, geht keine „systematische Variationsinformation“ verloren. Sie kann lediglich nicht mehr auf die einzelnen Quellen zurückgeführt werden. Die Quadratsummen und Freiheitsgrade der beiden Haupteffekte und der Interaktion „verschmelzen/addieren sich“ zu einem, aufgeklärten (Varianz-)Anteil. Die \(MQ_A\) und der \(F\)-Wert sind neu zu berechnen!

Aufgabe 2: Freizeitinteressen

In einem balancierten \(3\) x \(2\)-Design (\(n = 6\)) soll überprüft werden, inwiefern bestimmte Freizeitinteressen (\(a_1\): Sport, \(a_2\): Musik, \(a_3\): Technik) und das Vorhandensein eines Nebenjobs (\(b_1\): vorhanden, \(b_2\): nicht vorhanden) den Studienerfolg (aufsteigend geratet auf einer Skala von \(1\) bis \(10\)) beeinflussen. Die Gruppenmittelwerte sind in nachfolgender Tabelle zusammengetragen:

	\(a_1\)	\(a_2\)	\(a_3\)
\(b_1\)	4	3	6
\(b_2\)	3	5	7

(a) Wie groß sind die Werte \(p\), \(q\), \(N\)?

Lösung

\(p\) ist die Stufenanzahl des Faktors \(A\). Somit ergibt sich \(p= \underline{\underline{3}}\)
\(q\) ist die Stufenanzahl des Faktors \(B\). Somit ergibt sich \(q= \underline{\underline{2}}\)
\(N\) ist die Größe der Stichprobe. Wie berechen sie als \(N=p \cdot q \cdot n\), wobei \(p\) und \(q\) gerade definiert wurden und \(n\) sich auf die Personenazahl in jeder Faktorstufenkombination bezieht.
- In unserem Fall ist \(n= 6\).
- Somit können wir \(N\) berechen: \(N=p \cdot q \cdot n = 3 \cdot 2 \cdot 6 = \underline{\underline{36}}\)

(b) Vervollständige die Ergebnistabelle für die zweifaktorielle ANOVA für Modell I (beide Faktoren sind fest) und Modell II (Faktor \(A\) ist ein Faktor mit zufälligen Effekten)!

Quelle	QS	MQ
Freizeitinteressen (A)	62
Nebenjob (B)		4.0
Interaktion (AB)
Fehler	168
Total	248

Lösung

Modell I (feste Effekte)

Freiheitsgrade bestimmen:
- \(df_A = p-1 = 3-1 = \underline{\underline{2}}\)
- \(df_B = q-1 = 2-1 = \underline{\underline{1}}\)
- \(df_{AB} = (p-1) \cdot(q-1) = (3-1) \cdot (2-1) = \underline{\underline{2}}\)
- \(df_{tot} = N-1 = 36-1 = \underline{\underline{35}}\)
- \(df_e = df_{tot}-df_A -df_B -df_{AB} = 36-2-1-2 = \underline{\underline{30}}\)
die fehlenden Quadratsummen berechnen:
- Die \(QS_B\) können wir mit Hilfe der bereits vorgegebenen \(MQ_B\) berechen:

\[MQ_B = \frac{QS_B}{df_B} \rightarrow QS_B = MQ_B \cdot df_B = 4.0 \cdot 1 = \underline{\underline{4.0}}\]

die \(QS_{AB}\) können wir jetzt auch berechen, da sich alle \(QS\) additiv zu der totalen Quadratsumme \(QS_{tot}\) zusammensetzen.

\[QS_{AB} = QS_{tot} - QS_A - QS_B - QS_e \\ = 248 - 62 - 4 - 168 \\ = \underline{\underline{14}}\]

Jetzt können wir die mittleren Quadrate (MQ) berechen:
- dabei teilen wir die jeweilige Quadratsumme durch die zugehörigen Freiheitsgrade: \[MQ_A = \frac{QS_A}{df_A} = \frac{62}{2} = \underline{\underline{31}}\] \[MQ_{AB} = \frac{QS_{AB}}{df_{AB}} = \frac{14}{2} = \underline{\underline{7}}\] \[MQ_e = \frac{QS_e}{df_e} = \frac{168}{30} = \underline{\underline{5.6}}\]
Jetzt berechen wir die empirischen \(F\)-Werte:
- wir haben in dieser Aufgabe ein Modell mit festen Effekten angenommen, weswegen jetzt bei uns im Nenner immer \(MQ_e\) steht. \[F_A = \frac{MQ_A}{MQ_e} = \frac{31}{5.6}= \underline{\underline{5.54}}\] \[F_B = \frac{MQ_B}{MQ_e} = \frac{4}{5.6}= \underline{\underline{0.71}}\] \[F_{AB} = \frac{MQ_{AB}}{MQ_e} = \frac{7}{5.6}= \underline{\underline{1.25}}\]

Modell II (Faktor \(A\) zufällig)

Hierfür müssen wir lediglich die \(F\)-Werte anpassen.
Jetzt sind Faktor \(A\) und die Interaktion \(AB\) zufällig.
Wenn wir die \(F\)-Werte für die Faktoren \(\underline{\underline{A}}\) \(\underline{\underline{und}}\) \(\underline{\underline{B}}\) berechnen, müssen wir bei beiden Faktoren ihre \(MQ\) durch \(MQ_{AB}\) statt \(MQ_e\) teilen, obwohl nur Faktor A zufällig ist.:

\[F_A = \frac{MQ_A}{MQ_{AB}} = \frac{31}{7}= \underline{\underline{4.43}}\] \[F_B = \frac{MQ_B}{MQ_{AB}} = \frac{4}{7}= \underline{\underline{0.57}}\] * \(F_{AB}\) bleibt unverändert im Vergleich zum Modell mit festen Effekten.

\[F_{AB} = \frac{MQ_{AB}}{MQ_e} = \frac{7}{5.6}= \underline{\underline{1.25}}\]

Quelle	QS	df	MQ	F Modell I	F Modell II
Freizeitinteressen (A)	62	2	31	5.54	4.43
Nebenjob (B)	4	1	4	0.71	0.57
Interaktion (AB)	14	2	7	1.25	1.25
Fehler	168	30	5.6
Total	248	35

(c) Formuliere die statistischen Nullhypothesen für Modell I und Modell II!

Modell I feste Effekte	Modell II gemischte Effekte
Haupteffekt \(A\) statistische \(H_0\): _______________	Haupteffekt \(A\) statistische \(H_0\): _______________
Haupteffekt \(B\) statistische \(H_0\): _______________	Haupteffekt \(B\) statistische \(H_0\): _______________
Interaktionseffekt \(AB\) statistische \(H_0\): _______________	Interaktionseffekt \(AB\) statistische \(H_0\): _______________

Lösung

Modell I (feste Effekte)

Hier stellen wir die gewöhnlichen Hypothesen bezüglich der Mittelwertsunterschiede für den mehrfaktoriellen Fall auf.
Lösung wird der Übersichtlichkeit halber in der Tabelle unten aufgeführt.

Modell I (gemischte Effekte)

Jetzt ist der Faktor \(A\) zufällig. Das heißt, wir interessieren uns nicht mehr für die Unterschiede zwischen den bestimmten Freizeitinteressen (Sport, Musik und Technik) im Bezug auf Studienerfolg. Jetzt wollen wir wissen, ob die Freizeitinteressen allgemein Studienerfolg beeinflussen. Deswegen stellen wir die Hypothese bezüglich der Varianz dieses zufälligen Faktors. \(H_0\): \(\sigma_A^2=0\)
- Anmerkung: unsere \(H_1\) würden wir folgendermaßen formulieren: \(H_1\): \(\sigma_A^2 >0\).
- Die Hypothesen scheinen nicht erschöpfend formuliert zu sein. Die Varianz kann aber nicht kleiner \(0\) sein. Somit berücksichtigen wir diese Option auch nicht in unseren Hypothesen.
Da der Faktor \(A\) zufällig ist, ist jetzt auch dessen Interaktion \(AB\) mit dem Faktor \(B\) zufällig. Darum stellen wir auch dafür eine Hypothese bezüglich der Varianz auf. \(H_0\): \(\sigma_{AB}^2=0\)
Da der Faktor \(B\) weiterhin fest ist, verändert sich die dazugehörige Hypothese nicht.

Modell I feste Effekte	Modell II gemischte Effekte
Haupteffekt \(A\) statistische \(H_0\): \(\underline{\bar{\mu}_{1\cdot} = \bar{\mu}_{2\cdot} = \bar{\mu}_{3\cdot}}\)	Haupteffekt \(A\) statistische \(H_0\): \(\underline{\sigma_A^2=0}\)
Haupteffekt \(B\) statistische \(H_0\): \(\underline{\bar{\mu}_{\cdot 1} = \bar{\mu}_{\cdot 2}}\)	Haupteffekt \(B\) statistische \(H_0\): \(\underline{\bar{\mu}_{\cdot 1} = \bar{\mu}_{\cdot 2}}\)
Interaktionseffekt \(AB\) statistische \(H_0\): \(\underline{\mu_{ij} - \bar{\mu}_{i \cdot} - \bar{\mu}_{\cdot j} + \bar{\mu}_{\cdot \cdot} = 0}\)	Interaktionseffekt \(AB\) statistische \(H_0\): \(\underline{\sigma_{AB}^2=0}\)

(d) Faktor \(B\) „Nebenjob“ wurde vernachlässigt. Vervollständige die Ergebnistabelle der einfaktoriellen ANOVA!

Quelle	QS	df	MQ	F
Freizeitinteressen (A)
Fehler
Total

Lösungsansatz

Eine ähnliche Aufgabe haben wir in Aufgabe 1 (c) schon gelöst. Deswegen stehen hier nur ein paar Tipps.
Wir überlegen, wie jetzt das Verhältnis der aufgeklärten und unaufgeklärten Varianz ist im Vergleich zu dem zweifaktoriellen Fall:

Daraus können wir erschließen, wie die neuen \(QS\) und \(df\) aussehen müssen.
Danach bleibt uns wie gewohnt die \(MQ\) und den \(F\)-Wert zu berechnen.

Lösung

Wird der Faktor \(B\) „Nebenjob“ vernachlässigt, geht „systematische Variationsinformation“ verloren.
Die Quadratsummen und Freiheitsgrade des Haupteffekts \(B\), der Interaktion \(AB\) und des Fehlers „verschmelzen/addieren sich“ zu einem, unaufgeklärten (Varianz-)Anteil.
Die Quadratsumme, die Freiheitsgrade und die mittlere Quadratsumme des Haupteffekts \(A\) bleiben konstant.
Die \(MQ_e\) und der \(F\)-Wert sind neu zu berechnen!

Quelle	QS	df	MQ	F
Freizeitinteressen (A)	62	2	31	5.50
Fehler	186	33	5.64
Total	248	35

(e) Die sechs Zellen des zweifaktoriellen Versuchsplans werden als die sechs Stufen eines neuen Faktors \(C\) betrachtet. Vervollständige die Ergebnistabelle der einfaktoriellen ANOVA!

Quelle	QS	df	MQ	F
C
Fehler
Total

Lösungsansatz

Auch hier haben wir eine ähnliche Aufgabe in Aufgabe 1 (d) schon gelöst.
Wir überlegen, wie das Verhältnis der aufgeklärten und unaufgeklärten Varianz ist im Vergleich zu dem zweifaktoriellen Fall:

Daraus können wir erschließen, wie die neuen \(QS\) und \(df\) aussehen müssen.
Danach bleibt uns wie gewohnt die \(MQ\) und den \(F\)-Wert zu berechnen.

Lösung

Werden die \(6\) Zellen des zweifaktoriellen Designs als \(6\) Stufen eines neuen Faktors \(C\) definiert, geht keine „systematische Variationsinformation“ verloren.
Die Quadratsummen und Freiheitsgrade der beiden Haupteffekte und der Interaktion „verschmelzen/addieren sich“ zu einem, aufgeklärten (Varianz-)Anteil.
Die Quadratsumme, die Freitsgrade und die mittlere Quadratsumme des Fehlers bleiben konstant.
Die \(MQ_A\) und der \(F\)-Wert sind neu zu berechnen!

Quelle	QS	df	MQ	F
C	80	5	16	2.86
Fehler	168	30	5.60
Total	248	35

(f) Zeichne mithilfe der Zellenmittelwerte die zugehörigen Interaktionsdiagramme! Welche Interaktionsart liegt vor und welche Auswirkungen hat dies auf die Interpretierbarkeit der beiden Haupteffekte?

	\(a_1\)	\(a_2\)	\(a_3\)
\(b_1\)	4	3	6
\(b_2\)	3	5	7

Lösung

Eine ähnliche Aufgabe haben wir bereits gelöst. Deswegen sind hier gleich die Interaktionsdiagramme gezeigt:

Interpretierbarkeit der Effekte:
- \(b\)-Linien überschneiden sich \(\rightarrow\) Haupteffekt \(B\) darf auch bei Signifikanz nicht interpretiert werden.
- \(a\)-Linien überschneiden sich \(\rightarrow\) Haupteffekt \(A\) darf auch bei Signifikanz nicht interpretiert werden.
Art der Interaktion: disordinal.

(g) Fülle die Tabelle der sechs Zellmittelwerte unter der Annahme neu aus, dass es keine Interaktion zwischen Faktor \(A\) und \(B\) gibt!

Lösung

Als Erstes bestimmen wir die Faktorstufenmittelwerte (Randmittelwerte), indem wir jeweils die Werte (Mittelwerte der Faktorstufenkombinationen) in einer Zeile bzw. Spalte (= Faktorstufe) addieren und durch die Anzahl der Werte in dieser Zeile bzw. Spalte teilen.

	\(a_1\)	\(a_2\)	\(a_3\)
\(b_1\)	4	3	6	\(\bar{B}_1 =\) 4.333
\(b_2\)	3	5	7	\(\bar{B}_2 =\) 5.000
	\(\bar{A}_1 =\) 3.500	\(\bar{A}_2 =\) 4.000	\(\bar{A}_3 =\) 6.500	\(\bar{G} =\) 4.667

Diese Faktorstufenmittelwerte sind fest, unabhängig davon, wie sich die Werte innerhalb der Faktorstufenkombinationen verändern. Dies wird dadurch begründet, dass die Effekte \(A\) und \(B\) unabhängig davon existieren, wie groß die Interaktion \(AB\) zwischen ihnen ist (und ob sie überhaupt existiert).
Jetzt erinnern wir uns an die \(H_0\) des Interaktionseffekts (feste Effekte):

\[\mu_{ij} - \bar{\mu}_{i \cdot} - \bar{\mu}_{\cdot j} + \bar{\mu}_{\cdot \cdot} = 0\]

In Stichprobenkennwerte übersetzt können wir schreiben:

\[(1) \bar{AB}_{ij} - \bar{A}_{i \cdot} - \bar{B}_{\cdot j} + \bar{G} = 0 \\ bzw. \\ (2) \bar{AB}_{ij} = \bar{A}_{i \cdot} + \bar{B}_{\cdot j} - \bar{G}\]

Diese Formel (2) beschreibt die Mittelwerte der Faktorstufenkombinationen \(\bar{AB}_{ij}\) für den Fall, dass keine Interaktion vorliegt, das heißt, wenn es keine weiteren Effekte gibt, außer \(A\) und \(B\).
Dies erkennen wir daran, dass die \(\bar{AB}_{ij}\) sich in diesem Fall aus \(\bar{G}\), \(\bar{A}_{i \cdot}\) und \(\bar{B}_{\cdot j}\) zusammensetzen.
D.h. mit Formel (2) lassen sich die Zellenmittelwerte berechnen unter der Annahme, dass keine Interaktion vorliegt:

\[ \bar{AB}_{11} = \bar{A}_{1 \cdot} + \bar{B}_{\cdot 1} - \bar{G} = 3.500 + 4.333 - 4.667 = 3.167 \\ \bar{AB}_{12} = \bar{A}_{1 \cdot} + \bar{B}_{\cdot 2} - \bar{G} = 3.500 + 5.000 - 4.667 = 3.833 \\ \bar{AB}_{21} = \bar{A}_{2 \cdot} + \bar{B}_{\cdot 1} - \bar{G} = 4.000 + 4.333 - 4.667 = 3.667 \\ \bar{AB}_{22} = \bar{A}_{2 \cdot} + \bar{B}_{\cdot 2} - \bar{G} = 4.000 + 5.000 - 4.667 = 4.333 \\ \bar{AB}_{31} = \bar{A}_{3 \cdot} + \bar{B}_{\cdot 1} - \bar{G} = 6.500 + 4.333 - 4.667 = 6.167 \\ \bar{AB}_{32} = \bar{A}_{3 \cdot} + \bar{B}_{\cdot 2} - \bar{G} = 6.500 + 5.000 - 4.667 = 6.833 \\\]

Hier sind nochmal diese Werte in der Tabelle dargestellt:

	\(a_1\)	\(a_2\)	\(a_3\)
\(b_1\)	3.167	3.667	6.167	\(\bar{B}_1 =\) 4.333
\(b_2\)	3.833	4.333	6.833	\(\bar{B}_2 =\) 5.000
	\(\bar{A}_1 =\) 3.500	\(\bar{A}_2 =\) 4.000	\(\bar{A}_3 =\) 6.500	\(\bar{G} =\) 4.667

Aufgabe 3: Therapieformen

(a) Was ist ein unbalanciertes Design?

Lösung

Die Untersuchungseinheiten verteilen sich nicht gleichmäßig auf die verschiedenen Bedingungen. D.h. innerhalb einzelner Faktorstufenkombinationen werden unterschiedlich viele Personen beobachtet.
Die Faktoren sind nicht mehr unabhängig voneinander (orthogonal zueinander).

Es werden die Effekte von Verhaltenstherapie vs. Psychoanalyse (Faktor \(A\)) und von Kurz- vs- Langzeittherapie (Faktor \(B\)) auf den Therapieerfolg (kleinere Mittelwerte deuten auf stärkere Symptomreduktion hin) untersucht. Folgende Tabelle ergibt sich:

	VT	PA
Kurzzeit-T	\(20\) \(n=50\)	\(35\) \(n=28\)
Langzeit-T	\(28\) \(n=25\)	\(23\) \(n=46\)

(b) Berechne die Mittelwerte des Faktors \(A\) (Therapiearten) mit und ohne Berücksichtigung der Therapielänge (\(B\)). Was bedeutet die jeweilige Vorgehensweise inhaltlich? Welchen Quadratsummentypen entsprechen diesen Vorgehensweisen?

Lösungsansatz

Hier geht es um die Gewichtung der Mittelwerte mit Hilfe der Stichprobengröße.
Wenn wir keine Gewichtung vornehmen, kontrollieren wir damit für den zweiten Faktor.

Lösung

Mittelwerte des Faktors \(A\) (Therapiearten) mit Berücksichtigung der Therapielänge:

hier berechnen wir die ungewichteten (oder gleich gewichteten) Mittelwerte:
Verhaltenstherapie:

\[\frac{\bar{AB}_{11} + \bar{AB}_{12}}{2} = \frac{20 + 28}{2} = \underline{\underline{24}}\]

Psychoanalyse:

\[\frac{\bar{AB}_{21} + \bar{AB}_{22}}{2} = \frac{35 + 23}{2} = \underline{\underline{29}}\]

Wir vergleichen die beiden Therapiearten miteinander und sehen, dass die Psychoanalyse der Verhaltenstherapie sowie bei Kurzzeittherapie als auch bei Langzeittherapie unterlegen ist.
Dabei beachten wir, dass sich die Therapiedauer auf den Erfolg der jeweiligen Therapie auswirkt (d.h. wir beziehen den Faktor \(B\) in unsere Berechnungen ein).
Somit betrachten wir durch diese Berechnung den “reinen” Einfluss der Therapieart, ohne dass diese potentiell durch die Therapiedauer konfundiert wird. Durch die ungewichteten Mittelwerte stellen wir sicher, dass die Unterschiede in der Wirksamkeit nicht durch die unterschiedliche Therapielänge (VT ist meistens kürzer) beeinflusst bzw. erklärt wird. Besser gesagt, wir betrachten die Therapiearten nach statistischer Kontrolle der Therapiedauer.
Eine genauere Erklärung des Prinzips der statistischen Kontrolle folgt in der Vorlesung zur multiplen linearen Regression. Wenn ihr hier noch nicht alles versteht, dann schaut einfach nach der VL nochmal in diese Aufgabe herein, dann sollte das Prinzip klarer werden.
Diese Vorgehensweise, bei der wir einen Faktor nach Kontrolle für die anderen Faktoren betrachten, entspricht der Typ III Quadratsummenberechnung.

Mittelwerte des Faktors \(A\) (Therapiearten) ohne Berücksichtigung der Therapielänge:

hier berechnen wir die gewichteten Mittelwerte:
Verhaltenstherapie:

\[\frac{\bar{AB}_{11}\cdot n_{11} + \bar{AB}_{12}\cdot n_{12}}{n_{11}+n_{12}} = \frac{20\cdot 50 + 28 \cdot 25}{50+25} = \underline{\underline{22.667}} \]

Psychoanalyse:

\[\frac{\bar{AB}_{21}\cdot n_{21} + \bar{AB}_{22}\cdot n_{22}}{n_{21}+n_{22}} = \frac{35\cdot 28 + 23 \cdot 46}{28+46} = \underline{\underline{27.54}} \]

Hier haben wir die Therapielänge nicht berücksichtigt. Die Psychoanalyse scheint weniger erfolgreich zu sein.
Diese Vorgehensweise, bei der wir ein Faktor zuerst ohne Einbeziehung der anderen Faktoren betrachten (und dann die anderen nach und nach in unsere Berechungen aufnehmen), entspricht der Typ I Quadratsummenzerlegung.
Wenn wir gewichtete Mittelwerte für die Faktorstufen VT und PA berechnen, gewichten wir die Zellmittelwerte an ihren ns. Hier fällt bei der VT also die Kurzzeit und bei der PA die Langzeittherapie stärker ins Gewicht. Als Konsequenz beeinflusst der Effekt von B (die Therapielänge) die Mittelwerte des Effekts von A (der Therapieart). Dementsprechend sind die Haupteffekte A und B nicht unabhängig voneinander. Diese Vorgehensweise würden wir wählen, wenn wir nur daran interessiert sind, ob sich VT und PA in ihrer Wirksamkeit unterscheiden und dabei davon ausgehen, dass eine längere Therapie einfach zur PA dazugehört (und dementsprechend den Effekt der Therapielänge (B) mit einfließen lassen). Bei der Interpretation müssten wir also beachten, dass der Effekt des Hauptfaktors „Therapieart“ vom Effekt der Therapielänge beeinflusst und potentiell (vollständig) erklärt wird.

Multifaktorielle ANOVA

Aufgabe 1: Koffeinkonsum

Aufgabe 2: Freizeitinteressen

Aufgabe 3: Therapieformen