ANOVA Aufgabe 1: Schlafentzug

Es soll untersucht werden, wie sich Schlafentzug auf die Konzentrationsleistung von Personen auswirkt. Die Konzentrationsleistung als abhängige Variable wird durch einen Konzentrationstest erfasst. Die unabhängige Variable, der Schlafentzug, wird in p Stufen untersucht. Es wird eine Zufallsstichprobe von N Personen zufällig und zu gleichen Anteilen auf die drei Untersuchungsbedingungen aufgeteilt.

(a) Werte die Untersuchung mit einer einfaktoriellen Varianzanalyse aus, α = .05. Vervollständige dazu die Ergebnistabelle sowie die nachfolgenden Lücken!

Quelle QS df MQ F
Gruppen (A) 2 64
Fehler
Total 144 11

\(H_{0}\): _______________
\(H_{1}\): _______________
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösung

Quelle QS df MQ F
Gruppen (A) 128 2 64 36
Fehler 16 9 1.778
Total 144 11

Erklärung:

  • In der Varianzanalyse (ANOVA) unterscheiden wir zwischen systematischer und unsystematischer Varianz.
    • Systematische Varianz ist der Anteil an der Gesamtvarianz der beobachteten Werte, der durch Gruppenunterschiede (z.B. ein Treatment) zustande kommt. In unserem Fall könnte das die Länge des Schlafentzugs sein, bspw. kein Schlafentzug, 24 Stunden, 72 Stunden.
    • Unsystematische Varianz ist der Anteil an der Gesamtvarianz der beobachteten Werte, der durch Messfehler und andere unsystematische Störeinflüsse zustande kommt, z.B. die Schlafqualität während der letzten Schlafperiode. Hier sind also die individuellen Abweichungen vom Mittelwert innerhalb der Treatmentgruppen gemeint, die Fehlervarianz.
  • Zunächst zu den Quadratsummen:
    • Die Quadratsumme, die die Gesamtvariation bezüglich der Konzentration in unserer Stichprobe bezeichnet, ist die quadrierte Abweichung all unserer beobachteten Werte von dem Gesamtmittelwert \(QS_{tot}\). Diese Gesamtvariation wollen wir erklären.
    • Wir zerlegen sie in die Quadratsumme, die die systematische Varianz der Konzentrationsleistungen als unterschiedliche Abweichungen der Gruppenmittelwerte (unterschiedlicher Schlafentzug) vom Gesamtmittelwert widerspiegelt: \(QS_{A}\)
    • und die Fehlerquadratsumme \(QS_{e}\), mit der wir die unterschiedlichen Konzentrationsleistungen innerhalb unserer Schlafentzugs-Gruppen berücksichtigen.
    • Da uns bisher nur \(QS_{tot}\) gegeben ist, schauen wir uns zunächst die Freiheitsgrade in der nächsten Spalte an.
  • Die Freiheitsgrade:
    • Die Freiheitsgrade insgesamt sind uns mit \(\boldsymbol{df_{tot}} = 11\) gegeben. Wenn wir die Gesamtquadratsumme in der Stichprobe berechnen mit \(QS_{tot} = \sum_{i}^{p} \sum_{m}^{n} (y_{im} - \bar{G})^2\) wollten, könnten - wie bei allen Mittelwerten - \(N - 1\) Werte frei variieren. D.h. \(df_{tot} = N - 1\) (und im Umkehrschluss bedeutet das, dass wir \(df_{tot} + 1 = N = 12\) Versuchspersonen untersuchen). Alternativ kann man die \(df_{tot}\) aus der Summe der Freiheitsgrade für die Gruppenunterschiede \(df_{A}\) und der Fehlerfreiheitsgrade \(df_{e}\) berechnen: \(\boldsymbol{df_{tot} = df_{A} + df_{e}}\)
    • Auch die Freiheitsgrade für die Gruppenunterschiede \(\boldsymbol{df_{A}} = 2\) sind gegeben. Für den balancierten Fall (d.h. gleich große Gruppen), berechnen wir \(QS_{tot} = \sum_{i}^{p} n \cdot (\bar{A}_{i} - \bar{G})^2\). Es könnten von unseren \(p = 3\) Gruppenmittelwerten \(\bar{A}_{i}\) zwei frei variieren, um den Gesamtmittelwert \(\bar{G}\) zu bilden.
    • Die Fehlerfreiheitsgrade \(\boldsymbol{df_{e}}\) berechnet man durch die Gesamtstichprobengröße N minus die Gruppenanzahl p. Denn für die Fehlerquadratsumme berechnen wir p Gruppenmittelwerte, wobei in jeder Gruppe von den n Konzentrationswerten \(n - 1\) für die Mittelwertberechnung frei variieren können. Uns gehen also p Freiheitsgrade verloren: \(df_{e} = N - p = p \cdot (n - 1)\).
    • Allerdings kennen wir nicht die Anzahl der Personen pro Gruppe (und außerdem geht folgender Rechenweg schneller): Da wir den Zusammenhang \(df_{tot} = df_{A} + df_{e}\) kennen und uns sowohl \(df_{A}\) als auch \(df_{tot}\) gegeben sind, können wir einsetzen \(11 = 2 + df_{e}\) und umstellen: \[df_{e} = 11 - 2 = \underline{\underline{9}}\]
  • Die mittleren Quadratsummen (MQ) sind wichtig für die Hypothesentestung. Während die oben besprochenen QS sich nur auf die Stichprobe beziehen, werden für die MQ die Quadrate an den zugehhörogen Freiheitsgraden relativiert, damit wir Aussagen über die gesamte Population treffen können.
    • D.h. \(\frac{QS_{A}}{df_{A}} = MQ_{A}\). Mit diesem Wissen stellen wir um und setzen ein: \(QS_{A} = MQ_{A} \cdot df_{A} = 64 \cdot 2 = \underline{\underline{128}}\)
    • Jetzt können wir aus der \(QS_{tot}\) und der erhaltenen \(QS_{A}\) die Fehlerquadratsumme berechnen: \[QS_{e} = QS_{tot} - QS_{A} = 144 - 128 = \underline{\underline{16}}\]
    • Die mittlere Fehlerquadratsumme berechnen wir folgendermaßen: \[MQ_{e} = \frac{QS_{e}}{df_{e}} = \frac{16}{9} = \underline{\underline{1.778}}\]
  • Der empirische F-Wert ermittelt, ob die systematische Varianz des Treatments (unsere Schlafentzug-Gruppen) im Vergleich zur unsystematischen Varianz innerhalb der Gruppen “groß” ist.
    • Da wir über die Stichprobe hinaus auf die Population schließen möchten, verwenden wir die mittleren Quadratsummen, indem wir die \(MQ_{A}\) an der \(MQ_{e}\) relativieren: \[F_{emp} = \frac{MQ_{A}}{MQ_{e}} = \frac{64}{1.778} \approx \underline{\underline{36}}\]

Hypothesentestung:

  • Wir testen die Nullhypothese, dass alle Gruppenmittelwerte \(\mu_{i}\) gleich groß sind, d.h. dass die gesamte Varianz in der Konzentrationsleistung unsystematisch ist und nicht durch den unterschiedlich langen Schafentzug unserer Gruppen erklärt werden kann: \[\underline{\underline{H_{0}: \mu_{1} = \mu_{2} = \mu_{3}}}\]
  • Unsere Alternativhypothese ist ungerichtet und unspezifisch, d.h. wir nehmen an, dass nicht alle Mittelwerte in Konzentrationsleistung zwischen den Gruppen in der Population gleich sind: \[\underline{\underline{H_{1}: \mu_{i} \neq \mu_{j}}}\]
  • Die empirische Prüfgröße F haben wir bereits oben berechnet: \(\underline{\underline{F_{emp} \approx 36}}\)
  • Unsere Prüfgröße ist verteilt mit \(df_{Zähler} = 2\) und \(df_{Nenner} = 9\). Die Zählerfreiheitsgrade sind die Freiheitsgrade für die Gruppenunterschiede, an denen wir die \(QS_{A}\) für die \(MQ_{A}\) im Zähler der F-Prüfgröße relativiert haben. Im Falle der einfaktoriellen ANOVA gilt also \(df_{Zähler} = df_{A}\). Entsprechend sind die Nennerfreiheitsgrade die Fehlerfreiheitsgrade: \(df_{Nenner} = df_{e} = 9\).
  • Jetzt können wir den kritischen F-Wert \(F_{2; 9}\) für \(\alpha = 5\%\) in der Tabelle nachschauen:

\(\rightarrow \underline{\underline{F_{2; 9; 95\%} = 4.256}}\)
* Da \(36> 4.256\) und somit \(F_{2; 9; 95\%} > F_{emp}\), wird die Nullhypothese verworfen. * Dabei können wir den \(\boldsymbol{\alpha-Fehler}\) begehen.

\(H_0: \mu_{1} = \mu_{2} = \mu_{3}\)
\(H_1: \mu_{i} \neq \mu_{j}\)
Prüfgröße: \(\boldsymbol{36}\) mit \(df_{Zähler} = 2\) und \(df_{Nenner} = 9\)
kritischer Wert: \(\boldsymbol{F_{2; 9; 95\%} = 4.256}\)
Testentscheidung: Die \(H_0\) wird verworfen.
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\alpha}\)-Fehler


(b) Wie viele Stufen besaß der Behandlungsfaktor und wie viele Versuchspersonen wurden untersucht?


Lösung

  • Wir suchen die Anzahl der Treatmentstufen bzw. Gruppenanzahl p.
    • Da \(df_{A} = p - 1\), stellen wir um und setzen ein: \(p = 2 + 1 = \underline{\underline{3}}\)
    • Der Behandlungsfaktor hatte drei verschiedene Stufen.
  • Die Anzahl der Versuchspersonen N leiten wir ebenfalls aus den Freiheitsgraden ab.
    • \(df_{tot} = N - 1 \rightarrow\) wir stellen um und setzen ein: \(N = 11 + 1 = \underline{\underline{12}}\)
    • Es gab insgesamt 12 Versuchspersonen.


(c) Wie viel Prozent der Gesamtvarianz können auf das Treatment zurückgeführt werden?


Lösung

  • Den Anteil der systematischen Varianz an der Gesamtvarianz (in der Stichprobe!) berechnet man durch \(\eta^2\) mit \(\eta^2 = \frac{QS_{A}}{QS_{tot}} = \frac{128}{144} \approx \underline{\underline{.889}}\)


ANOVA Aufgabe 2: Musikstile

In einem Experiment sollte untersucht werden, ob sich die Konzentrationsleistung (AV) während des Anhörens eines Musikstücks in Abhängigkeit vom jeweiligen Musikstil (UV) unterscheidet. Eine Zufallsstichprobe (N = 84) wurde unter Verwendung eines Zufallsmechanismus zu gleichen Anteilen auf die p Untersuchungsbedingungen verteilt. Unter der Annahme, dass es sich hier um ein Modell mit festen Effekten handelt, wurde mit R eine einfaktorielle Varianzanalyse (α = .05) gerechnet.

(a) Ergänze die fehlenden Werte im R-Output und vervollständige die nachfolgenden Lücken!

\(H_{0}\): _______________
\(H_{1}\): _______________
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösung

  • Kleine Erklärung zum R-Output:

    • Ganz links sehen wir die angenommenen Varianzquellen, zum einen den Treatmentfaktor (musikstil) und die Fehlervarianz (Residuals).
    • Unter Df stehen natürlich jeweils die Freiheitsgrade.
    • Sum Sq bedeutet Quersumme, darunter stehen also \(QS_{A}\) und \(QS_{e}\).
    • Rechts daneben finden wir die mittleren Quadrate (Mean Sq).
    • F value steht für den empirischen F-Wert, also unsere Prüfgröße.
    • Und schließlich finden wir ganz links unter Pr(>F) den p-Wert.
      • Die Abkürzung steht für die Bedeutung des p-Wertes: Die Wahrscheinlichkeit (Probability Pr), den beobachteten oder einen noch extremeren F-Wert (>F; beim F-Test wird immer nur die linke Seite der Verteilung betrachtet, extremere Werte sind also immer größer) zu erhalten, gegeben, dass die Nullhypothese wahr ist.
      • Die wissenschaftliche Schreibweise \(Nex = N \cdot 10^x\) bedeutet, dass man das Dezimalkomma um \(x\) Stellen nach hinten (positiver Exponent x) bzw. vorne (negativer Exponent x) in der Zahl N verschoben werden muss, um die Zahl in unserer “normalen” Schreibweise zu erhalten. In diesem Beispiel wäre das \(2.26e-15 = 0.00000000000000226\).
    • Hinter dem F-Wert finden wir noch eine symbolische Kennzeichnung, auf welchem \(\alpha\)-Niveau das Ergebnis signifikant wäre - die Legende findet Ihr ganz unten auf dem Output. Unser Ergebnis wäre also mindestens auf dem \(\alpha\)-Niveau von 0.1% signifikant. Allerdings bringt uns diese Information wenig, da wir unseren empirischen p-Wert direkt mit dem vor der Datenerhebung festgelegten Signifikanzniveau vergleichen.
  • Die \(\boldsymbol{df_{e}}\) erhalten wir, indem wir \(df_{tot} - df_{A} = df_{e}\) rechnen.

    • \(df_{tot} = N - 1 = 84 - 1\) und \(df_{A} = 3\) \(\rightarrow df_{e} = 84 - 1 - 3 = \underline{\underline{80}}\)
  • Für die nächste Lücke suchen wir \(\boldsymbol{QS_{A}}\). Diese erhalten wir durch \(QS_{A} = MQ_{A} \cdot df_{A}\)

    • \(MQ_{A} = 700.3 \cdot 3 = \underline{\underline{2100.90}}\)
  • Die \(\boldsymbol{MQ_{e}}\) berechnen wir via \(MQ_{e} = \frac{QS_{e}}{df_{e}} = \frac{1472}{80} = \underline{\underline{18.40}}\)

  • \(\boldsymbol{F_{emp}}\) \(= \frac{MQ_{A}}{MQ_{e}} = \frac{700.3}{18.40} \approx \underline{\underline{38.06}}\)

  • Die Nullhypothese lautet, dass sich die Konzentrationsleistung während des Anhörens eines Musikstückes nicht in Abhängigkeit vom Musikstil unterscheidet: \[\underline{\underline{H_{0}: \mu_{1} = \mu_{2} = \mu_{3}}}\]

  • Die Alternativhypothese lautet, dass sich die Konzentrationsleistung während des Anhörens eines Musikstückes in Abhängigkeit vom Musikstil unterscheidet: \[\underline{\underline{H_1: \mu_{i} \neq \mu_{j}}}\]

  • Die empirische Prüfgröße haben wir bereits berechnet: \[\underline{\underline{F_{emp} = 38.06}}\]

  • Unsere Prüfgröße hat \(df_{A} = 3\) Zählerfreiheitsgrade und \(df_{e} = 80\) Nennerfreiheitsgrade. Für \(\alpha = 5\%\) schauen wir in der Tabelle den kritischen F-Wert nach:

  • \(\underline{\underline{F_{3; 80; 95\%} \approx 2.72}}\)
  • Da die empirische Prüfgröße \(F_{emp} = 38.06\) größer ist als unser kritischer Wert \(F_{3; 80; 95\%} \approx 2.72\), verwerfen wir unsere Nullhypothese.
  • Dabei können wir den \(\alpha-Fehler\) begehen.


(b) Wie viele Stufen besaß der Faktor ”Musikstil“ und wie viele Versuchspersonen gab es pro Stufe?


Lösung

  • Faktorstufen p: \(df_{A} = \boldsymbol{p} - 1 \rightarrow 3 = p - 1 \rightarrow \underline{\underline{p = 4}}\)
    • Es gab vier Faktorstufen, d.h. die Versuchspersonen wurden vier verschiedenen Musikstile zugeordnet.
  • Versuchspersonen n pro Stufe: \(df_{e} = (\boldsymbol{n} - 1) \cdot p \rightarrow 80 = (n - 1) \cdot 4 \rightarrow 20 = n - 1 \rightarrow \underline{\underline{n = 21}}\)
    • Pro Faktorstufe wurden 21 Personen untersucht, es haben sich also immer 21 Versuchspersonen dasselbe Stück angehört, während sie Konzentrationsaufgaben gelöst haben.


(c) Berechne \(\eta^2\) und die IKK!


Lösung

  • \(\boldsymbol{\eta^2}\) \(= \frac{QS_{A}}{QS_{tot}} = \frac{2100.90}{2100.90 + 1472} \approx \underline{\underline{.588}}\)
    • Der Anteil der systematischen Varianz aufgrund der verschiedenen Musikstile an der Gesamtvarianz in der Stichprobe beträgt ca. 58.5%.
  • Die Intraklassenkorrelation (IKK) gibt die Stärke des Effekts des Treatments (der unterschiedlichen Musikstile) auf die abhängige Variable (die Konzentrationsleistung) an.
    • Da sich die IKK auf die Population bezieht, schätzen wir die Varianzkomponenten \(\hat{\sigma}_{A}^2\) und \(\hat{\sigma}_{e}^2\) für die Population:
    • Man rechnet: \(\begin{aligned} IKK &= \frac{\hat{\sigma}_{A}^2}{\hat{\sigma}_{A}^2 + \hat{\sigma}_{e}^2} \end{aligned}\) mit \(\hat{\sigma}_{A}^2 = \frac{MQ_{A} - MQ_{e}}{n}\) und \(\hat{\sigma}_{e}^2 = MQ_{e}\)
    • Wir setzen ein: \(\hat{\sigma}_{A}^2 = \frac{700.30 - 18.40}{21} = 32.471\)
    • \(\hat{\sigma}_{e}^2 = 18.40\)
    • \(IKK = \frac{32.471}{32.471 + 18.40} \approx \underline{\underline{0.638}}\)
    • Wir schätzen die Stärke des Effekts der unterschiedlichen Musikstile auf die Konzentrationsleistung in der Population auf 0.638.


(d) Ist die Berechnung der IKK hier sinnvoll? Warum (nicht)?


Lösung

  • Die Intraklassenkorrelation ist ein erwartungstreuer Schätzer der Varianz, die durch die zufällig ausgewählten Stufen des Treatmentfaktors aufgeklärt wird. Eine solche Schätzung ist in einem Modell mit festen Effekten, wie es in unserer Aufgabenstellung angenommen wird, also nicht sinnvoll.
  • Da die unterschiedlichen Merkmale verschiedener Musikstile nicht zufällig verteilt sind, wie z.B. bei Therapeuten einer “Schule”, erscheint es auch nicht realistisch, ein Modell mit zufälligen Effekten anzunehmen. Dabei würde man davon ausgehen, dass von den vier zufällig ausgewählten Musikstilen auf die Unterschiedlichkeit der Wirkung aller exisitierenden Musikstile auf die Konzentration generalisiert werden könnte.


ANOVA Aufgabe 3: LRS-Förderung

Zur Förderung der Lese- und Rechtschreibleistung von Kindern mit Lese-Rechtschreib-Schwierigkeiten gibt es unzählige Förderungsansätze. In einer Untersuchung erhalten 7 Kinder eine Förderung der auditiven Fähigkeiten, 9 Kinder ein vermehrtes Training von Lesen und Schreiben und 8 Kinder ein Training der phonologischen Bewusstheit. Es soll getestet werden, ob sich die Lese-Rechtschreibleistung aufgrund der Fördermethode unterscheidet.

(a) Welches Modell (feste oder zufällige Effekte) würdest Du annehmen? Begründe!


Lösung

  • Aufgrund der “unzähligen” Förderungsansätze könnte man hier annehmen, dass die untersuchten Förderungen eine zufällige Auswahl aus der Gesamtheit der Förderungsmethoden darstellen, also ein Modell mit zufälligen Effekten angemessen wäre. In diesem Fall würde die Feststellung angestrebt werden, dass sich LRS-Fördermethoden allgemein in ihrer Wirkung auf die Lese-Rechtschreibleistung von Kindern mit LRS unterscheiden (nicht nur die untersuchten).
  • Andererseits könnte man argumentieren, dass die untersuchten Fördermethoden möglicherweise nicht zufällig ausgewählt wurden, sondern die wichtigsten Methoden miteinander verglichen werden sollten. Man würde hier von einem Modell mit festen Effekten ausgehen, wenn nicht auf Wirkungen aller möglichen Fördermethoden generalisiert werden soll, sondern nur über die Wirkung der untersuchten Methoden für die Population Aussagen getroffen werden sollen.


(b) Stelle entsprechend des von Dir angenommenen Modells die zu testenden Hypothesen auf!


Lösung

  • Feste Effekte:
    • \(H_{0}: \mu_{1} = \mu_{2} = \mu_{3}\)
    • \(H_{1}: \mu_{i} \neq \mu{j}\)
  • Zufällige Effekte:
    • \(H_{0}: \sigma_{A}^2 = 0\)
    • \(H_{1}: \sigma_{A}^2 > 0\)


Die Untersuchung ergab, dass Unterschiede zwischen den Wirkungen der Fördermethoden auf die Lese- und Rechtschreibleistung existieren.

(c) Warum sollte dieses Ergebnis ggf. mit Vorsicht betrachtet werden?


Lösung

  • Die Gruppengrößen der Treatmentstufen sind unterschiedlich groß und \(n_{i} < 10\). Hier sollte geprüft werden, ob die Fehlervarianzen homogen sind (Homoskedastizitätsannahme der ANOVA):
    • Wenn die Fehlerkomponenten zwischen den Fördermethoden systematisch unterschiedlich groß sind (- wenn z.B. Kinder, die eine Förderung der auditiven Fähigkeiten erhalten, größere individuelle Unterschiede vom Gruppenmittelwert zeigten), wäre die Gültigkeit des F-Tests gefährdet.
    • In unserem Beispiel wäre die kleinere Varianz der anderen beiden Gruppen (vermehrtes Training von Lesen und Schreiben und Training der phonologischen Bewusstheit) dann mit den größeren Gruppengrößen kombiniert. Eine solche Konstellation führt dazu, dass der F-Test zu liberal ist.
    • D.h., dass das tatsächliche \(\alpha\)-Niveau höher ist als das nominelle \(\alpha\)-Niveau von bspw. 5%. Die Wahrscheinlichkeit, einen Fehler erster Art zu begehen und die Nullhypothese fälschlicherweise zu verwerfen, ist also höher, als wir festgelegt haben. Gleichzeitig ist das tatsächlich \(\alpha\)-Niveau nicht bekannt.
  • Für die vorliegende Untersuchung (und alle anderen Tests) bedeutet dies, dass wir genau die Annahmen prüfen müssen, um uns auf das Testergebnis verlassen bzw. die damit verbundene Unsicherheit genau einschätzen zu können.