Teststärke

(1) Beschriften

Ordne die folgenden Begriffe den korrekten Beschriftungen (I. bis V.) in der Grafik zu:

  • Effektgröße \(\delta\)
  • Wahrscheinlichkeit des Fehlers 2. Art (\(\beta\))
  • Wahrscheinlichkeit des Fehlers 1. Art (\(\alpha\))
  • \(1-\alpha\)
  • Teststärke (\(1-\beta\))
Lösung

Definitionen:

  • Effektgröße \(\delta\)= Maß für die Stärke eines Effekts (relativiert an der Standardabweichung)
  • Teststärke = Die Wahrscheinlichkeit, die Nullhypothese (zugunsten einer spezifischen H1) abzulehnen, wenn diese tatsächlich falsch ist
  • 1-\(\alpha\) = Die Wahrscheinlichkeit, die Nullhypothese beizubehalten, gegeben dass diese tatsächlich korrekt ist
  • Fehler 1. Art = Die Wahrscheinlichkeit, die Nullhypothese abzulehnen, gegeben dass diese jedoch korrekt ist
  • Fehler 2. Art= Die Wahrscheinlichkeit, die Nullhypothese beizubehalten, gegeben dass diese jedoch falsch ist



(2) Determinanten der Teststärke

Welche Angabe trifft zu?

I. Je kleiner das \(\alpha\)–Niveau, desto __________________ (größer/ kleiner) die Teststärke.

II. Je größer die Effektgröße \(\delta\), desto ________________ (größer/ kleiner) die Teststärke.

III. Je größer die Stichprobengröße \(N\), desto _______________ (größer/ kleiner) die Teststärke.

Lösung

I. Je kleiner das \(\alpha\)–Niveau, desto kleiner die Teststärke.

II. Je größer die Effektgröße \(\delta\), desto größer die Teststärke.

III. Je größer die Stichprobengröße \(N\), desto größer die Teststärke.

Erklärung:

Anhand der Grafik aus der Lösung der Aufgabe 1) lassen sich einige Zusammenhänge bezüglich der Teststärke beschreiben:

  • Je größer \(\beta\) (der Fehler 2. Art), desto kleiner die Teststärke \(1-\beta\) \(\rightarrow\) Da \(\alpha\) und \(\beta\) komplementär sind, beeinflusst \(\alpha\) folglich auch indirekt die Teststärke: Je kleiner \(\alpha\), desto größer \(\beta\) und folglich desto kleiner die Teststärke:

  • \(\delta\) gibt die standardisierte Größe des Effekts an. Je größer die Effektgröße \(\delta\), desto “weiter” sind die Verteilungen der Prüfgröße unter der \(H_0\) und der \(H_1\) voneinander entfernt. \(\rightarrow\) Grafisch lässt sich hieran verdeutlichen: Je kleiner der Überlappungsbereich der Verteilungen von \(H_0\) und \(H_1\) (durch eine große Effektgröße), desto kleiner ist \(\beta\) und folglich desto größer die Teststärke:

Zudem gilt: Je größer der Stichprobenumfang N, desto genauer die Schätzung. Dementsprechend steigt die Wahrscheinlichkeit, einen Effekt zu detektieren, sofern ein solcher vorliegt (also die Teststärke).
Dies lässt sich auch grafisch erklären: je genauer die Schätzung, desto kleiner der Standardfehler. Somit wird die Verteilung schmaler, sodass entsprechend wieder ein kleinerer Überlappungsbereich von \(H_0\) und \(H_1\) entsteht.



(3) Wahr oder falsch?

Welche Aussagen sind korrekt? (Mehrfachantwort möglich):

  1. Die Teststärkefunktion gibt die Teststärke in Abhängigkeit der Stichprobengröße \(n\) an.
  2. Die Teststärke des einseitigen Tests ist nur dann höher, wenn der Effekt die Richtung besitzt, die in der Alternativhypothese vorgegeben wurde.
  3. Die Interpretation von Effektgrößen hängt stets vom Untersuchungsgegenstand ab.
  4. Eine standardisierte Effektgröße von \(\delta\) = 1 entspricht einer Mittelwertsdifferenz, die doppelt so groß ist wie die Standardabweichung der Rohwerte
Lösung

  1. Falsch Die Teststärkefunktion gibt die Teststärke in Abhängigkeit der Stichprobengröße \(n\) an.
    \(\rightarrow\) Korrekt wäre: “Die Teststärkefunktion gibt die Teststärke (auf der y-Achse) in Abhängigkeit des Effekts \(\delta\) (auf der x-Achse) an. Hierbei entsteht für jede Stichprobengröße n eine eigene Funktion.”
  2. Korrekt Die Teststärke des einseitigen Tests ist nur dann höher, wenn der Effekt die Richtung besitzt, die in der Alternativhypothese vorgegeben wurde.
    \(\rightarrow\) Erklärung: Wie in Teilaufgabe 2) besprochen, erhöht sich die Teststärke mit steigendem \(\alpha\) Niveau. Da wir bei \(\alpha\) bei zweiseitiger Testung auf beide Seiten aufteilen, ist folglich auch die Teststärke bei zweiseitiger Testung geringer als bei einseitiger Testung.
    Logischerweise testen wir bei einseitiger Testung nur eine Seite der Verteilung und vernachlässigen die andere Seite. Besitzt der Effekt also nicht die Richtung, die wir zunächst angenommen und getestet haben (z.B.wenn \(\mu_1\) tatsächlich kleiner als \(\mu_0\) ist, wir aber rechtsseitig testeten), ist die Testung quasi “auf der falschen Seite” erfolgt. Dementsprechend geht die Teststärke in einem solchen Fall bei einseitiger Testung gegen unsere Irrtumswahrscheinlichkeit \(\alpha\).
  3. Korrekt Die Interpretation von Effektgrößen hängt stets vom Untersuchungsgegenstand ab.
  4. Falsch Eine standardisierte Effektgröße von \(\delta\) = 1 entspricht einer Mittelwertsdifferenz, die doppelt so groß ist wie die Standardabweichung der Rohwerte
    \(\rightarrow\) Korrekt wäre: “Eine standardisierte Effektgröße von \(\delta\) = 1 entspricht einer Mittelwertsdifferenz, die so groß ist (nicht doppelt so groß!) wie die Standardabweichung der Rohwerte”



(4) A priori Power-Analysen: Unterrichtsmethoden

Kehren wir zu unserem Beispiel zu den verschiedenen pädagogischen Ansätzen mit Herrn A. und Frau B. zurück (s. Aufgabe unter z-Test).
Frau B. wollte inferenzstatistisch prüfen, ob Kinder bessere Leistungen in einem Mathematiktest zeigen, wenn man sie vielfältig (Methode B) statt traditionell (Methode A) unterrichtet.
Vor der Ziehung einer Stichprobe von Schülern_innen, die nach der neuen Methode B unterrichtet wurden, fragt sich Frau B., wie groß ihre Stichprobe sein sollte.
Um ihr zu helfen, machst Du eine a priori Poweranalyse für ein Signifikanzniveau von \(\alpha\)= 10%.

a) Wie groß muss Deine Stichprobengröße mindestens sein, wenn Du eine nach Cohen große Effektstärke vermutest und diese mit 85%-iger Wahrscheinlichkeit entdecken willst?
Lösung

Zur Berechnung dieser Aufgabe greifen wir auf eine Formel aus der Formelsammlung zurück, mit welcher wir den \(z_{\beta}\)- Wert ermitteln, welcher die Grenze der Fläche der Teststärke \(1-\beta\) unter der \(H_1\) darstellt.

Die zugehörige Formel lautet:
\(z_{\beta} = z_{1-\alpha} - \sqrt{n} \cdot \delta\)

Stellen wir diese Formel nach n um, so erhalten wir die Stichprobengröße von \(z_p\) und somit die Stichprobengröße, die mindestens notwendig ist, um eine Effektgröße von \(\delta\) = .80 mit einer Wahrscheinlichkeit von 85% zu entdecken.

Nach Umstellung nach n erhalten wir folgende Formel:
\(n = (\frac {z_{1-\alpha} - z_{\beta}} {\delta}) ^2\)
(für die genaue Erklärung der Umstellung nach n: s.u.)

Die zur Berechnung benötigten Werte können wir der Aufgabenstellung entnehmen:

  • \(z_{1-\alpha}\): wir wissen, dass \(\alpha\) = .10 und dass rechtseitig getestet wird. Der Tabelle entnehmen wir somit, dass \(z_{1-\alpha} = z_{0.9}\) = 1.28
  • \(z_{\beta}\): da die Teststärke \(1-\beta\) vorgegeben ist (.85), wissen wir, dass \(z_{\beta}\) 85% der Fläche der \(H_1\) nach rechts hin abschneidet. Wir lesen den \(z_{\beta}\)- Wert also aus der Tabelle der Standardnormalverteilung ab, indem wir den Wert suchen, bei welchem ein Flächenanteil von ca. 0.85 aufgeführt wird \(\rightarrow z_{\beta}\) = - 1,04 (beachte das negative Vorzeichen, da wir die linke Seite der Verteilung betrachten!)
  • \(\delta\): Vermutung einer nach Cohen großen Effektstärke; dies können wir in der Tabelle “Effektstärkemaße nach Cohen” in der Zeile “mA vs. mB for independent means” nachschauen \(\rightarrow \delta\) = .80

Wir setzen diese Werte in der Formel ein und erhalten:

\(\begin{aligned} n &= (\frac {z_{1-\alpha} - z_{\beta}} {\delta}) ^2 \\ &= (\frac {1,28 + 1,04 }{0,80}) ^2 \\ &= (\frac {2,32}{0,80})^2 \\ &= 2,9^2 \\ &= \underline{8,41} \end{aligned}\)

Da wir nicht 8,41 Proband_innen untersuchen können, müssen wir aufrunden (Merke: in diesem Kontext müssen wir immer aufrunden; abrunden wäre nicht zulässig, da wir dann nicht mehr die erforderliche Mindestgröße von n erreichen würden).
Wir kommen zu dem Ergebnis, dass Frau B. eine Stichprobe von mindestens \(\underline{\underline{n=9}}\) Personen benötigt, um einen nach Cohen großen Effekt mit einer Wahrscheinlichkeit von 85% entdecken zu können.



Lösung-Zusatz: Genaue Erklärung der Umstellung nach n

Zur Erinnerung: die folgende Formel ist gegeben:
\(z_{\beta} = z_{1-\alpha} - \sqrt{n} \cdot \delta\)

  1. Um alle Werte, bis auf n, auf die linke Seite der Gleichung zu holen, ziehen wir zunächst \(z_{1-\alpha}\) ab:
    \(- z_{1-\alpha} + z_{\beta} = - \sqrt{n} \cdot \delta\)

  2. Um das negative Vorzeichen loszuwerden, multiplizieren wir den Term mit \(-1\), wodurch sich die Vorzeichen umkehren:
    \(z_{1-\alpha} - z_{\beta} = \sqrt{n} \cdot \delta\)

  3. Nun holen wir \(\delta\) durch Division auf die linke Seite der Gleichung:
    \(\frac{z_{1-\alpha} - z_{\beta}}{\delta} = \sqrt{n}\)

  4. Im letzten Schritt werden wir die Wurzel los, indem wir die Gleichung quadrieren:
    \((\frac{z_{1-\alpha} - z_{\beta}}{\delta})^2 = n\)



(5) Effektgröße: Unterrichtsmethoden (2)

Es sei bekannt, dass Schüler_innen nach der traditionellen Methode (A) eine normalverteilte mittlere Leistung von \(\mu\) = 50 Punkten im Mathematiktest mit einer Standardabweichung von \(\sigma\) = 10 Punkten zeigen.
Die von Frau B. gezogene Stichprobe verteilt sich normal mit einem Mittelwert von \(\bar{x} = 60\) und einer Streuung von \(s = 7\).

a) Berechne den beobachteten unstandardisierten Effekt.
Lösung

Als Maß für die Stärke eines Effekts berechnen wir salopp gesagt die “Entfernung” der beiden Erwartungswerte der Populationen von \(H_0\) und \(H_1\).
Bei der unstandardisierten Effektgröße handelt es somit sich um die Mittelwertsdifferenz von \(\mu_0\) und \(\mu_1\) bzw. \(\bar{x}\).

Unstandardisierter Effekt:
\(\bar{x} - \mu_0 = 60 - 50 = \underline{\underline{10}}\)


b) Berechne den beobachteten standardisierten Effekt.
Lösung

Wir standardisieren diesen Effekt, indem wir ihn durch \(\sigma\) teilen:

Standardisierter Effekt:
\(\delta = \frac {\bar{x}-\mu_0} {\sigma} = \frac{60-50} {10} = \underline{\underline{1}}\)


c) Welcher Größenordnung entspricht dieser nach Cohen? Gingen Du und Frau B. recht in der Annahme, dass es sich um einen nach Cohen großen Effekt handelt (so wie in Aufgabe 3 angenommen?)
Lösung

Dies entspricht einem großen Effekt nach Cohen.

Erklärung:
Dies lässt sich in der Tabelle “Effektstärkemaße nach Cohen” in der Formelsammlung ablesen: In der ersten Zeile “mA vs. mB for independent means” lesen wir die Werte für z- und t-Tests ab.
Hier lässt sich ablesen, dass alle Effektgrößen ab .80 nach Cohen als groß klassifiziert werden.

Merke: Die Klassifikation der Effektgrößen nach Cohen bezieht sich immer auf standardisierte Effektgrößen.



(6) Alpha-Niveau

Eine Kommilitonin stellt im Moodle-Forum der Vorlesung die Frage, warum wir nicht einfach in jedem Fall ein extrem kleines Alpha-Niveau wählen, um die Wahrscheinlichkeit des Fehlers 1. Art möglichst gering zu halten. Was antwortest Du?

[in Anlehnung an Bortz & Schuster (2010), S. 116, Aufg. 7.14]

Lösung

Auch wenn wir mit einem sehr kleinen Signifikanzniveau das Risiko, die \(H_0\) fälschlicherweise abzulehnen, sehr gering halten, ginge es mit klaren Nachteilen einher.
Da \(\alpha\)- und \(\beta\)- Fehler komplementär sind, bedeutet ein geringes \(\alpha\)- Niveau, dass das Risiko eines \(\beta\)- Fehlers dementsprechend steigt:

Ist unser \(\alpha\)-Niveau also extrem klein und das Risiko für einen \(\beta\)-Fehler entsprechend groß, würde dies in einer sehr geringen Teststärke resultieren (da diese definiert ist als \(1-\beta\)).
Im Extremfall könnte somit eine falsche \(H_0\) praktisch nicht verworfen werden.