F-Test

Zur Erinnerung: Vertreter_innen der alten Lehrmethode (A) hatten die Überlegenheit der neuen Lehrmethode (B) angezweifelt und neben der Stichprobe der Lehrmethode B eine eigene Zufallsstichprobe der Lehrmethode A gezogen, um diese zu vergleichen.

Neben der B-Zufallsstichprobe (n = 9, \(\bar{x}\)= 60, s = 7) liegt nun eine weitere Zufallsstichprobe von n = 10 Schüler_innen, die nach Methode A unterrichtet werden, vor (\(\bar{x}\) =54, s = 9).

(a) Überprüfe rechnerisch, ob Varianzhomogenität vorliegt (\(\alpha\) = .10)

Lösung

Zur Überprüfung der Varianzhomogenität können sowohl der F-Test als auch der Levene-Test herangezogen werden. Da die Berechnung des Levene-Tests per Hand weitaus umständlicher ist, entscheiden wir uns für die Durchführung eines F-Tests:

Berechnung der empirischen Prüfgröße:
\(F = \frac {s_1^2} {s_2^2} = \frac {9^2} {7^2} = \underline{1.653}\)
Beachte: Bei zweiseitiger Testung, muss die größere der beiden Stichprobenvarianzen im Zähler des Bruchs stehen: Hier also die Varianz der Gruppe A. Aufgrund dieser “Abmachung” können wir einfach rechtssetitig testen und müssen nicht den linken Ablehnungsbereich berechnen, was aufgrund der Asymmetrie der Verteilung aufwändiger wäre.

Ermittlung des kritischen Werts:
Die Prüfgröße F ist verteilt mit zwei Freiheitsgraden: den Nenner- und Zählerfreiheitsgraden. Hier ist es wichtig zu beachten, welche Gruppe im Zähler und welche im Nenner des F-Bruchs steht (s. “Berechnung der empirischen Prüfgröße”).
In unserem Fall beziehen sich die Zählerfreiheitsgrade auf Gruppe A (\(df = n_1 - 1 = 10- 1 = 9\) ), und die Nennerfreiheitsgrade auf Gruppe B (\(df = n_2 - 1 = 9 -1 = 8\)).

Wir lesen den entsprechenden Wert in der Tabelle der F-Verteilung ab. Die entsprechenden Perzentile finden wir in den Zellen, die Zählerfreiheitsgrade (\(df_1\)) in den Spalten und die Nennerfreiheitsgrade (\(df_2\)) in den Zeilen der Tabelle:

\(F_{krit} = F_{df_1, df_2, 1-\frac{\alpha} {2}} = F_{9, 8, 0.95} = \underline{3.388}\)

Testentscheidung:
\(3.388 > 1.654 \rightarrow \underline{\underline{F_{krit} > F_{emp}}} \rightarrow\) Beibehaltung der \(H_0\)
Beachte: Die \(H_0\) ist beim F-Test “Wunschhypothese”, d.h. sie spezifiziert den “erwünschten” Fall, dass Varianzhomogenität vorliegt und die Voraussetzung für einen t-Test für unabhängige Stichproben somit erfüllt ist.

Es besteht Evidenz dazu, dass Varianzhomogenität in unseren beiden Stichproben vorliegt. Ein t-Test für unabhängige Stichproben kann durchgeführt werden (gegeben die restlichen Voraussetzungen sind erfüllt).



(b) Ist das gewählte Alpha-Niveau von (\(\alpha\) = .10) im Kontext eines F-Tests sinnvoll? Begründe.

Lösung

Zur Erinnerung: die Hypothesen des F-Tests lauten wir folgt:
\(H_0: \sigma_1 = \sigma_2\) und \(H_1: \sigma_1 \neq \sigma_2\)

Die Nullhypothese geht von Varianzhomogenität aus. Da wir eben jene Varianzhomogenität aber benötigen, um einen t-Test für unabhängige Stichproben anzuwenden (uns somit also die Beibehaltung der \(H_0\) wünschen), ist die Nullhypothese hier unsere Wunschhypothese.

In der Regel wählen wir ein kleines \(\alpha\)- Niveau (natürlich immer kontextabhängig), um die Wahrscheinlichkeit, die \(H_0\) fälschlicherweise abzulehnen, möglichst gering zu halten. Dieses konservative Vorgehen ist ein wichtiger Aspekt guter wissenschaftlicher Arbeit, da wir es uns nicht “zu leicht” machen wollen.

Ist jedoch die \(H_0\) und nicht die \(H_1\) unsere Wunschhypothese, gehen wir möglichst konservativ vor, indem wir die Wahrscheinlichkeit, die \(H_0\) fälschlicherweise abzulehnen, erhöhen. Dies hat den Hintergrund, dass wir lieber vorsichtshalber von Varianzheterogenität ausgehen und Welch’s-t-Test anwenden, als fälschlicherweise Varianzhomogenität anzunehmen und einen t-Test für unabhängige Stichproben anwenden, obwohl die Voraussetzungen hierfür nicht erfüllt sind.
Würden wir trotz Varianzheterogenität einen t-Test für unabhängige Stichproben anwenden, würde dies möglicherweise zu einer verzerrten Testentscheidung führen, da wir von einem falschen kritischen Wert ausgehen würden.

Ein \(\alpha\) von 10% ist im Kontext des F-Tests also durchaus angebracht. Konventionell wird sogar häufig eine Irrtumswahrscheinlichkeit von 20% gewählt.



Levene-Test

Wie sich herausgestellt hat, haben Vertreter der alten Unterrichtsmethode die Daten manipuliert.
Aufgrund dieser unsauberen wissenschaftlichen Arbeit wird erneut eine Zufallsstichprobe von n = 9 Schüler_innen gezogen, die nach Methode A unterrichtet werden.

Mit einem Levene-Test (α = .15) wurde auf Varianzhomogenität getestet. Du erhältst folgenden R-Output:

(a) Welche Informationen erhalten wir aus diesem Output? Ist Varianzhomogenität gegeben?

Lösung

Im Allgemeinen zeigt der R- Output des Levene-Tests folgende Informationen an:

Im Kontext unserer Aufgabe gewinnen wir folgende Informationen:

  • abhängige Variable: ‘test_data’ (Die Werte des Mathematiktests)
  • unabhängige Variable: ‘group’ (Lehrmethode A vs. B)
  • Referenzwert: Mittelwert \(\rightarrow\) der durchgeführte Test beruht auf Mittelwertvergleichen
  • empirischer F-Wert: 2.5798
  • verdoppelter p-Wert (\(p \cdot 2\)) : 0.1278 \(\rightarrow\) da von zweiseitiger Testung ausgegangen wird, verdoppelt R den p-Wert automatisch, damit dieser direkt mit \(\alpha\) verglichen werden kann
  • Freiheitsgrade:
    • \(df_1\): entspricht der Anzahl der Gruppen minus 1 \(\rightarrow\) \(df_1 + 1 = 1 + 1 = 2\) Gruppen
    • \(df_2\): entspricht n minus die Gruppenanzahl \(\rightarrow n = df_2 + (df_1 + 1) = 16 + 2 = 18\)

Testentscheidung:
Vergleich von \(\alpha = 0.15\) und dem p-Wert aus dem Output (\(0.128\)):
\(\alpha\) > p-Wert \(\rightarrow\) Verwerfung der \(H_0 \rightarrow\) Es besteht Evidenz, dass keine Varianzhomogenität vorliegt.


(b) Basierend auf der Testentscheidung in (a): Wie muss nun weiter vorgegangen werden?

Lösung

Da keine Varianzhomogenität vorliegt, ist der t-Test für unabhängige Stichproben nicht anwendbar. Stattdessen muss Welch`s-t-Test angewandt werden. Dieser erlaubt eine Schätzung der Prüfgrößenverteilung trotz Varianzheterogenität, indem er die Freiheitsgrade korrigiert und eine abgeänderte Berechnung des Standardfehlers vornimmt.