Ein-Stichproben t-Test

(1) Unterrichtsmethoden

Vergleiche Übungsblatt z-Test:
Es soll überprüft werden, ob Schüler_innen eine bessere Schulleistung zeigen, wenn man ihnen die Inhalte mit vielfältigen Methoden beibringt (Lernmethode B), anstatt sie frontal zu unterrichten.

Es sei bekannt, dass die Grundgesamtheit der Schüler_innen, welche nach der herkömmlichen Methode von Herrn A. unterrichtet wurden, eine normalverteilte mittlere Leistung von 50 Punkten im Mathematiktest zeigen.

(a) Welches statistische Modell eignet sich in diesem Fall, um die Fragestellung zu überprüfen? Welche Voraussetzungen müssen dafür gegeben sein?
Lösung

Ein-Stichproben-t-Test

Voraussetzungen:

  • es muss sich um eine Zufallsstichprobe handeln
  • Das Merkmal x (Hier: die Mathematikleistung) muss in der Population normalverteilt sein
  • Der Erwartungswert \(\mu_0\) muss bekannt sein (ohne diesen wäre die Berechnung der empirischen Prüfgröße nicht möglich, vgl. Formel)
  • die Populationsvarianz \(\sigma\) ist unbekannt \(\rightarrow\) in diesem Fall ist die Anwendung eines z-Tests unzulässig. Stattdessen ist die Anwendung eines t-Test indiziert, welcher \(\sigma\) durch die Streuung der Stichprobe \(s\) schätzt


(b) Stelle die statistische Null- und Alternativhypothese auf. Welche Richtung hat die Alternativhypothese?
Lösung

Statistische \(H_0\):
\(\underline{\mu_0 \geq \mu_B}\) bzw. inhaltlich identisch: \(\underline{\mu_B \leq \mu_0}\)

Statistische \(H_1\):
\(\underline{\mu_B > \mu_0}\) bzw. \(\underline{\mu_0 < \mu_B}\)

Tipp:
Manchmal ist es leichter, zunächst die \(H_1\) zu notieren (hier: Methode B führt zu höheren Ergebnissen im Mathetest als Methode A). Danach kann dann erschöpfend die \(H_0\) definiert werden (hier: sowohl besseres Abschneiden der Gruppe mit Methode A als auch gleiche Ergebnisse).



Es wird eine Zufallsstichprobe von N = 9 europäischen Schüler_innen gezogen, die mit der neuen Methode (B) unterrichtet und anschließend einem Mathematiktest unterzogen wurden.
Der Mittelwert der Punkte dieser Gruppe im Mathematiktest ist \(\bar{x}\) = 60, die Standardabweichung \(s\) = 7.

(c) Entscheide mithilfe des kritischen Werts sowie der (gefundenen) Prüfgröße, ob die mittlere Leistung der Schüler_innen unter Lehrmethode B signifikant über der bekannten mittleren Leistung von Schüler_innen unter der herkömmlichen Methode liegt (\(\alpha\) = .10).
Lösung

1. Ermittlung des kritischen Werts \(t_{krit}\):

Wir haben die folgenden Informationen gegeben, auf Grundlage derer wir den kritischen Wert aus der Tabelle ablesen können: \(df = n-1 = 8\); \(\alpha= 0.1\), einseitig
\(\rightarrow t_{krit} = t_{df, 1-\alpha} = t_{8, 0.9}\)

Das entsprechende Perzentil schlagen wir in der Tabelle der t-Verteilung nach. Diese folgt einem anderen Aufbau als die Verteilungstabelle der z-Werte, die wir aus den vorausgegangenen Sitzungen kennen.
In den Zellen stehen die entsprechenden t-Werte, in Abhängigkeit der Freiheitsgrade (in den Zeilen: ‘df’) und der jeweiligen Fläche, die unter dem entsprechenden t-Wert liegen soll: Wir suchen den t-Wert, unter dem 90% einer t-Verteilung mit \(df\)= 8 Freiheitsgraden liegt und finden:

\(t_{8, 0.9} = 1.397\)

2.Berechnung der empirischen Prüfgröße \(t_{emp}\):

Die entsprechende Formel entnehmen wir der Formelsammlung und fügen die bereits gegebenen Kennwerte \(\bar{x}\) = 60, \(\mu_0\) = 50, \(s_x\) = 7 und \(n\) = 9 ein:
\(\begin {aligned} t_{emp} &= \frac{\bar{x} - \mu_o} {\frac{s_x} {\sqrt{n}}} \\ &= \frac{60 - 50} {\frac {7} {\sqrt{9}}} \\\ &= \frac {10} {\frac {7} {3}} \\ &\approx \underline{4.286} \end{aligned}\)

3. Testentscheidung:
\(1.397 < 4.286 \rightarrow \underline{\underline{t_{krit} < t_{emp}}} \rightarrow\) Verwerfung der \(H_0\)

4. Interpretationssatz:
Es ist davon auszugehen, dass Schüler_innen, die mit nach vielfältigen Methoden unterrichtet werden, im Mittel eine bessere Leistung im Mathematiktest erzielen als Schüler_innen, die nach traditioneller Lehrmethode unterrichtet werden



(2) Die Welt ist grau

Du hast gelesen, dass Personen mit nicht korrigierter Sehschwäche weniger Farben sehen. Du fragst Dich, ob es einen Zusammenhang zu Depressionssymptomen gibt. In der Allgemeinbevölkerung seien Depressionswerte normalverteilt mit \(\mu = 5\). Es wird eine Zufallsstichprobe von \(n = 31\) Personen mit nicht-korrigierter Sehschwäche gezogen. Sie weist normalverteilte Depressionswerte mit \(\bar{x} = 5.8\) und \(s = 2.25\) auf.

Prüfe mit einem geeigneten statistischen Verfahren unter Berücksichtigung der entsprechenden Annahmen, ob sich die Depressionswerte der Personen mit nicht-korrigierter Sehschwäche von denen der Allgemeinbevölkerung unterscheiden! Fülle folgende Lücken für \(\alpha = .05\) aus:

\(H_0\): ___________________
\(H_1\): ___________________
kritischer Wert: ___________________
empirische Prüfgröße: ___________________
Testentscheidung: Die Nullhypothese wird ___________________.
möglicher Fehler nach erfolgter Testentscheidung: ___________________
Interpretation:_________________________________________________________.


Lösung

\(H_0\): \(\boldsymbol{H_0: \mu = \mu_0}\)
\(H_1\): \(\boldsymbol{H_1: \mu \neq \mu_0}\)
kritischer Wert: \(\boldsymbol{t_{30,97.5\%} = \underline{\underline{2.042}}}\) und \(\boldsymbol{t_{30,2.5\%} = \underline{\underline{-2.042}}}\)
empirische Prüfgröße: \(\boldsymbol{t_{30} \approx 2}\)
Testentscheidung: Die Nullhypothese wird beibehalten.
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\beta}\)-Fehler
Interpretation: Es gibt keine Evidenz dafür, dass sich die Depressionswerte von Personen mit nicht-korrigierter Sehschwäche im Mittel von denen der Allgemeinbevölkerung unterscheiden.

  • Wir interessieren uns für eine Unterschiedshypothese mit einer Zufallsstichprobe bei einem normalverteilten Merkmal in der Population mit gegebenem Populationsmittelwert unter der Nullhypothese. Es ist keine Populationsvarianz gegeben. Wir verwenden einen Ein-Stichproben-t-Test.
  • Hypothesen:
    • Wir testen eine ungerichtete Alternativhypothese, dass sich die die Depressionswerte der Personen mit nicht-korrigierter Sehschwäche im Mittel von denen der Allgemeinbevölkerung unterscheiden: \(H_1: \mu \neq \mu_0\)
    • Wir formulieren die dazu passende erschöpfende Nullhypothese: \(H_0: \mu = \mu_0\)
  • kritischer Wert:
    • Für \(\alpha = .05\) bei ungerichteter Testung Teilen wir die 5% auf beide Enden der Verteilung auf und suchen die t-Werte von 2.5% und 97.5%.
    • Wir müssen die Freiheitsgrade berechnen, um die kritischen Werte in der Tabelle nachzuschlagen: \(df = n - 1\) mit \(n = 31 \rightarrow df = 31 - 1 = \underline{\underline{30}}\)
    • Wir schauen also in der Tabelle der t-Verteilung bei 0,975 und \(df = 30\) nach. Die kritischen t-Werte lauten \(t_{30,97.5\%} = \underline{\underline{2.042}}\) und \(t_{30,2.5\%} = \underline{\underline{-2.042}}\)
  • empirische Prüfgröße:
    • Um den empirischen t-Wert zu berechnen, verwenden wir die Formel aus der Formelsammlung für den 1-Stichproben-t-Test: \(t = \frac{\bar{x}-\mu}{s_\bar{x}} = \frac{\bar{x}-\mu}{\frac{s_x}{\sqrt{n}}}\)
    • folgende Werte sind uns gegeben:
      \(\mu = 5\) \(\bar{x} = 5.8\) \(s^2 = 2.25\) \(n = 31\)
    • Wir setzen ein: \(t = \frac{5.8-5}{\frac{2.25}{\sqrt{31}}} \approx \underline{\underline{2}}\)
  • Testentscheidung:
    • Wir vergleichen den empirischen mit dem passenden kritischen t-Wert: \(2 < 2.042\)
    • Die empirische ist kleiner als der kritische Wert. Wir behalten die Nullhypothese bei.
    • Dabei können wir den Fehler 2. Art begehen.
  • Interpretation:
    • In den Interpretationssatz müssen wir folgende Bestandteile einbauen:
      • Kennwert: Mittelwert
      • aV: Depressionswerte
      • uV: Personen mit nicht-korrigierter Sehschwäche
      • Testentscheidung und deren Richtung: kein Unterschied
      • kein Verweis auf die Stichprobe
      • Hinweis auf den probabilistischen Gehalt der Aussage (wir haben lediglich Evidenz gesammelt)
    • Es gibt keine Evidenz dafür, dass sich die Depressionswerte von Personen mit nicht-korrigierter Sehschwäche im Mittel von der denen Allgemeinbevölkerung. unterscheiden.



(3) Wahr oder falsch?

Welche der folgenden Aussagen ist falsch?

  • Die Streuung einer beliebigen t-Verteilung mit N < 30 ist immer breiter als die Streuung einer Standardnormalverteilung.
  • Ein t-Test ist hinsichtlich der Ablehnung der \(H_0\) konservativer als ein z-Test (ceteris paribus).
  • Der t-Test verliert einen Freiheitsgrad gegenüber dem z-Test, da bei diesem \(\sigma\) durch die Stichprobenstreuung \(s\) geschätzt werden muss.
  • Ist die Populationsstreuung \(\sigma\) unbekannt, folgt die Prüfgröße unter der \(H_0\) immer einer t-Verteilung.

Lösung

  • Korrekt Die Streuung einer beliebigen t-Verteilung mit geringem N ist immer breiter als die Streuung einer Standardnormalverteilung.
    \(\rightarrow\) Erklärung: Bei Durchführung eines t-Tests schätzen wir \(\sigma\) durch s. Diese Schätzung geht natürlich mit Ungewissheit einher: Wir schätzen \(\sigma\) durch s, kennen den tatsächlichen Wert von \(\sigma\) aber nicht sicher.
    Diese Unsicherheit drückt sich in einer größeren Streuung der t-Verteilung aus: Die t-Verteilungen sind breiter und haben mehr Masse in ihren Enden: Mit steigendem Stichprobenumfang N wird unsere Schätzung von \(\sigma\) durch s aber zunehmend genauer und unser Standardfehler folglich geringer. Somit gleicht sich die t-Verteilung mit steigendem N zunehmend einer z-Verteilung an.
  • Korrekt Ein t-Test ist hinsichtlich der Ablehnung der \(H_0\) konservativer als ein z-Test (ceteris paribus).
    \(\rightarrow\) Erklärung: „konservativer“ bedeutet in diesem Zusammenhang, dass bei Durchführung eines t-Tests eine bestimmte empirische Prüfgröße mit einer geringeren Wahrscheinlichkeit zur Ablehnung der \(H_0\) führt, als bei einem z-Test.
    Dies hängt damit zusammen, dass eine t-Verteilung breiter als eine Standardnormalverteilung ist, was bedeutet, dass sie breitere Ränder hat (s.o.). Um z.B. ein α von 5% rechts nach außen hin abzuschneiden, muss ein kritischer t-Wert somit höher sein, als ein kritischer z-Wert: Es ist somit unwahrscheinlicher, einen kritischen t-Wert mit einer empirischen Prüfgröße zu überschreiten und die \(H_0\) abzulehnen, als einen kritischen z-Wert. Folglich ist ein t-Test unter sonst gleichen Bedingungen konservativer als ein z-Test.
  • Korrekt Der t-Test verliert einen Freiheitsgrad gegenüber dem z-Test, da bei diesem \(\sigma^2\) durch die Stichprobenvarianz \(s^2\) geschätzt werden muss.
    \(\rightarrow\) Erklärung: Freiheitsgrade geben die Anzahl der frei variierbaren Werte an, welche in die Berechnung einer Statistik eingehen. Bei der Berechnung der Stichprobenvarianz \(s^2\) (zur Schätzung von \(\sigma^2\)) verlieren wir einen frei variierbaren Wert, da in die Berechnung der Varianz der Stichprobenmittelwert \(\bar{x}\) einfließt, welcher fix und somit nicht frei variierbar ist. Dies ist der Grund, warum die Prüfgröße nicht länger einer Standardnormalverteilung folgt und wir folglich einen t-Test anstelle eines z-Tests anwenden müssen.
  • Falsch Ist die Populationsstreuung \(\sigma\) unbekannt, folgt die Prüfgröße unter der \(H_0\) immer einer t-Verteilung
    \(\rightarrow\) Erklärung: In der Regel gehen wir davon aus, dass die Prüfgröße unter der \(H_0\) einer t-Verteilung folgt, wenn \(\sigma\) unbekannt ist. Jedoch gilt dies nicht immer: Wir müssen prüfen, ob auch die anderen Voraussetzungen erfüllt sind (hier für den 1-Stichproben-t-Test):
    • einfache Zufallsstichprobe
    • Merkmal in der Population normalverteilt
    • Erwartungswert bekannt
    Übrigens: Mit zunehmendem N nähert sich die t-Verteilung einer z-Verteilung an. In der Praxis wird, wenn die anderen Annahmen erfüllt sind, bei n > 30 der z-Test angewandt, weil man davon ausgeht, dass die Approximation an die Standardnormalverteilung ausreichend ist. (Streng genommen haben wir in Wirklichkeit aber nie eine Stichprobengröße von \(\infty\), sodass der zentrale Grenzwertsatz vor allem ein hypothetischer Spezialfall ist. Ansonsten würde man sagen, dass die Prüfgröße dennoch t-verteilt ist, auch wenn sie sich der z-Verteilung annähert.)



t-Test für unabhängige Stichproben

(1) Unterrichtsmethoden (2)

Weil Vertreter_innen der traditionellen Lehrmethode (wie Herr A.) den angeblich bekannten Werten nicht vertrauen, soll neben der vorhandenen Stichprobe für Methode B noch eine weitere Zufallsstichprobe von Schüler_innen, die nach Methode A unterrichtet werden, gezogen werden. Herr A. geht davon aus, dass die vielfältige Lehrmethode zur Ablenkung anregt und den Lernerfolg verringert.

(a) Welches statistische Modell eignet sich in diesem Fall, um die Fragestellung zu überprüfen? Welche Voraussetzungen müssen dafür gegeben sein?
Lösung

t-Test für unabhängige Stichproben

Vergleichen wir nicht eine einzige Stichprobe mit einer Population, sondern zwei Stichproben miteinander UND sind diese Stichproben unabhängig voneinander, wenden wir den t-Test für unabhängige Stichproben an.

Voraussetzungen:

  • es müssen 2 einfache, voneinander unabhängige Zufallsstichproben vorliegen
  • das Merkmal muss in beiden Populationen normalverteilt sein
  • die Varianzen der beiden Populationen sind unbekannt
  • Varianzhomogenität


(b) Stelle Herrn A.s statistische Null- und Alternativhypothese auf. Welche Richtung hat die Alternativhypothese?
Lösungsansatz

Hinweis: Herr A. geht davon aus, dass die traditionelle Lehrmethode effektiver ist, also zu besseren Leistungen führt.



Lösung

Statistische Nullhypothese:
\(\underline{H_0 = \mu_B \geq \mu_A}\) bzw. alternativ \(\underline{\mu_A \leq \mu_B}\)

\(\rightarrow\) es handelt sich also um eine linksseitige Testung.

Statistische Alternativhypothese:
\(\underline{H_1 = \mu_A > \mu_B}\) bzw. alternativ \(\underline{\mu_B < \mu_A}\)


(c) Warum handelt es sich um unabhängige Stichproben? Begründe kurz.
Lösung

Es handelt sich um voneinander unabhängige Stichproben, da die Leistung eines/einer Schüler_in in Gruppe A keine Informationen über die Leistung eines/einer Schüler_in in Gruppe B liefert. Sie sind somit vollkommen unabhängig voneinander.

Abhängige Stichproben lägen im Fall von Beobachtungspaaren vor. Dies wäre z.B. dann der Fall, wenn jeder/jede Schüler_in zuerst die Lehrmethode A und dann die Lehrmethode B durchlaufen und am Ende der Lehreinheit jeweils einen Mathematiktest ablegen müsste. In diesem Fall wäre jeder Leistung in Gruppe B eine demselben/derselben Schüler_in zugehörige Leistung in Gruppe A zuordenbar. Somit wären die Leistungen in Durchgang A und B beide abhängig von der individuellen Mathematikbegabung des/der Schüler_in und somit auch abhängig voneinander.



Neben der B-Zufallsstichprobe (\(n\) = 9, \(\bar{x}\) = 60, \(s\) = 7) liegt nun eine weitere Zufallsstichprobe von \(n\) = 10 Schüler_innen, die nach Methode A unterrichtet werden, vor (\(\bar{x}\)= 54, \(s\) = 9).

(d) Wie viele Freiheitsgrade hat die zugehörige t-Verteilung? Erkläre, was hinter der Formel steckt.
Lösung

\(df = n_1 + n_2 - 2 = 9 + 10 - 2 = \underline{\underline{17}}\)

Erklärung:
Wir wissen, dass mit der Berechnung des Mittelwerts der Verlust eines Freiheitsgrades einher geht. Da der t-Test auf Mittelwertvergleichen beruht (und folglich die Berechnung des Mittelwerts beinhaltet), verlieren wir pro Stichprobe einen Freiheitsgrad.



(e) R-Output

Nach Berechnung eines t-Tests für unabhängige Stichproben mit den Daten aus Teilaufgabe (1) erhältst du folgenden R-Output:

Zu welcher Testentscheidung gelangt man, wenn man den vorliegenden empirischen t-Wert mit dem entsprechenden kritischen Wert vergleicht (linksgerichtet, \(\alpha\) = 0.05)?


Lösung

Die empirische Prüfgröße können wir dem R-Output entnehmen (\(\underline{t_{emp}= 1.6081}\))

Die kritische Prüfgröße müssen wir in der Tabelle ablesen. Aus dem Output können wir die dazu erforderliche Anzahl an Freiheitsgraden ablesen (\(df = 17\)).
Da wir einseitig mit \(\alpha\) = 0.05 testen, suchen wir in der Spalte 0.95 und der Zeile 17 und lesen den Wert \(1.74\) ab. Da wir linksseitig testen, setzen wir zudem ein negatives Vorzeichen vor diesen Wert.
\(\underline{t_{krit} = - 1.74}\)

Testentscheidung:
\(-1,74 < 1.6081 \rightarrow \underline{\underline{t_{krit} < t_{emp}}} \rightarrow\) Beibehaltung der \(H_0\)
Beachte: Da linksseitig getestet wird, führt \(t_{krit} < t_{emp}\) zur Beibehaltung (und nicht wie bei rechtsseitiger Testung zur Verwerfung) der Nullhypothese.

Interpretation:
Die Untersuchung spricht gegen die Annahme, dass Schüler_innen unter der Lehrmethode A im Mittel bessere mathematische Leistungen erbringen als Schüler unter der Lehrmethode B.



(f) Welch`s t-Test- R Output

Wie sich herausgestellt hat, haben Vertreter_innen der traditionellen Unterrichtsmethode die Daten manipuliert.
Aufgrund dieser unsauberen wissenschaftlichen Arbeit soll nun ein unabhängiges Aufsichtsgremium den Fall prüfen. Es wird eine Zufallsstichprobe von N = 9 Schüler_innen gezogen, die nach Methode A unterrichtet wurden. Es stellt sich jedoch heraus, dass die Varianzen der neuen Stichproben nicht homogen sind. Aufgrund dessen wird Welch`s t-Test durchgeführt (\(\alpha = 0.10\)). Das Gremium entschließt sich unvoreingenommen an die Testung heranzugehen und testet daher zweiseitig. Folgender R-Output ergibt sich: