Der in den Aufgaben zu z-Test, Teststärke, Ein-Stichproben- t-Test und zum t-Test für unabhängige Stichproben besprochene Effekt von Frau B.s. neuer Lehrmethode auf die Schulleistung ist nach unseren zahlreichen Berechnungen nun relativ gut gesichert.
Allerdings haben wir die Mathematikleistung bisher nur direkt nach Durchführung der neuen Unterrichtsmethode getestet. Wir können somit noch keine Aussage darüber treffen, ob dieser Effekt nachhaltig ist.
Herr A. hat das Expert_innen-Gremium bestochen. Sie sollen jetzt doch nachweisen, dass Methode B langfristig problematisch ist, damit Herr A.s Methode nicht aus den Klassenzimmern verdrängt wird. Somit soll bewiesen werden, dass die Mathematikleistung der unter der neuen Lehrmethode unterrichteten Schüler_innen nach einem Jahr wieder gesunken ist.
Um dies zu überprüfen, führen wir sowohl direkt nach Durchführung der Lehrmethode B als auch ein Jahr später einen Mathematiktest durch.
Statistische Nullhypothese:
\(H_0: \underline{\mu_{B2} \geq \mu_{B1}}\) oder alternativ \(\underline{\mu_{d_{B2-B1}} \geq 0}\)
\(\rightarrow\) inhaltlich ausgedrückt: Die Lehrmethode erzielt langfristig anhaltenden Effekte. Die durchschnittliche Matheleistung der Schüler_innen zum Messzeitpunkt B2 nach einem Jahr ist im Vergleich zum Messzeitpunkt direkt nach Durchführung der Lehrmethode konstant geblieben oder sogar weiter angestiegen.
Statistische Alternativhypothese:
\(H_1: \underline{\mu_{B2} < \mu_{B1}}\) oder alternativ \(\underline{\mu_{d_{B2-B1}} < 0}\)
\(\rightarrow\) inhaltlich ausgedrückt: Die Lehrmethode erzielt keine langfristig anhaltenden Effekte. Die durchschnittliche Matheleistung der Schüler_innen zum Messzeitpunkt B2 nach einem Jahr ist geringer als zum Messzeitpunkt direkt nach Durchführung der Lehrmethode.
Es liegen Beobachtungspaare vor, da jede/r Schüler_in jeweils zu beiden Messzeitpunkten getestet wird. Somit kann jedem Wert von Messzeitpunkt B1 ein Wert von Messzeitpunkt B2 zugeordnet werden, welche jeweils beide von der individuellen Mathematikleistung des Schülers/der Schülerin beeinflusst werden und somit abhängig voneinander sind.
Das Konzept der Varianzhomogenität haben wir bereits in Bezug auf t-Tests für unabhängige Stichproben besprochen, da diese essenziell für die Durchführung dieses Verfahrens ist. Dies lässt sich auch an der Formel zur Berechnung der empirischen Prüfgröße im Zuge des t-Tests für unabhängige Stichproben erkennen, da zwei unterschiedliche Varianzen in diese Berechnung eingehen:
Vergleicht man diese Formel mit der Formel zur Berechnung der empirischen Prüfgröße des t-Test für abhängige Stichproben, wird deutlich, dass nur eine einzige Varianz in die Berechnung eingeht: Dies ist dadurch erklärbar, dass wir nicht die Variabilität zweier unterschiedlicher Stichproben betrachten, sondern die Variabilität der Differenz der Beobachtungspaare. Da bei einem t-Test für abhängige Stichproben also nicht mehrere Varianzen in die Berechnung der Prüfgröße eingehen, ist ein Test auf Varianzhomogenität nicht notwendig.
Wir unterziehen die N = 9 europäischen Schüler_innen, die wir mit der neuen Methode (B) unterrichtet haben, nach 12 Monaten erneut einem Mathematiktest.
Folgende Tabelle gibt die Leistung zu den beiden Messzeitpunkten direkt nach der Unterrichtseinheit (\(B_1\)) und ein Jahr später (\(B_2\)) an:
Schüler_in | B1 | B2 |
---|---|---|
1 | 57.3 | 56.3 |
2 | 54.9 | 55.9 |
3 | 51.9 | 54.9 |
4 | 53.0 | 52.0 |
5 | 57.6 | 59.6 |
6 | 68.7 | 70.7 |
7 | 68.1 | 73.1 |
8 | 69.8 | 70.8 |
9 | 58.8 | 55.8 |
Berechnung der empirischen Prüfgröße:
\[t_{emp} = \frac {\bar{d}} {\frac{s_d}{\sqrt{n}}}\] Zur Berechnung der empirischen Prüfgröße benötigen wir drei Komponenten:
Aus der Aufgabenstellung geht hervor, dass n =9. \(\bar{d}\) und \(s_d\) müssen wir allerdings erst aus den Rohwerten gewinnen. Beide Kennwerte basieren auf den Differenzen der Beobachtungspaare. Diese berechnen wir zuerst:
Berechnung der Differenzen:
Schüler_in |
B1 |
B2 |
Differenz \(d_i\) |
---|---|---|---|
1 |
57.3 |
56.3 |
-1 |
2 |
54.9 |
55.9 |
1 |
3 |
51.9 |
54.9 |
3 |
4 |
53.0 |
52.0 |
-1 |
5 |
57.6 |
59.6 |
2 |
6 |
68.7 |
70.7 |
2 |
7 |
68.1 |
73.1 |
5 |
8 |
69.8 |
70.8 |
1 |
9 |
58.8 |
55.8 |
-3 |
Berechnung von \(\bar{d}\)
Nun berechnen wir den Mittelwert dieser Differenzen \(\bar{d}\):
\(\bar{d} = \frac{-1+1+3-1+2+2+5+1-3}{9} = \underline{1}\)
Der Formelsammlung entnehmen wir, dass die Formel zur Berechnung von \(s_d\) lautet: \(s_d= \sqrt{\frac{\sum_{i=1}^n{(d_i - \bar{d})^2}} {n-1}}\). Dies berechnen wir Schrittweise:
Berechnung von \(d_i - \bar{d}\): Wir ziehen von jedem einzelnen Differenzwert den Mittelwert von 1 ab:
Schüler_in |
B1 |
B2 |
Differenz \(d_i\) |
\(d_i-\bar{d}\) |
---|---|---|---|---|
1 |
57.3 |
56.3 |
-1 |
-2 |
2 |
54.9 |
55.9 |
1 |
0 |
3 |
51.9 |
54.9 |
3 |
2 |
4 |
53.0 |
52.0 |
-1 |
-2 |
5 |
57.6 |
59.6 |
2 |
1 |
6 |
68.7 |
70.7 |
2 |
1 |
7 |
68.1 |
73.1 |
5 |
4 |
8 |
69.8 |
70.8 |
1 |
0 |
9 |
58.8 |
55.8 |
-3 |
-4 |
Berechnung von \((d_i - \bar{d})^2\)
Zur Berechnung von \(s_d\) müssen wir diesen Term für jedes Beobachtungspaar nun quadrieren:
Schüler_in |
B1 |
B2 |
Differenz \(d_i\) |
\(d_i-\bar{d}\) |
\((d_i-\bar{d})^2\) |
---|---|---|---|---|---|
1 |
57.3 |
56.3 |
-1 |
-2 |
4 |
2 |
54.9 |
55.9 |
1 |
0 |
0 |
3 |
51.9 |
54.9 |
3 |
2 |
4 |
4 |
53.0 |
52.0 |
-1 |
-2 |
4 |
5 |
57.6 |
59.6 |
2 |
1 |
1 |
6 |
68.7 |
70.7 |
2 |
1 |
1 |
7 |
68.1 |
73.1 |
5 |
4 |
16 |
8 |
69.8 |
70.8 |
1 |
0 |
0 |
9 |
58.8 |
55.8 |
-3 |
-4 |
16 |
Berechnung von \(\sum_{i=1}^n{(d_i - \bar{d})^2}\):
Wir addieren nun die \((d_i - \bar{d})^2\)- Werte von jedem Beobachtungspaar zusammen:
\(\sum_{i=1}^n{(d_i - \bar{d})^2}= 4+4+4+1+1+16+16 = \underline{46}\)
Berechnung von \(s_d\):
Nun fügen wir die Zwischenschritte aus der Tabelle in die Formel ein:
\(\begin{aligned} s_d &= \sqrt{\frac{\sum_{i=1}^n{(d_i - \bar{d})^2}} {n-1}} \\ &= \sqrt{\frac{46} {9-1}} \\ &= \sqrt{5.75} \\ &= \underline{2.398} \end{aligned}\)
Berechnung der empirischen Prüfgröße \(t_{emp}\):
Jetzt können wir endlich alle Kennwerte zusammentragen:
\(\begin{aligned} t_{emp}&= \frac {\bar{d}} {\frac{s_d}{\sqrt{n}}} \\ &= \frac {1} {\frac{2.398}{\sqrt{9}}} \\ &= \underline{\underline{1.251}} \end{aligned}\)
Ermittlung des kritischen Werts:
Es ist bekannt, dass \(\alpha\) = 0.1 bei linksseitiger Testung und dass \(df = n-1 = 9-1 = 8\) ist. Somit liegen alle notwendigen Infos zur Ermittlung von \(t_{krit}\) vor:
\(t_{krit}= t_{8; 0.10} = -t_{8; 0.90} = \underline{\underline{-1.397}}\)
Vergleich von kritischem und empirischem Wert:
\(1.251 > -1.397 \rightarrow \underline{\underline{t_{krit} > t_{emp}}} \rightarrow \enspace\) Beibehaltung der \(H_0\).
“Die Untersuchung liefert keine Evidenz dafür, dass die durchschnittliche Mathematikleistung der Schüler_innen nach einem Jahr im Vergleich zur durchschnittlichen Mathematikleistung der Schüler_innen direkt nach der Unterrichtseinheit gesunken ist. Es ist somit davon auszugehen, dass der Effekt der neuen Lehrmethode über einen Zeitraum von einem Jahr stabil ist oder sich steigert.”
Weshalb handelt es sich hierbei um einen adäquaten Interpretationssatz?
In der Psychologie werden seit Längerem 5 über die Zeit stabile Persönlichkeitseigenschaften angenommen: Gewissenhaftigkeit, Neurotizismus, Verträglichkeit, Offenheit für neue Erfahrungen und Extraversion. Hierfür wurde ein Fragebogen erstellt. Du bekommst einen Datensatz mit Extraversionsmittelwerten zu zwei Messzeitpunkten (Zeitspanne: 6 Wochen), der durch den Fragebogen an einer Zufallsstichprobe von n = 25 Psychologiestudierenden erhoben wurde. Wenn es ein guter Fragebogen ist, sollte es keinen Unterschied zwischen den beiden Mittelwerten der Messwertpaare geben. Teste dies mittels eines geeigneten Testverfahrens!
(a) Für welches Testverfahren entscheidest Du Dich? Stelle die passenden statistischen Hypothesen auf!
In diesem Fall werden die Hypothesen nach dem Prinzip aufgestellt, dass die Nullhypothese von keinem Effekt/Unterschied ausgeht.
\(\rightarrow\) Du solltest einen t-Test für abhängige Stichproben verwenden.
Hypothesen:
\(\boldsymbol{H_0: \mu_d = 0}\), alternativ \(\boldsymbol{H_0: \mu_{t_1} = \mu_{t_2}}\)
\(\boldsymbol{H_1: \mu_d \neq 0}\), alternativ \(\boldsymbol{H_1: \mu_{t_1} \neq \mu_{t_2}}\)
mit \(t_1\) = erster Messzeitpunkt, \(t_2\) = zweiter Messzeitpunkt und \(d\) = Differenz zwischen den mittleren Extraversionswerten zu den beiden Messzeitpunkten
(b) Welches Signifikanzniveau ist für Deine Fragestellung sinnvoll?
Welche ist Deine »Wunschhypothese«? Darauf solltest Du achten, wenn Du das Fehlerrisiko festlegst.
In der Stichprobe ist die mittlere Differenz zwischen den gemittelten Extraversionswerten der beiden Erhebungszeitpunkte \(\bar{d} = 0.25\) mit einer Standardabweichung von \(s_{d} = 0.75\).
(c) Berechne die empirische Prüfgröße vergleiche sie mit dem kritischen Wert für Deine Testentscheidung.
Kritische Werte:
Empirische Prüfgröße:
Vergleich von kritischem und empirischem t-Wert:
\[1.667 < 1.711 \enspace also: t_{emp} < t_{krit} \enspace \]
\(\rightarrow\) Die Nullhypothese wird beibehalten.
(d) Interpretiere das Testergebnis inhaltlich!
Die Evidenz spricht dafür, dass sich die mittleren Extraversionswerte bei Psychologiestudierenden zwischen Erhebungen im Abstand von 6 Wochen nicht unterscheiden.
(e) Welche Schwächen hat das Untersuchungsdesign?
Hier sind einige verbesserungswürdige Aspekte:
(a) Welches statistische Verfahren muss in den folgenden Verfahren (zuerst) angewandt werden?
(b) Welche Faktoren müssen beachtet werden, wenn ein geeignetes statistisches Verfahren für eine bestimmte Fragestellung gewählt werden muss? Skizziere einen Entscheidungsbaum.
Hier ein exemplarischer Entscheidungsbaum zur Auswahl eines geeigneten Verfahrens: