Unterrichtsmethoden

Der in den Aufgaben zu z-Test, Teststärke, Ein-Stichproben- t-Test und zum t-Test für unabhängige Stichproben besprochene Effekt von Frau B.s. neuer Lehrmethode auf die Schulleistung ist nach unseren zahlreichen Berechnungen nun relativ gut gesichert.

Allerdings haben wir die Mathematikleistung bisher nur direkt nach Durchführung der neuen Unterrichtsmethode getestet. Wir können somit noch keine Aussage darüber treffen, ob dieser Effekt nachhaltig ist.

Herr A. hat das Expert_innen-Gremium bestochen. Sie sollen jetzt doch nachweisen, dass Methode B langfristig problematisch ist, damit Herr A.s Methode nicht aus den Klassenzimmern verdrängt wird. Somit soll bewiesen werden, dass die Mathematikleistung der unter der neuen Lehrmethode unterrichteten Schüler_innen nach einem Jahr wieder gesunken ist.
Um dies zu überprüfen, führen wir sowohl direkt nach Durchführung der Lehrmethode B als auch ein Jahr später einen Mathematiktest durch.

(a) Stelle die statistische Null- und eine Alternativhypothese der Regierung auf
Lösung

Statistische Nullhypothese:
\(H_0: \underline{\mu_{B2} \geq \mu_{B1}}\) oder alternativ \(\underline{\mu_{d_{B2-B1}} \geq 0}\)
\(\rightarrow\) inhaltlich ausgedrückt: Die Lehrmethode erzielt langfristig anhaltenden Effekte. Die durchschnittliche Matheleistung der Schüler_innen zum Messzeitpunkt B2 nach einem Jahr ist im Vergleich zum Messzeitpunkt direkt nach Durchführung der Lehrmethode konstant geblieben oder sogar weiter angestiegen.

Statistische Alternativhypothese:
\(H_1: \underline{\mu_{B2} < \mu_{B1}}\) oder alternativ \(\underline{\mu_{d_{B2-B1}} < 0}\)
\(\rightarrow\) inhaltlich ausgedrückt: Die Lehrmethode erzielt keine langfristig anhaltenden Effekte. Die durchschnittliche Matheleistung der Schüler_innen zum Messzeitpunkt B2 nach einem Jahr ist geringer als zum Messzeitpunkt direkt nach Durchführung der Lehrmethode.

Wir haben hier zwei alternative Hypothesenformulierungen aufgeführt. Die zuerst aufgeführte bezieht sich darauf, ob die Populationsmittelwerte einander entsprechen oder nicht. Die hier an zweiter Stelle als Alternative aufgeführte Formulierung bezieht sich darauf, ob die Differenz der Populationsmittelwerte Null entspricht oder nicht. Beide alternativen Schreibweisen spezifizieren dieselbe inhaltliche Aussage.


(b) Warum handelt es sich um abhängige Stichproben? Begründe kurz.
Lösung

Es liegen Beobachtungspaare vor, da jede/r Schüler_in jeweils zu beiden Messzeitpunkten getestet wird. Somit kann jedem Wert von Messzeitpunkt B1 ein Wert von Messzeitpunkt B2 zugeordnet werden, welche jeweils beide von der individuellen Mathematikleistung des Schülers/der Schülerin beeinflusst werden und somit abhängig voneinander sind.


c) Warum muss man bei diesem Test nicht die Varianzhomogenität prüfen?
Lösung

Das Konzept der Varianzhomogenität haben wir bereits in Bezug auf t-Tests für unabhängige Stichproben besprochen, da diese essenziell für die Durchführung dieses Verfahrens ist. Dies lässt sich auch an der Formel zur Berechnung der empirischen Prüfgröße im Zuge des t-Tests für unabhängige Stichproben erkennen, da zwei unterschiedliche Varianzen in diese Berechnung eingehen:

Vergleicht man diese Formel mit der Formel zur Berechnung der empirischen Prüfgröße des t-Test für abhängige Stichproben, wird deutlich, dass nur eine einzige Varianz in die Berechnung eingeht: Dies ist dadurch erklärbar, dass wir nicht die Variabilität zweier unterschiedlicher Stichproben betrachten, sondern die Variabilität der Differenz der Beobachtungspaare. Da bei einem t-Test für abhängige Stichproben also nicht mehrere Varianzen in die Berechnung der Prüfgröße eingehen, ist ein Test auf Varianzhomogenität nicht notwendig.



Wir unterziehen die N = 9 europäischen Schüler_innen, die wir mit der neuen Methode (B) unterrichtet haben, nach 12 Monaten erneut einem Mathematiktest.
Folgende Tabelle gibt die Leistung zu den beiden Messzeitpunkten direkt nach der Unterrichtseinheit (\(B_1\)) und ein Jahr später (\(B_2\)) an:

Schüler_in B1 B2
1 57.3 56.3
2 54.9 55.9
3 51.9 54.9
4 53.0 52.0
5 57.6 59.6
6 68.7 70.7
7 68.1 73.1
8 69.8 70.8
9 58.8 55.8
(d) Teste, ob sich die mittlere Leistung der Schüler_innen nach einem Jahr im Vergleich zu unmittelbar nach der Unterrichtseinheit signifikant verringert hat (\(\alpha\) = .10).
Lösung

Berechnung der empirischen Prüfgröße:

\[t_{emp} = \frac {\bar{d}} {\frac{s_d}{\sqrt{n}}}\] Zur Berechnung der empirischen Prüfgröße benötigen wir drei Komponenten:

  • \(\bar{d}\): Der Mittelwert der Differenzwerte der Beobachtungspaare
  • \(s_d\): Die Standardabweichung dieser Differenzwerte
  • \(\sqrt{n}\): Die Wurzel aus dem Stichprobenumfang n

Aus der Aufgabenstellung geht hervor, dass n =9. \(\bar{d}\) und \(s_d\) müssen wir allerdings erst aus den Rohwerten gewinnen. Beide Kennwerte basieren auf den Differenzen der Beobachtungspaare. Diese berechnen wir zuerst:

  1. Berechnung der Differenzen:

    Schüler_in

    B1

    B2

    Differenz \(d_i\)

    1

    57.3

    56.3

    -1

    2

    54.9

    55.9

    1

    3

    51.9

    54.9

    3

    4

    53.0

    52.0

    -1

    5

    57.6

    59.6

    2

    6

    68.7

    70.7

    2

    7

    68.1

    73.1

    5

    8

    69.8

    70.8

    1

    9

    58.8

    55.8

    -3

  2. Berechnung von \(\bar{d}\)
    Nun berechnen wir den Mittelwert dieser Differenzen \(\bar{d}\):
    \(\bar{d} = \frac{-1+1+3-1+2+2+5+1-3}{9} = \underline{1}\)
    Der Formelsammlung entnehmen wir, dass die Formel zur Berechnung von \(s_d\) lautet: \(s_d= \sqrt{\frac{\sum_{i=1}^n{(d_i - \bar{d})^2}} {n-1}}\). Dies berechnen wir Schrittweise:

  3. Berechnung von \(d_i - \bar{d}\):  Wir ziehen von jedem einzelnen Differenzwert den Mittelwert von 1 ab:

    Schüler_in

    B1

    B2

    Differenz \(d_i\)

    \(d_i-\bar{d}\)

    1

    57.3

    56.3

    -1

    -2

    2

    54.9

    55.9

    1

    0

    3

    51.9

    54.9

    3

    2

    4

    53.0

    52.0

    -1

    -2

    5

    57.6

    59.6

    2

    1

    6

    68.7

    70.7

    2

    1

    7

    68.1

    73.1

    5

    4

    8

    69.8

    70.8

    1

    0

    9

    58.8

    55.8

    -3

    -4

  4. Berechnung von \((d_i - \bar{d})^2\)
    Zur Berechnung von \(s_d\) müssen wir diesen Term für jedes Beobachtungspaar nun quadrieren:

    Schüler_in

    B1

    B2

    Differenz \(d_i\)

    \(d_i-\bar{d}\)

    \((d_i-\bar{d})^2\)

    1

    57.3

    56.3

    -1

    -2

    4

    2

    54.9

    55.9

    1

    0

    0

    3

    51.9

    54.9

    3

    2

    4

    4

    53.0

    52.0

    -1

    -2

    4

    5

    57.6

    59.6

    2

    1

    1

    6

    68.7

    70.7

    2

    1

    1

    7

    68.1

    73.1

    5

    4

    16

    8

    69.8

    70.8

    1

    0

    0

    9

    58.8

    55.8

    -3

    -4

    16

  5. Berechnung von \(\sum_{i=1}^n{(d_i - \bar{d})^2}\):
    Wir addieren nun die \((d_i - \bar{d})^2\)- Werte von jedem Beobachtungspaar zusammen:
    \(\sum_{i=1}^n{(d_i - \bar{d})^2}= 4+4+4+1+1+16+16 = \underline{46}\)

  6. Berechnung von \(s_d\):
    Nun fügen wir die Zwischenschritte aus der Tabelle in die Formel ein:
    \(\begin{aligned} s_d &= \sqrt{\frac{\sum_{i=1}^n{(d_i - \bar{d})^2}} {n-1}} \\ &= \sqrt{\frac{46} {9-1}} \\ &= \sqrt{5.75} \\ &= \underline{2.398} \end{aligned}\)

  7. Berechnung der empirischen Prüfgröße \(t_{emp}\):
    Jetzt können wir endlich alle Kennwerte zusammentragen:
    \(\begin{aligned} t_{emp}&= \frac {\bar{d}} {\frac{s_d}{\sqrt{n}}} \\ &= \frac {1} {\frac{2.398}{\sqrt{9}}} \\ &= \underline{\underline{1.251}} \end{aligned}\)

Ermittlung des kritischen Werts:

Es ist bekannt, dass \(\alpha\) = 0.1 bei linksseitiger Testung und dass \(df = n-1 = 9-1 = 8\) ist. Somit liegen alle notwendigen Infos zur Ermittlung von \(t_{krit}\) vor:

\(t_{krit}= t_{8; 0.10} = -t_{8; 0.90} = \underline{\underline{-1.397}}\)

Vergleich von kritischem und empirischem Wert:

\(1.251 > -1.397 \rightarrow \underline{\underline{t_{krit} > t_{emp}}} \rightarrow \enspace\) Beibehaltung der \(H_0\).


(e) Interpretiere die Testentscheidung, die wir auf Basis des t-Tests für abhängige Stichproben getroffen haben, inhaltlich.
Lösung

“Die Untersuchung liefert keine Evidenz dafür, dass die durchschnittliche Mathematikleistung der Schüler_innen nach einem Jahr im Vergleich zur durchschnittlichen Mathematikleistung der Schüler_innen direkt nach der Unterrichtseinheit gesunken ist. Es ist somit davon auszugehen, dass der Effekt der neuen Lehrmethode über einen Zeitraum von einem Jahr stabil ist oder sich steigert.”

Weshalb handelt es sich hierbei um einen adäquaten Interpretationssatz?
\(\checkmark\) Erklärung der inhaltlichen Bedeutung der Testentscheidung im Kontext
\(\checkmark\) Verdeutlichung, dass es sich um Evidenzen und probabilistische Aussagen und nicht um absolute Beweise handelt
\(\checkmark\) Bezug zur Population bzw. kein expliziter Bezug zur Stichprobe
\(\checkmark\) Nennung der unabhängigen Variablen: die zwei Messzeitpunkte
\(\checkmark\) Nennung der abhängigen Variablen: Mathematikleistung
\(\checkmark\) Nennung des Kennwerts: Durchschnitt/Mittelwert



Persönlichkeitsfragebogen

In der Psychologie werden seit Längerem 5 über die Zeit stabile Persönlichkeitseigenschaften angenommen: Gewissenhaftigkeit, Neurotizismus, Verträglichkeit, Offenheit für neue Erfahrungen und Extraversion. Hierfür wurde ein Fragebogen erstellt. Du bekommst einen Datensatz mit Extraversionsmittelwerten zu zwei Messzeitpunkten (Zeitspanne: 6 Wochen), der durch den Fragebogen an einer Zufallsstichprobe von n = 25 Psychologiestudierenden erhoben wurde. Wenn es ein guter Fragebogen ist, sollte es keinen Unterschied zwischen den beiden Mittelwerten der Messwertpaare geben. Teste dies mittels eines geeigneten Testverfahrens!

(a) Für welches Testverfahren entscheidest Du Dich? Stelle die passenden statistischen Hypothesen auf!


Lösungsansatz

In diesem Fall werden die Hypothesen nach dem Prinzip aufgestellt, dass die Nullhypothese von keinem Effekt/Unterschied ausgeht.


Lösung

\(\rightarrow\) Du solltest einen t-Test für abhängige Stichproben verwenden.

  • Du hast die Daten einer Zufallsstichprobe von Messwertpaaren.
  • Extraversionswerte sind im Allgemeinen normalverteilt.
  • Du kannst davon ausgehen, dass die Messwertreihen moderat kovariieren.

Hypothesen:

\(\boldsymbol{H_0: \mu_d = 0}\), alternativ \(\boldsymbol{H_0: \mu_{t_1} = \mu_{t_2}}\)
\(\boldsymbol{H_1: \mu_d \neq 0}\), alternativ \(\boldsymbol{H_1: \mu_{t_1} \neq \mu_{t_2}}\)

mit \(t_1\) = erster Messzeitpunkt, \(t_2\) = zweiter Messzeitpunkt und \(d\) = Differenz zwischen den mittleren Extraversionswerten zu den beiden Messzeitpunkten


(b) Welches Signifikanzniveau ist für Deine Fragestellung sinnvoll?


Lösungsansatz

Welche ist Deine »Wunschhypothese«? Darauf solltest Du achten, wenn Du das Fehlerrisiko festlegst.


Lösung

  • Da in diesem Fall die Nullhypothese Deine »Wunschhypothese« ist (Du willst ja, dass sich die Mittelwerte nicht signifikant unterscheiden, also dass der Fragebogen gut ist), sollte \(\alpha\) nicht zu niedrig sein. Diese Situation ist vergleichbar zu den Tests auf Varianzhomogenität. Du solltest die Teststärke für das Entdecken eines Unterschiedes indirekt durch \(\alpha\) erhöhen, denn dieses Vorgehen ist hierbei konservativ.
  • Du könntest \(\alpha\) beispielsweise auf 10% setzen.


In der Stichprobe ist die mittlere Differenz zwischen den gemittelten Extraversionswerten der beiden Erhebungszeitpunkte \(\bar{d} = 0.25\) mit einer Standardabweichung von \(s_{d} = 0.75\).

(c) Berechne die empirische Prüfgröße vergleiche sie mit dem kritischen Wert für Deine Testentscheidung.


Lösung

Kritische Werte:

  • Du führst einen zweiseitigen Test durch und hast daher zwei kritische t-Werte.
  • Zunächst benötigst Du die Freiheitsgrade.
    • \(n = 25\)
    • \(df = n - 1 \rightarrow df = 24\)
  • Bei \(\alpha = 10\%\) musst Du in der Tabelle den Wert \(t_{24;0.95}\) suchen, da man \(\alpha\) auf beide Enden der Verteilung aufteilt:
    • \(t_{24;0.95} = 1.711 \rightarrow t_{24;0.05} = -1.711\)

Empirische Prüfgröße:

  • Formel für t:
    • \(t_{emp} = \frac {\bar{d}} {\frac{s_d}{\sqrt{n}}}\)
  • Gegeben:
    • \(n = 25\)
    • \(\bar{d} = 0.25\)
    • \(s_d = 0.75\)
  • Einsetzen in die Formel:
    • \(t_{emp} = \frac {0.25} {\frac{0.75}{\sqrt{25}}} = \underline{1.667}\)

Vergleich von kritischem und empirischem t-Wert:
\[1.667 < 1.711 \enspace also: t_{emp} < t_{krit} \enspace \]
\(\rightarrow\) Die Nullhypothese wird beibehalten.


(d) Interpretiere das Testergebnis inhaltlich!


Lösung

Die Evidenz spricht dafür, dass sich die mittleren Extraversionswerte bei Psychologiestudierenden zwischen Erhebungen im Abstand von 6 Wochen nicht unterscheiden.


(e) Welche Schwächen hat das Untersuchungsdesign?


Lösung

Hier sind einige verbesserungswürdige Aspekte:

  • Die Untersuchung bezieht sich nur auf Psychologiestudierende. Wenn der Test nicht nur bei Psychologiestudierenden angewandt werden soll, sollte eine bevölkerungsrepräsentative Stichprobe erhoben werden z.B. hinsichtlich Alter, Bildungsgrad, Geschlecht usw.
  • Die Stichprobe ist sehr klein. Für Fragebogenvalidierungen sind Stichprobengrößen von mehreren hundert Personen üblich.
    (Aufgepasst: Bei einer größeren Stichprobe wäre auch die Teststärke größer, daher würde der Test mit hoher Wahrscheinlichkeit auch bei einem kleinen Unterschied signifikant werden. Dies müsste in der Interpretation beachtet werden. Im Kontext dieser Aufgabe würde die Wahrscheinlichkeit steigen, dass die »Wunschhypothese« verworfen wird, nämlich dass der Fragebogen stabil misst.)
  • Der untersuchte Zeitabstand ist mit 6 Wochen zwar üblich, aber dennoch klein: Persönlichkeitsmerkmale sollten eher über Jahre stabil sein. Darauf kann für den Fragebogen durch die erhobenen Daten nur bedingt geschlossen werden.



Wahl des geeigneten Verfahrens

(a) Welches statistische Verfahren muss in den folgenden Verfahren (zuerst) angewandt werden?

  1. Eine Psychologiestudentin macht ein Vollzeitpraktikum in einer psychiatrischen Klinik und fragt sich, ob die Mitarbeiter in der Einrichtung im Durchschnitt die gewöhnliche Wochenarbeitszeit (\(\mu\)=40) systematisch überschreiten.
  2. Ein Personaler möchte wissen, welcher von zwei Intelligenztests konservativere Werte liefert und setzt dafür an zwei verschiedenen Tagen den Berliner Intelligenzstrukturtest und der Test Progressive Matrizen von Raven bei 25 zufällig ausgewählten Mitarbeiter_innen seines Unternehmens ein.
  3. Es wird angenommen, dass Intelligenz in der Allgemeinbevölkerung normalverteilt mit \(\mu\) = 100 und \(\sigma\) = 15 ist. Ein Dozent fragt sich, ob die Studierenden seiner Hochschule durchschnittlich intelligenter als die Allgemeinbevölkerung sind. Er unterzieht 30 zufällig ausgewählten Studierenden einem Intelligenztest und vergleicht ihre Werte mit der Allgemeinbevölkerung.
  4. Eine Berliner Abiturientin ist sich unsicher, ob sie lieber an einer Hochschule oder an einer Uni studieren sollte. Sie will alle möglichen Aspekte bei ihrer Entscheidung berücksichtigen und fragt sich, ob die Professor_innen an der HTW durchschnittlich mehr Lehrveranstaltungen abhalten (in SWS) als an der HU. Die Abiturientin geht davon aus, dass die Verteilung des Lehrpensums normal mit \(\mu\) = 8 ist, zweifelt aber zunächst, ob bei Hochschul- und Uniprofessor_innen die gleiche Streuung bezüglich dieses Merkmals vorliegt.
  5. Im Rahmen einer Seminararbeit will eine Gruppe von Studierenden untersuchen, ob sich minderjährige TikToker_innen in der Ausprägung ihrer Extraversion systematisch von einer Stichprobe von Schüler_innen des gleichen Alters unterscheiden, die TikTok nicht nutzen. Als Erstes testet die Gruppe ihre Daten auf Varianzhomogenität und stellt fest, dass diese nicht gegeben ist.
  6. Ein Psychologiestudent will mit Hilfe eines t-Tests herausfinden, ob sich Masterstudierende mit dem Schwerpunkt klinische Psychologie hinsichtlich der Ausprägung der sozialen Interessen von Studierenden mit dem Schwerpunkt Arbeits- und Organisationspsychologie unterscheiden. Es gibt keine allgemeingültigen Erkenntnisse über die Verteilungsform der beruflichen Interessen.

Lösung

  1. Ein-Stichproben-t-Test:
  • \(\mu\) ist bekannt, σσ jedoch nicht \(\rightarrow\) Wir müssen \(\sigma\) durch \(s\) schätzen, wodurch die Prüfgröße einer t-Verteilung folgt \(\rightarrow\) Es muss ein Verfahren aus der Familie der t-Tests angewandt werden
  • Wir können davon ausgehen, dass die Abweichung vom Durchschnitt normalverteilt ist.
  • Hierbei vergleichen wir eine Stichprobe mit der Gesamtpopulation \(\rightarrow\) Ein-Stichproben-t-Test
  1. t-Test für abhängige Stichproben (“paired t-Test”):
  • Es liegen Daten einer Zufallsstichprobe von Messwertpaaren vor, da jede/r der Mitarbeiter_nnen zwei Mal getestet wird (jeweils einmal pro IQ Test)
  • Wir können davon ausgehen, dass die Voraussetzungen des t-Tests für abhängige Stichproben gegeben sind, da es sich um eine Zufallsstichprobe handelt und da das Merkmal IQ in der Regel normalverteilt ist
  1. z-Test:
  • \(\mu\) und \(\sigma\) sind bekannt \(\rightarrow\) z-Transformation der Prüfgröße möglich
  • Voraussetzungen des z-Tests sind erfüllt, da die Studierenden zufällig gewählt wurden und das Merkmal IQ einer Normalverteilung folgt
  1. Levene-Test oder F-Test:
  • Es liegen Daten zweier unabhängiger Zufallsstichproben vor (Professor_innen der HTW und der HU) \(\rightarrow\) zur Auswertung der Fragestellung der Abiturientin wird ein t-Test für unabhängige Stichproben benötigt
  • Da die Abiturientin sich unsicher ist, ob bei Hochschul- und Uniprofessoren die gleiche Streuung bezüglich der Semesterwochenstunden vorliegt, muss sie zunächst die Voraussetzung der Varianzhomogenität überprüfen \(\rightarrow\) dies kann durch einen F-Test oder einen Levene-Test erfolgen
  1. Welch’s-t-Test:
  • Es liegen Daten zweier unabhängiger Zufallsstichproben vor (Schüler_innen mit und ohne TikTok Account) \(\rightarrow\) zur Auswertung der Fragestellung der Studierenden wird ein t-Test für unabhängige Stichproben benötigt
  • Da keine Varianzhomogenität vorliegt, müssen die Freiheitsgrade der t-Verteilung nach unten korrigiert werden. \(\rightarrow\) Welchs t-Test
  1. Shapiro-Wilk-Test:
  • Da es keine allgemeingültigen Erkenntnisse über die Verteilungsform der beruflichen Interessen gibt, können wir auch nicht davon ausgehen, dass dieses Merkmal normalverteilt ist \(\rightarrow\) der Shapiro-Wilk-Test überprüft, ob Normalverteilung vorliegt
  • Erst wenn wir diese Voraussetzung bestätigt haben, können wir im Folgenden den t-Test durchführen



(b) Welche Faktoren müssen beachtet werden, wenn ein geeignetes statistisches Verfahren für eine bestimmte Fragestellung gewählt werden muss? Skizziere einen Entscheidungsbaum.


Lösung

Hier ein exemplarischer Entscheidungsbaum zur Auswahl eines geeigneten Verfahrens: