Hypothesentesten allgemein

(1) Schokocreme

Anna und Lina essen zusammen.
Anna behauptet, dass sie allein am Geschmack erkennen kann, ob die Schokocreme Nutella oder eine andere Marke ist. Lina glaubt Anna nicht, dass sie blind Nutella “erschmecken” kann.
Dank ihrer neuen Methodenlehrekenntnisse aus dem Psychologiestudium kann sie ihre Hypothese statistisch testen.

a) Wie lautet Linas inhaltliche Hypothese?
Lösung

“Anna kann Nutella nicht erschmecken (sondern rät zufällig, wenn man ihr Nutella und nicht-Nutella Schokocremes zur Blindverkostung gibt).”


b) Wie lautet Linas statistische Hypothese?
Lösung

statistische \(H_0\): \(p(korrekt) = .50\)

Erklärung:
Lina geht davon aus, dass Anna das Markenprodukt nicht erschmecken kann und somit ihre Erfolgsrate nur der Ratewahrscheinlichkeit entspricht.
Da es sich bei diesem Experiment um eine Binomialverteilung mit 2 möglichen Ereignissen (Markenprodukt oder nicht) handelt beträgt die Ratewahrscheinlichkeit 50%.
Die statistische \(H_0\) postuliert somit folgendes: “Die Wahrscheinlichkeit, die Anzahl der von Anna im Experiment korrekt klassifizierten Cremes zu erraten, beträgt 50%”.


Lina zieht zufällig eine Stichprobe von N = 10 aus insgesamt 100 Proben, in die eine weitere Freundin der beiden zur Hälfte das Markenprodukt, zur Hälfte ein nicht-Markenprodukt gefüllt hat.

Anna soll die 10 Schokocremes probieren und jeweils beurteilen, ob es das Markenprodukt ist oder nicht. In 8 der 10 Fälle liegt sie richtig.

c) Wie wahrscheinlich ist es, dass ihr eine solche Erkennungsrate oder eine noch bessere durch zufälliges Raten gelingt?
Lösung

Da eine Binomialverteilung vorliegt, verwenden wir folgende Wahrscheinlichkeitsfunktion, welche wir in der Formelsammlung finden:
\(P(x) = \binom{n}{x} \cdot \pi^x \cdot (1-\pi)^{n-x}\)

Hierbei steht x für die Anzahl der “Erfolge”, n für die Anzahl der Versuche und \(\pi\) die Wahrscheinlichkeit eines Erfolgs.

Gefragt ist die Wahrscheinlichkeit, zufällig 8 von 10 Proben oder mehr korrekt zur erraten. In diesem Beispiel liegen somit n=10 Versuche vor. Die Erfolgswahrscheinlichkeit bei zufälligem Raten betrüge 50% (\(\pi\)=.5).
Um die Ratewahrscheinlichkeit von mindestens 8 korrekten Zuordnungen zu berechnen, müssen wir die obenstehende Wahrscheinlichkeitsformel für die Fälle x=8, x=9 und x=10 ermitteln:

Für x=8 Fälle: \(P(x=8) = \binom{10}{8} \cdot 0.5^8 \cdot 0.5^2 \approx 0.0439\)

Für x=9 Fälle: \(P(x=9) = \binom{10}{9} \cdot 0.5^9 \cdot 0.5^1 \approx 0.01\)

Für x=10 Fälle: \(P(x=10) = \binom{10}{10} \cdot 0.5^{10} \cdot 0.5^0 \approx 0.001\)

Addiert man alle 3 Wahrscheinlichkeiten zusammen, so erhält man die Wahrscheinlichkeit, bei 10 Versuchen mindestens 8-mal korrekt die Zuordnung zu erraten:
\(P (x \geq 8) = 0.0439 + 0.01 + 0.001 = \underline{\underline{0.0549}}\)

Die Wahrscheinlichkeit, dass Lina bei 10 Versuchen 8 oder mehr Proben durch zufälliges Raten richtig klassifiziert, beträgt ca. 5.5%.



(2) Neyman & Pearson

In der Produktionsfirma, für die Neyman und Pearson zuständig sind, fertigen Maschinen normalerweise Papierblätter im exakten DIN A4-Format (210 \(\cdot\) 297 mm). Es ist möglich, dass hin und wieder ein Blatt zufällig von dem erwarteten Format abweicht. Routinemäßig wollen Neyman und Pearson überprüfen, ob dies der Fall ist oder etwa doch eine Maschine defekt sein könnte.

a) Wie lauten inhaltliche Null- und Alternativhypothese?
Lösung

Inhaltliche \(H_0\): Die Abweichungen sind zufällig und das durchschnittliche Papierformat entspricht der Norm.

Inhaltliche \(H_1\): Die Abweichungen sind überzufällig und das durchschnittliche Papierformat entspricht nicht der Norm.


Neyman und Pearson wollen eine Qualitätskontrolle durchführen anhand einer Zufallsstichprobe von n = 1000 Papierblättern.

b) Was ist die statistische Nullhypothese?
Lösung

\(H_0: \mu_0 = \mu \rightarrow\) Der Durchschnitt der produzierten Blätter (\(\mu\)) entspricht der Norm (\(\mu_0\)).


c) Was ist die statistische Alternativhypothese?
Lösung

\(H_1: \mu_0 \neq \mu \rightarrow\) Der Durchschnitt der produzierten Blätter (\(\mu\)) entspricht nicht der Norm (\(\mu_0\)).

Tipp: Die \(H_1\) und \(H_0\) sind immer erschöpfend, was bedeutet, dass sie gemeinsam alle potentiell möglichen Ereignisse einschließen. Somit muss die \(H_1\) alle Fälle umfassen, die die \(H_0\) nicht spezifiziert. In diesem Beispiel umfasst dies alle Fälle, in denen der Durchschnitt der produzierten Blätter nicht der Norm entspricht (dies beinhaltet Abweichung nach oben und nach unten).



(3) Grafische Illustration

a) Vervollständige die folgenden Angaben:

I. Verteilung der Prüfgröße unter der __________________

II. Blaue Fläche: ___________________

III. Rot schraffierte Fläche: ___________________

IV. Getroffene Testentscheidung: ____________________
Lösung

I. Verteilung der Prüfgröße unter der \(H_0\)/ der Nullhypothese

II. Blaue Fläche: p-Wert
Der p-Wert ist die Wahrscheinlichkeit, den empirischen Wert oder einen extremeren zu erhalten, gegeben die \(H_0\) gilt. Er ist somit die Fläche unter der Verteilung der \(H_0\), den der empirische Wert “nach außen hin abschneidet”.

III. Rot schraffierte Fläche: \(\alpha\)- Niveau
Das \(\alpha\)-Niveau ist die von uns vorab festgelegte maximal zulässige Irrtumswahrscheinlichkeit. Gängige Werte sind 1% oder 5%. Legen wir z.B. ein \(\alpha\)-Niveau von 1% fest, spezifizieren wir somit, dass wir maximal mit einem Risiko von 1% die \(H_0\) ablehnen wollen, gegeben dass sie eigentlich gilt (\(\alpha\)-Fehler). Basierend auf diesem Wert bestimmen wir den kritischen Wert, der genau diese Fläche unter der \(H_0\) nach außen hin abschneidet.

IV. Getroffene Testentscheidung: \(H_0\) wird beibehalten
Hier ist der p-Wert größer als das \(\alpha\)-Niveau. D.h., dass die Wahrscheinlichkeit, den empirischen Wert aus der Stichprobe oder einen extremeren zu erhalten, größer als unsere maximal akzeptierte Irrtumswahrscheinlichkeit ist. Würden wir die \(H_0\) trotzdem ablehnen, wäre das Risiko, dies fälschlicherweise zu tun (\(\alpha\)-Fehler) größer als unsere ursprünglich festgelegte maximal akzeptable Irrtumswahrscheinlichkeit. Somit wird die \(H_0\) beibehalten.


b) Skizziere und beschrifte eine analoge Abbildung für eine linksseitige \(H_1\).
Lösung

Bei linksseitiger Testung betrachten wir die linke/untere Seite der Verteilung. Analog zum Vorgehen bei einer rechtsseitigen Testung bestimmen wir basierend auf dem vorab festgelegten \(\alpha\)-Niveau den kritischen Wert als das Perzentil, welches \(\alpha \%\) der Verteilung nach links hin abschneidet.
Da sich der kritische Wert auf der linken Seite befindet, ist bei linksseitiger Testung der p-Wert die Fläche, die unter dem empirischen Wert liegt und somit gleich die Wahrscheinlichkeit, dass eine beliebige Person den empirischen Wert oder einen geringeren erzielt.


c) Skizziere und beschrifte eine analoge Abbildung für eine ungerichtete \(H_1\).
Lösung

Bei zweiseitiger Testung wird \(\alpha\) auf die beiden Enden der Verteilung aufgeteilt und halbiert sich somit jeweils zu \(\alpha / 2\). Je nach Lage des empirischen Wertes wird er entweder mit dem rechten oder dem linken kritischen Wert verglichen:



(4) Lückentext Hypothesen

Die ______I._____-hypothese bezieht sich im Allgemeinen auf das statistische Modell, welches einer Prüfung unterzogen werden soll, z.B. dass es in der Population keinen Unterschied zwischen zwei Gruppenmitteln gibt.

_____II._____-hypothesen unterscheidet man bezüglich der Richtung und der Spezifität. Nimmt das Effektmaß bei der Alternativhypothese eine ganz bestimmte Größe an, spricht man von einer _____III._____ Hypothese, während bei einer _____IV._____ keine Effektgröße spezifiziert ist.

Unter den gerichteten Alternativhypothesen unterscheidet man die linksseitigen von den rechtsseitigen. Bei _____V._____-seitigen Hypothesen schließt die Alterativhypothese kleinere Effektwerte ein als die Nullhypothese. Bei _____VI._____-seitigen Hypothesen hingegen schließt die Alternativhypothese größere Effektwerte ein als die Nullhypothese.


Lösung

Die ______Null_____-hypothese bezieht sich im Allgemeinen auf das statistische Modell, welches einer Prüfung unterzogen werden soll, z.B. dass es in der Population keinen Unterschied zwischen zwei Gruppenmitteln gibt.

_____Alternativ_____-hypothesen unterscheidet man bezüglich der Richtung und der Spezifität. Nimmt das Effektmaß bei der Alternativhypothese eine ganz bestimmte Größe an, spricht man von einer _____spezifischen_____ Hypothese, während bei der _____unspezifischen_____ Hypothese keine Effektgröße spezifiziert ist.

Unter den gerichteten Alternativhypothesen unterscheidet man die linksseitigen von den rechtsseitigen. Bei _____links_____-seitigen Hypothesen schließt die Alterativhypothese kleinere Effektwerte ein als die Nullhypothese. Bei _____rechts_____-seitigen Hypothesen hingegen schließt die Alternativhypothese größere Effektwerte ein als die Nullhypothese



(5) Zuordnen: Hypothesen

Ordne die folgenden Terme und Sätze den Begriffen zu:

Terme:
1) \(\mu_B = \mu_A\),
2) \(\mu_B < \mu_A\),
3) \(\mu_B > \mu_A\),
4) \(\mu_B \neq \mu_A\)
5) \(\mu_B - \mu_A\) = !
6) \(\mu_B - \mu_A\) = ?

Sätze:
I) „B unterscheidet sich im Mittel von A“,
II) „B unterscheidet sich im Mittel um irgendwas von A“,
III) „B unterscheidet sich im Mittel nicht von A“,
IV) „B unterscheidet sich im Mittel um genau ! von A“,
V) „B ist im Mittel besser als A“,
VI) „B ist im Mittel schlechter als A“

Begriffe:

a) Nullhypothese
b) unspezifische Alternativhypothese
c) spezifische Alternativhypothese
d) ungerichtete Alternativhypothese
e) rechtsseitige Alternativhypothese
f) linksseitige Alternativhypothese


Lösung

1)\(\mu_B = \mu_A \rightarrow\) III) „B unterscheidet sich im Mittel nicht von A“ \(\rightarrow\) a) Nullhypothese

2)\(\mu_B < \mu_A \rightarrow\) VI) „B ist im Mittel schlechter als A“ \(\rightarrow\) f) linksseitige Alternativhypothese

3)\(\mu_B > \mu_A \rightarrow\) V) „B ist im Mittel besser als A“ \(\rightarrow\) e) rechtsseitige Alternativhypothese

4)\(\mu_B \neq \mu_A \rightarrow\) I) „B unterscheidet sich im Mittel von A“ \(\rightarrow\) d) ungerichtete Alternativhypothese

5)\(\mu_B - \mu_A\) = ! \(\rightarrow\) IV) „B unterscheidet sich im Mittel um genau ! von A“ \(\rightarrow\) c) spezifische Alternativhypothese

6)\(\mu_B - \mu_A\) = ? \(\rightarrow\) II) „B unterscheidet sich im Mittel um irgendwas von A“ \(\rightarrow\) b) unspezifische Alternativhypothese



(6) Interpretation

Wir haben in einer empirischen Untersuchung zwei Stichproben von depressiven Patient_innen und von Angstpatient_innen vor Therapiebeginn bezüglich ihrer Introversionswerte verglichen. Hierbei wollten wir die die Hypothese testen, dass depressive Patient_innen introvertierter sind als Angstpatient_innen.
Der Test lieferte ein signifikantes Ergebnis.

Schreibe einen Interpretationssatz dieser Testentscheidung, der alle relevanten Informationen enthält.


Lösung

Es liegt Evidenz dafür vor, dass depressive Patient_innen vor Therapiebeginn im Durchschnitt introvertierter sind als Angstpatient_innen.

Was muss ich bei der Formulierung des Interpretationssatzes beachten?

  • Begründe nicht lediglich die Testentscheidung anhand von empirischen und kritischem Kennwert (bzw. von p-Wert und \(\alpha\)), sondern erkläre die inhaltliche Bedeutung dieser Testentscheidung im Kontext
  • Du triffst keine absolute Aussage, sondern ziehst eine auf Wahrscheinlichkeit beruhende probabilistische Schlussfolgerung. Dies kannst du z.B. verdeutlichen, indem du schreibst, dass Evidenz für etwas vorliegt
  • Die Interpretation darf sich auf keinen Fall auf die Stichprobe beziehen, da es sich um eine interferenzstatistische Aussage über die Population und nicht lediglich über die Stichprobe handelt. Vermeide somit auf jeden Fall den Begriff “Stichprobe”
  • Zudem sollte sowohl die unabhängige Variable (Hier: die beiden unterschiedlichen Patient_innengruppen) als auch die abhängige Variable (Hier: Introversionswerte), der Kennwert (z.B. der Mittelwert oder die Varianz; je nachdem welches statistische Verfahren angewandt wird) und die Richtung des Effekts (Hier: “introvertierter”) genannt werden



z-Test

(7) Unterrichtsmethoden

Der Lernpsychologe Herr A. empfiehlt seit Jahren, dass Schüler_innen mit Frontalunterricht am besten lernen würden. Die Lernpsychologin Frau B. möchte mit ihrer Forschungsarbeit nach Evidenz suchen, die gegen diese These spricht. Aufgrund erster Pilotstudien vermutet sie:

Lernen Schüler_innen nicht vielleicht mehr, wenn man ihnen einen Methodenmix (z.B. Gruppenarbeit, Selbstlernphasen usw.) im Unterricht anbietet anstatt nur die Lehrkraft erklären zu lassen?

Um dieser Vermutung auf den Grund zu gehen, vergleicht Frau B. empirisch eine Gruppe von Schüler_innen, die nach ihrer Lehrmethode (B) unterrichtet wurden mit der Gesamtpopulation der Schüler_innen (welche nach der herkömmlich Frontalunterrichts-Lehrmethode unterrichtet wurden) hinsichtlich ihrer Leistung in einem Mathematiktest.

a) Was ist die Abhängige Variable (AV) in diesem Kontext? Wie lautet die Unabhängige Variable (UV)? Welche Ausprägungen hat diese?
Lösung

  • Abhängige Variable: Leistung im Mathematiktest
  • Unabhängige Variable: Lehrmethode
    • Ausprägungen: die zwei Schüler_innengruppen: unterrichtet nach der traditionellen Methode A oder der neuen Methode B
Wie erkenne ich die unabhängige und die abhängige Variable?
Die unabhängige Variable (uV) ist diejenige, die wir variieren (hier durch die beiden unterschiedlichen Lehrmethoden). Die abhängige Variable (aV) wird für alle Ausprägungen der uV erhoben und es wird beobachtet, wie diese sich in Abhängigkeit von der Variation in der uV verändert (deshalb: “abhängige Variable”).



Es sei bekannt, dass Schüler_innen nach der traditionellen Methode (A) eine normalverteilte mittlere Leistung von \(\mu\) = 50 Punkten im Mathematiktest mit einer Standardabweichung von \(\sigma\) = 10 Punkten zeigen.

b) Formuliere die statistische Null- und Alternativhypothese. Welche Richtung und Seitigkeit hat unsere Alternativhypothese?
Lösung

\(H_0: \mu_A \geq \mu_B\)

\(H_1: \mu_A < \mu_B\)

Tipp: Manchmal ist es leichter, zunächst die \(H_1\) zu notieren (Hier: Methode A führt zu geringeren Ergebnissen im Mathematiktest als Methode B). Danach kann dann erschöpfend die \(H_0\) definiert werden (hier: sowohl besseres Abschneiden der Gruppe mit Methode A als auch gleiche Ergebnisse)



Frau B. zieht eine Stichprobe von \(n = 9\) Schüler_innen, die nach der neuen Lehrmethode (B) unterrichtet wurden.
Die gezogene Stichprobe verteilt sich normal mit einem Mittelwert von \(\bar{x} = 60\) und einer Streuung von \(s = 7\).

c) Berechne den kritischen Wert sowie die (gefundene) empirische Prüfgröße (\(\alpha\) = 0.10)

Lösung

Berechnung der empirischen Prüfgröße:
Wir entnehmen die Formel zur Berechnung von \(z_{emp}\) der Formelsammlung:

\(\begin{aligned} z_{emp} &= \frac{\bar{x} - \mu_0} {\frac{\sigma_x} {\sqrt{n}}} \\ &= \frac{60 - 50} {\frac{10} {\sqrt{9}}} \\ &= \underline{\underline{3}} \end{aligned}\)

Ermittlung des kritischen Werts:
Zur Erinnerung: Unser \(\alpha\)- Niveau beträgt .10. Wir testen rechtsseitig, da unsere Alternativhypothese postuliert, dass \(\mu_A < \mu_B\). Deshalb müssen wir \(\alpha\) nicht durch 2 teilen, wie es bei einer zweiseitigen Testung der Fall wäre.

Wir suchen also in der Tabelle der Standardnormalverteilung den z-Wert, der nach rechts hin ca. 10% der Verteilung abschneidet:
Da unser kritischer z-Wert 10% nach rechts und folglich 90% nach links abschneidet, wählen wir die Zelle aus, die annähernd 0.90 entspricht. Da die vorliegende Tabelle nicht differenziert genug ist, um exakt 0.90 zu finden, wählen wir den Wert, der am nächsten an 0.90 liegt (0.8997).
In der entsprechenden Zeile und Spalte der Zelle lesen wir den zugehörigen z-Wert ab:

\(z_{krit} = z_{1-\alpha} = z_{0.9} = \underline{\underline{1.28}}\)



d) Berechne die relevante Konfidenzintervallgrenze.
Lösung

Da wir rechtsseitig testen, interessieren wir uns nur für die untere Grenze der Konfidenzintervalls.

\(\bar{x} - z_{\alpha} \cdot \sigma_x = 60 - 1.28 \cdot \frac{10}{\sqrt{9}} = \underline{\underline{55.73}}\)



Zusatzerklärung: Warum ist nur eine Grenze der KIs relevant?

Selbstverständlich hat jedes Konfidenzintervall zwei Grenzen. Um bei einer rechts- bzw. linksseitigen Testung zu einer Testentscheidung zu gelangen, genügt es jedoch, nur eine dieser beiden Grenzen zu betrachten:

Es handelt sich in dieser Aufgabe um eine rechtsseitige Testung. Wir wollen also überprüfen, ob die Verteilung der Leistung in der Population der Schüler_innen, die nach Methode B unterrichtet wurden rechts der Verteilung der Population der Schüler_innen liegt, die nach der traditionellen Methode A unterrichtet wurden.

Das Konfidenzintervall, welches wir auf Grundlage des Stichprobenmittelwerts der Gruppe B (\(\bar{x}\)) und mit einer Irrtumswahrscheinlichkeit von \(\alpha\) = .10 berechnet haben, umschließt in einem zukünftigen Experiment den Populationsparameter \(\mu_B\) (d.h. den wahren Durchschnitt der Population der Schüler_innen, die mit der neuen Methode unterrichtet wurden) mit einer 90%igen Wahrscheinlichkeit.

Wenn also nun die untere Grenze des Konfidenzintervalls größer ist, als \(\mu_A\) (also als der Durchschnitt der Population der Schüler_innen, die nach der alten Methode B unterrichtet wurden), dann gehen wir davon aus, dass \(\mu_B\) der Gruppe B über \(\mu_A\) der Gruppe A liegt und verwerfen folglich die Nullhypothese, dass \(\mu_A = \mu_B\) (bei einer Irrtumswahrscheinlichkeit von 10%).

In diesem Beispiel liegt die untere Grenze des KIs oberhalb von \(\mu_A\), wodurch wir davon ausgehen, dass \(\mu_A \neq \mu_B\), d.h., dass es sich bei A und B um zwei unterschiedliche Populationen handelt.

Würde die untere Grenze des KIs jedoch unterhalb von \(\mu_A\) liegen, würde dies bedeuten, dass \(\mu_A\) innerhalb der Grenzen des 90%-KIs um \(\mu_B\) läge. Wir würden somit schlussfolgern, dass \(\mu_A = \mu_B\).

(Bei einer linksseitigen Testung würde uns, nach derselben Logik, nur die obere Grenze des KIs und bei einer beidseitigen Testung beide Grenzen interessieren.)



e) Zu welcher Testentscheidung kommen wir? Welchen Fehler können wir hierbei begehen?
Lösung

Verwerfung der \(H_0\). Zu dieser Entscheidung gelangen wir durch drei alternative und gleichwertige Vorgehen:

  1. Vergleich des kritischen und des empirischen Werts:
    \(z_{emp} > z_{krit}\) da \(3 > 1.28\)

  2. Vergleich von KI Grenze und \(\mu_0\):
    untere KI Grenze > \(\mu_0\) da \(55.73 > 50\)

  3. Vergleich von \(\alpha\) und p-Wert

Möglicher Fehler bei erfolgter Testentscheidung:
\(\alpha\)- Fehler

Gut zu wissen:
Es gibt drei Methoden, um zu einer Testentscheidung zu gelangen
Liegt folgendes vor, wird die \(H_0\) verworfen:

Testung rechtsseitig linksseitig ungerichtet
empirischer vs. kritischer Wert emp > krit emp < krit |emp| > |krit|
p-Wert vs. \(\alpha\) p < \(\alpha\) p < \(\alpha\) p < \(\frac {\alpha} {2}\)
KI vs. \(\mu_0\) untere KI-Grenze > \(\mu_0\) obere KI-Grenze < \(\mu_0\) Liegt \(\mu_0\) innerhalb der KI-Grenzen?
Dies gilt sowohl für den z-Test, als auch für andere inferenzstatistische Verfahren, die im Rahmen dieser Vorlesungsreihe besprochen werden.



f) Welche Fehler wurden bei den folgenden Interpretationssätzen gemacht?

  1. „Schüler_innen, die nach traditioneller Methode unterrichtet wurden, zeigen eine geringere Mathe-Leistung.“
  2. “Schüler_innen, die nach traditioneller Methode unterrichtet wurden, zeigen eine geringere Mathe-Leistung als Schüler_innen, die mit vielfältigen Methoden unterrichtet wurden.“
  3. “Die Stichprobe der Schüler_innen, die nach traditioneller Methode unterrichtet wurden, zeigen im Durchschnitt eine geringere Mathe-Leistung als die Stichprobe der Schüler_innen, die mit vielfältigen Methoden unterrichtet wurden.“

Lösung

  1. „Schüler_innen, die nach traditioneller Methode unterrichtet wurden, zeigen eine geringere Mathe-Leistung.“
    \(\rightarrow\) Die abhängige Variable (Matheleistung) wird genannt, die unabhängige Variable jedoch nur unvollständig (Nur Nennung der Schüler_innen der Gruppe A). Zudem wird der Kennwert (Mittelwert) nicht genannt.
  2. “Schüler_innen, die nach traditioneller Methode unterrichtet wurden, zeigen eine geringere Mathe-Leistung als Schüler_innen, die mit vielfältigen Methoden unterrichtet wurden.“
    \(\rightarrow\) Hier wird nun die uV vollständig genannt, jedoch nicht der Kennwert (Mittelwert)
  3. “Die Stichprobe der Schüler_innen, die nach traditioneller Methode unterrichtet wurden, zeigen im Durchschnitt eine geringere Mathe-Leistung als die Stichprobe der Schüler_innen, die mit vielfältigen Methoden unterrichtet wurden.“
    \(\rightarrow\) Hier werden zwar aV und uV sowie der Kennwert genannt, jedoch wird explizit Bezug zur Stichprobe genommen. Es handelt sich jedoch um eine inferenzstatistische Aussage über die Population.



g) Formuliere einen geeigneten Interpretationssatz.


Lösung

Adäquater Interpretationssatz:
„Schüler_innen, die nach traditioneller Methode unterrichtet wurden, scheinen im Durchschnitt eine geringere Mathe-Leistung zu zeigen als Schüler_innen, die nach vielfältigen Methoden unterrichtet wurden.“

\(\checkmark\) Vollständige Nennung von uV, aV, Kennwert und Richtung des Effekts
\(\checkmark\) Inferenzstatistische Aussage: kein Bezug zur Stichprobe
\(\checkmark\) Keine absolute Aussage, sondern Verdeutlichung, dass Evidenz zu geben scheint



(8) Wohlbefinden und Haustiere

Das mittlere Wohlbefinden der deutschen Allgemeinbevölkerung liegt auf einer Skala von \(0-10\) bei \(7\) mit einer Varianz von \(0.2^2\). Du hast in einem Artikel gelesen, dass das subjektive Wohlbefinden steigt, wenn man Haustiere hat. Allerdings stammt der Artikel aus einer nicht besonders seriösen Zeitung. Dich interessiert, ob bei Menschen mit Haustieren das mittlere Wohlbefinden tatsächlich höher ist.
Du erhebst eine Zufallsstichprobe von Haustierhaltenden von \(n = 36\), die im Mittel ein subjektives Wohlbefinden von \(7.34\) berichten.

(a) Formuliere die statistische Null- und Alternativhypothese. Welche Richtung und Seitigkeit hat unsere Alternativhypothese?
Lösung

  • \(H_{0}: \enspace \mu \leq \mu_0\)
  • \(H_{1}: \enspace \mu > \mu_0\) (rechtsseitige Alternativhypothese, da laut Artikel das subjektive Wohlbefinden mit Haustier höher sein soll als ohne)


(b) Welches Signifikanzniveau ist hierbei sinnvoll? Begründe!
Lösung

  • Die Festlegung des Signifikanzniveaus können wir an der Abwägung der Folgen von \(\alpha\) und \(\beta\)-Fehler festmachen:
    • Das \(\alpha\)-Niveau entspricht dem Risiko einer falsch-positiven Testentscheidung (d.h. die \(H_1\) anzunehmen, gegeben sie stimmt nicht)
    • Im Falle eines \(\beta\)-Fehlers wird die \(H_0\) beibehalten, gegeben sie stimmt nicht
    • Im Kontext muss somit abgewägt werden, ob ein \(\alpha\) oder ein \(\beta\) Fehler gravierendere Folgen bedeuten würden. Ein Beispiel hierfür wäre ein Covid-19 Test: Es scheint weniger gravierend, einer gesunden Person eine positive Diagnose zu stellen und diese in Quarantäne zu schicken (falsch-positiv: \(\alpha\)-Fehler), als einer erkrankten Person eine negative Diagnose zu stellen und diese nicht zu isolieren (falsch-negativ: \(\beta\)-Fehler). Dementsprechend wird das \(\alpha\)-Niveau eher hoch angesetzt
  • Man könnte in unserem Haustierbeispiel argumentieren, dass eine falsch-positive Testentscheidung (zu schlussfolgern, Haustiere würden das Wohlbefinden steigern) keine gravierenden Folgen hätte, wobei ein richtig-positives Ergebnis durchaus Vorteile haben könnte (dass Personen mit geringem Wohlbefinden aktiv durch Haustiere geholfen werden kann) \(\rightarrow\) demnach können wir das \(\alpha\)- Niveau auf 10% setzen
  • Allerdings könnte auch argumentiert werden, dass Haustierhaltung ggf. ethische Aspekte beinhaltet, die zu bedenken sind (v.a., wenn Tiere ausgesetzt werden oder vernachlässigt - oder generell) und dass ein \(\alpha\)-Niveau von 5% der Konvention entspricht
    \(\rightarrow\) Letztendlich sind unterschiedliche \(\alpha\)-Niveaus möglich und es muss immer im Kontext abgewogen und argumentiert werden. In den Lösungen der folgenden Aufgaben werden wir ein \(\alpha\)-Niveau von 5% verwenden.


(c) Berechne den kritischen Wert für Dein Signifikanzniveau sowie die empirische Prüfgröße.
Lösung

Da die Populationsverteilung (\(\mu\); \(\sigma\)) bekannt ist, können wir einen z-Test durchführen

1. Bestimmung des kritischen Werts:
\(z_{krit} = z_{95\%} =\)
\(1.65\)
Beachte: Die Verteilungstabelle führt keinen z-Wert für das exakte 95%-Perzentil auf. Dieses liegt zwischen 1.64 und 1.65.Wir entscheiden uns mit 1.65 für den konservativeren der beiden Werte. Mit \(\alpha\) = 5% haben wir das maximal akzeptable Risiko festgelegt, den Fehler 1. Art zu begehen. Wir wollen also, dass die Fläche rechts des kritischen Werts maximal 5% und dementsprechend die Fläche unterhalb des kritischen Werts nicht weniger als 95% entspricht. Würden wir den z-Wert von 1.64 wählen, lägen jedoch nur 94.95% der Verteilung unterhalb des kritischen Wertes. Um konservativ (also “vorsichtig”) vorzugehen, wählen wir also den Wert 1.65 (und somit mit 95.05% etwas mehr als 95%).

2. Berechnung des empirischen Wertes:

Gegeben sind die folgenden Werte:

  • \(\mu_0 = 7\)
  • \(\sigma^2 = 0.2^2\)
  • \(n = 36\)
  • \(\bar{x} = 7.34\)

Die Formel zur Berechnung der empirischen Prüfgröße aus der Formelsammlung lautet:  \(z_{emp} = \frac{\bar{x} - \mu_0}{\sigma_{\bar{x}}}\)

Zur Berechnung fehlt uns also der Standardfehler, welchen wir wie folgt berechnen:
\(\begin{aligned} \sigma_{\bar{x}} &= \sqrt{\frac{\sigma^2}{n}}\\ &= \sqrt{\frac{0.2^2}{36}}\\ &= \frac{0.2}{6}\\ &= 0.033\\ \end{aligned}\)
Wir setzen den Standardfehler nun in die Formel zur Berechnung der empirischen Prüfgröße ein:
\(\begin{aligned} z_{emp} &= \frac{\bar{x} - \mu_0}{\sigma_{\bar{x}}}\\[1,2ex] &= \frac{7.34 - 7}{0.033}\\[1,2ex] &= \underline{\underline{10.303}}\\[1,2ex] \end{aligned}\)


(d) Zu welcher Testentscheidung kommst Du? Welchen Fehler kannst Du dabei begehen?
Lösung

Wir vergleichen die empirische Prüfgröße mit dem kritischen Wert: \(10.303 > 1.65\)

Testentscheidung: Die Nullhypothese wird verworfen.
\(\rightarrow\) Möglicher Fehler: \(\alpha\)-Fehler


(e) Interpretiere das Ergebnis inhaltlich.
Lösung

Interpretation: Haustierhaltende berichten im Mittel ein höheres subjektives Wohlbefinden als die Allgemeinbevölkerung.


(f) Welche anderen Variablen könnten dieses Ergebnis beeinflussen und somit verzerren?
Lösung

  • Beispiele für mögliche konfundierende Variablen:
    • Einkommen, durch das man sich Haustiere leisten kann und das das Wohlbefinden (bis zu einem gewissen Grad) ebenfalls positiv beeinflusst
    • Familiensinn bzw. Verträglichkeit
    • (verringerte) Einsamkeit
    • (je nach getestetem Haustier:) höhere körperliche Betätigung
    • usw.



(9) Fehler finden

Eine Freundin aus deiner Lerngruppe gibt Dir ihre Zusammenfassung zum Thema »z-Test«, da sie sichergehen will, dass alles richtig ist.
Finde die Fehler und berichtige sie! Was sollte Deine Freundin an wichtiger Information ergänzen?

Mit dem z-Test werden statistische Hypothesen getestet. Voraussetzung für die Anwendung sind: Normalverteiltes Merkmal in der Population bei bekanntem Populationsmittelwert. Der Test heißt z-Test, weil die Prüfgröße normalverteilt ist.
Zuerst muss man die Hypothesen aufstellen. Es gibt eine Null- und eine Alternativhypothese (\(H_0\) und \(H_1\)). Die \(H_1\) ist der »Status-quo« des Wissens und wird als Gegenteil der \(H_0\) formuliert.
Danach legt man das Signifikanzniveau fest. Nach einer Konvention beträgt es immer 5%. Es bezeichnet die Wahrscheinlichkeit, dass die Nullhypothese falsch ist.
Für die Entscheidung für- oder gegen eine der Hypothesen vergleicht man den empirischen z-Wert mit dem kritischen Wert. Kritischer Wert und empirische Prüfgröße können erst mit den Stichprobenwerten berechnet werden. Die Formel für die Prüfgröße ist \(z_{emp} = \frac{\bar{x} - \mu}{\sigma}\). Man z-transformiert damit den Stichprobenmittelwert, um ihn in die standardisierte Stichprobenmittelwerteverteilung einzuordnen. Dann guckt man durch den Vergleich mit dem kritischen Wert, ob sich dieser Mittelwert von dem Erwartungswert der Verteilung überzufällig unterscheidet, also ob er besonders weit am oberen Ende der Verteilung liegt. Wenn das so ist, nimmt man die Alternativhypothese an.


Lösung

Mit dem z-Test werden statistische Hypothesen getestet. Damit wird geprüft, ob sich eine Gruppe von der gegebenen Population bezogen auf ein Merkmal unterscheidet, d.h. ob die Stichprobe aus einer separaten Population stammt. Voraussetzung für die Anwendung sind: Normalverteiltes Merkmal in der Population bei bekanntem Populationsmittelwert und bekannter Populationsvarianz. Der Test heißt z-Test, weil die Prüfgröße standard normalverteilt ist.
Zuerst muss man die Hypothesen aufstellen. Es gibt eine Null- und eine Alternativhypothese (\(H_0\) und \(H_1\)). Die \(\boldsymbol{H_0}\) ist der »Status-quo« des Wissens und wird als Gegenteil der \(\boldsymbol{H_1}\) formuliert, d.h. erschöpfend. Das Testergebnis soll nämlich immer eine eindeutige Entscheidung für- oder gegen die Nullhypothese ergeben.
Danach legt man das Signifikanzniveau fest. Nach einer Konvention beträgt es meistens 5% oder 1%. Man sollte es aber immer im Hinblick darauf festlegen, welche Kosten eine falsche Entscheidung und welchen Nutzen, einen Effekt zu finden, es gibt. Demnach sind auch höhere oder niedrigere Werte möglich. Es bezeichnet die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise verworfen wird, d.h. die Entscheidung gegen die Nullhypothese ausfällt, obwohl sie wahr ist. Das Signifikanzniveau kontrolliert also das Risiko des Stichprobenfehlers.  Für die Entscheidung für- oder gegen die Nullhypothese vergleicht man die empirische Prüfgröße mit dem kritischen z-Wert. (Man testet immer die Nullhypothese, also die bisherigen Annahmen, gegen die Realität. Diese können verworfen oder beibehalten werden. Die Alternativhypothese kann nicht direkt getestet werden. Ein Ergebnis gegen die Nullhypothese kann lediglich zugunsten der Alternativhypothese ausfallen. Diese kann nach Wiederholungen dieses Ergebnisses zum »Status quo« werden und kann sodann getestet werden.)
Der oder die kritischen Werte ergeben sich aus den Hypothesen und dem Signifikanzniveau und können schon vor der Datenerhebung berechnet werden. Für ungerichtete Hypothesen gibt es je einen kritischen Wert an den Enden der Verteilung, wobei das \(\boldsymbol{\alpha}\)-Niveau halbiert und für \(\frac{\boldsymbol{\alpha}}{2}\) in der z-Tabelle nachgeschaut wird. Beim einseitigen Testen von gerichteten Hypothesen ist der kritische Wert das Perzentil von \(\boldsymbol{\alpha}\) bzw. \(\boldsymbol{1 - \alpha}\). Die
empirische Prüfgröße kann erst mit den Stichprobenwerten berechnet werden. Die Formel für die Prüfgröße ist \(z_{emp} = \frac{\bar{x} - \mu}{\sigma_\boldsymbol{\bar{x}}}\) (im Nenner steht der Standardfehler als Streuung der Stichprobenkennwerteverteilung). Man z-transformiert damit den Stichprobenmittelwert, um ihn in die standardisierte Stichprobenmittelwerteverteilung einzuordnen.
Dann guckt man durch den Vergleich mit dem kritischen Wert, ob sich dieser Stichprobenmittelwert von dem Erwartungswert der Verteilung (d.h. dem Populationsmittelwert) überzufällig unterscheidet, also ob er besonders weit am entsprechend der \(\boldsymbol{H_1}\) interessierenden Ende der Verteilung liegt. Überzufällig sind empirische Werte, die ober- bzw. unterhalb des kritischen Wertes liegen, welcher den Ablehnungsbereich markiert. Bei gerichteten Hypothesen gibt es nur auf einer Seite einen Ablehnungsbereich. Für ungerichtete Hypothesen liegen Ablehnungsbereiche an beiden Seiten der Verteilung und Ergebnisse in beide Richtungen können signifikant werden. Wenn der empirische z-Wert in den Ablehnungsbereich fällt, lehnt man die Nullhypothese ab.