\(\chi^2\)-Unabhängigkeitstest

In einer Studie soll die Wirkung von einem neuen Hustensaft mit einer Placebo-Bedingung (Zuckersirup) verglichen werden. Im Anschluss an die Behandlung wird festgehalten, ob sich bei den Versuchspersonen die Symptomatik verbessert hat. Die ForscherInnen haben die Vermutung aufgestellt, dass die Symptomatik nach der Behandlung von der Behandlungsbedingung abhängt (sich bessert).

(a) Ergänze die fehlenden beobachteten und erwarteten (in Klammern) Häufigkeiten in der 2x2-Häufigkeitstabelle!

Symptomatik Medikament Placebo Total
verbessert 150 250
nicht verbessert 150
Total 200 200 400

Lösung

Symptomatik Medikament
(Spalte 1)
Placebo
(Spalte 2)
Total
verbessert
(Zeile 1)
\(n_{11}\) \(n_{12}\) \(n_{1\cdot}\)
nicht verbessert
(Zeile 2)
\(n_{21}\) \(n_{22}\) \(n_{2\cdot}\)
Total \(n_{\cdot 1}\) \(n_{\cdot 2}\) \(N\)

Berechnung fehlende beobachtete Häufigkeiten:

  • Der Stichprobenumfang ist die Summe aller Häufigkeiten in den Zellen bzw. die Summe der Randsummen.
  • Die Randsumme einer Zeile errechnet sich aus den Einzelhäufigkeiten der Zellen in dieser Zeile.
  • Die Randsumme einer Spalte errechnet sich aus den Einzelhäufigkeiten der Zellen in dieser Spalte.
  • Daher kann man bei einer fehlenden Häufigkeit pro Zeile bzw. Spalte die Randsumme minus der gegebenen Häufigkeit in dieser Zeile bzw. Spalte berechnen, um auf die fehlende Häufigkeit zu kommen.
  • Randsumme \(n_{1\cdot}\) - Häufigkeit \(n_{11} =\) Häufigkeit \(n_{12}\) → 250 – 150 = 100
    • Randsumme \(n_{\cdot1}\) - Häufigkeit \(n_{11}\) Häufigkeit \(n_{21}\) → 200 – 150 = 50
    • Randsumme \(n_{\cdot2}\) - Häufigkeit \(n_{12} =\) Häufigkeit \(n_{22}\) → 200 – 100 = 100
Symptomatik Medikament Placebo Total
verbessert \(n_{11}=\) 150 \(n_{12}\) = 100 \(n_{1\cdot}=\) 250
nicht verbessert \(n_{21}\) = 50 \(n_{22}\) = 100 \(n_{2\cdot}=\) 150
Total \(n_{\cdot 1}=\) 200 \(n_{\cdot 2}=\) 200 \(N=\) 400

Berechnung erwartete Häufigkeiten:

  • Die erwarteten Häufigkeiten \(m_{ij}\) geben an, wie die Zellhäufigkeiten verteilt sein müssten, wenn die kategorialen Merkmale unabhängig wären.
  • Die Randsummen und der Stichprobenumfang bleiben für beobachtete und erwartete Häufigkeiten gleich.
  • Man berechnet die erwarteten Häufigkeiten aus dem Produkt der (beobachteten) Randsummen für diese Zelle und teilt durch den (beobachteten) Stichprobenumfang.
    • \(m_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{N}\)
      • \(n_{i\cdot} =\) Randhäufigkeit der Zeile \(i\)
      • \(n_{\cdot j}\) = Randhäufigkeit der Spalte \(j\)
      • \(N\) = Stichprobenumfang
Symptomatik Medikament Placebo Total
verbessert 150
\(m_{11} = \frac{n_{1\cdot} \cdot n_{\cdot 1}}{N}\)
100
\(m_{12} = \frac{n_{1\cdot} \cdot n_{\cdot 2}}{N}\)
250
nicht verbessert 50
\(m_{21} = \frac{n_{2\cdot} \cdot n_{\cdot 1}}{N}\)
100
\(m_{22} = \frac{n_{2\cdot} \cdot n_{\cdot 2}}{N}\)
150
Total 200 200 400

Häufigkeit \(m_{11} = \frac{n_{1\cdot} \cdot n_{\cdot 1}}{N}\)\(\frac{250\cdot200}{400}\)
Häufigkeit \(m_{21} = \frac{n_{2\cdot} \cdot n_{\cdot 1}}{N}\)\(\frac{250\cdot200}{400}\)

  • Die letzte leere Zelle einer Zeile oder Spalte muss so gesetzt werden, dass sich wieder die gegebene Randsumme ergibt.
  • D.h., dass diese Häufigkeit als die Differenz der Randsumme der Zeile (oder Spalte) minus die bereits berechnete erwartete Häufigkeit der Zeile (oder Spalte) berechnet werden kann.
  • Häufigkeit \(m_{12}\) = Randsumme \(n_{1\cdot}\) - Häufigkeit \(m_{11}\) → 250 - 125 = 125
  • Häufigkeit \(m_{22}\) = Randsumme \(n_{\cdot2}\) - Häufigkeit \(m_{21}\) → 200 - 125 = 75
Symptomatik Medikament Placebo Total
verbessert 150 (125) 100 (125) 250
nicht verbessert 50 (75) 100 (75) 150
Total 200 200 400


(b) Teste mit einem einseitigen \(\boldsymbol{\chi^2}\)-Unabhängigkeitstest (\(\boldsymbol{\alpha = .05}\)) die Nullhypothese, dass Behandlungsbedingung und Symptomatik nach der Behandlung unabhängig voneinander sind. Fülle die nachfolgenden Lücken aus!

Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösung

Für den allgemeinen Fall mit \(k\) Zeilen und \(l\) Spalten lautet die Prüfgröße des \(\chi^2\)-Tests auf Unabhängigkeit:

\(\begin{aligned} \chi^2 = \sum_{i=1}^{k} \sum_{i=1}^{l} \frac{(n_{ij} – m_{ij})^2}{m_{ij}} \end{aligned}\)

\(i = 1,…, k\) Zeilen
\(j = 1,…, l\) Spalten
\(n_{ij}\): beobachtete Häufigkeit
\(m_{ij}\): erwartete Häufigkeit
approximativ \(\chi^2\)-verteilt mit \(df = (k -1) \cdot (l -1)\) Freiheitsgraden


  • In unserem Fall haben wir \(k = l = 2\) Zeilen und Spalten und folgende Prüfgröße:

\(\begin{aligned} {\chi}^2 &= \sum_{i=1}^{k} \sum_{i=1}^{l} \frac{(n_{ij} – m_{ij})^2}{m_{ij}} \\ &= \frac{(n_{11} – m_{11})^2}{m_{11}} + \frac{(n_{21} – m_{21})^2}{m_{21}} + \frac{(n_{12} – m_{12})^2}{m_{12}} + \frac{(n_{22} – m_{22})^2}{m_{22}} \\ &= \frac{(150 – 125)^2}{125} + \frac{(100 – 125)^2}{125} + \frac{(50 – 75)^2}{75} + \frac{(100 – 75)^2}{75} \\ &= \frac{80}{3} \approx \underline{\underline{26.667}} \end{aligned}\)

  • Für den kritischen Wert berechnen wir zunächst die Freiheitsgrade aus dem Produkt der Zeilenanzahl \(k – 1\) und der Spaltenanzahl \(l – 1\)
    \(df = (2 - 1) \cdot (2 – 1) = 1\)
  • Da es sich um eine einseitige Testung handelt (wir nehmen an, dass sich die Symptomatik nach der Behandlung mit dem Medikament bessert), verdoppeln wir das Signifikanzniveau von 5% auf 10%
  • Anmerkung: Unsere Prüfgröße ist \(\chi^2\)-verteilt, das heißt die Prüfgröße kann nur positive Werte annehmen.
  • Wenn wir eine einseitige Testung durchführen, wollen wir dafür „belohnt“ werden, dass wir eine (riskante) Annahme über die Richtung treffen, in die das Medikament die Symptomatik verändert. Deswegen soll die Prüfgröße leichter den kritischen Wert übersteigen als bei zweiseitiger Testung. Der kritische Wert bei zweiseitiger Testung soll also höher sein.
  • Daher wird das Signifikanzniveau bei einseitiger Testung verdoppelt (um einen niedrigeren kritischen Wert zu erhalten).
  • Wir schauen in der Tabelle der \(\chi^2\)-Verteilung für \(\chi^2_{1; 90\%}\) nach.

\(\chi^2_{1; 90\%} \approx \underline{\underline{2.706}}\)

  • Ist die Prüfgröße größer als der kritische Wert?
  • \(26.667 > 2.706\)
  • Wir verwerfen die Nullhypothese, dass Behandlungsmethode und Symptomatik nach der Behandlung unabhängig voneinander sind (bzw. das Medikament die Symptomatik verschlechtert).
  • Dabei könnten wir den \(\alpha\)-Fehler begehen, also die Nullhypothese verwerfen, obwohl sie stimmt. Unser signifikantes Ergebnis könnte ein Stichprobenartefakt sein und in Wirklichkeit (also in der Population) die Symptomatik unabhängig von dem Medikament sein oder durch dieses verschlechtert werden.

Prüfgröße: 26.667 mit \(\boldsymbol{df = 1}\)
kritischer Wert: \(\boldsymbol{ \chi^2_{1; 90\%} = 2.706}\)
Testentscheidung: Die \(H_0\) wird verworfen.
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\alpha}\)-Fehler


Eindimensionaler \(\chi^2\)-Test

An der Universität Ulm immatrikulierten zum Wintersemester 2014/15 150 Personen für den dort angebotenen Psychologie-Bachelorstudiengang. Darunter befanden sich 52 Männer und 98 Frauen.

(a) Prüfe mittels eindimensionalem \(\boldsymbol{\chi^2}\)-Test (zweiseitig, \(\boldsymbol{\alpha = .05}\)), ob das Merkmal Geschlecht signifikant von dem für das Studienfach Psychologie üblichen Verhältnis (Frauen : Männer, 2:1) abweicht und fülle die nachfolgenden Lücken aus!

Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösung

  • Fragestellung hier lautet, ob sich die beobachte Verteilung von der Verteilung unterscheidet, die wir erwartet hätten. Wir müssen also zunächst die erwarteten Häufigkeiten berechnen.
  • Bei einem Verhältnis von 2:1 gibt es also 2/3 Frauen und 1/3 Männer von \(N = 150\).
    \(m_{Frauen} = \frac{2}{3} \cdot 150 = 100\)
    \(m_{Männer} = \frac{1}{3} \cdot 150 = 50\)
Frauen Männer Summe
Häufigkeiten 98 (100) 52 (50) \(N = 150\)
  • Für die Prüfgröße benutzen wir wieder die Formel \({\chi}^2 = \sum_{i=1}^{k} \sum_{i=1}^{l} \frac{(n_{ij} – m_{ij})^2}{m_{ij}}\), aber in diesem Fall gibt es nur eine Zeile (\(k = 1\)). Somit vereinfachen wir zu

\(\begin{aligned} {\chi}^2 = \sum_{i=1}^{k} \frac{(n_{i} – m_{i})^2}{m_{i}} = \frac{(52 – 50)^2}{50} + \frac{(98 – 100)^2}{100} = \underline{\underline{.120}} \end{aligned}\)

  • Für den kritischen Wert berechnen wir zunächst die Freiheitsgrade mit \(df = (k - 1) = (2 – 1) = 1\)
  • Da es sich um eine zweiseitige Testung handelt, behalten wir das Signifikanzniveau von \(\alpha = 5\%\) bei und schauen in der Tabelle für \(\chi^2_{1; 95\%} \approx \underline{\underline{3.841}}\) nach.
  • Da \(.120 < 3.841\) behalten wir die Nullhypothese, dass hier das übliche Geschlechterverhältnis 2:1 vorliegt, bei.
  • Dabei können wir den \(\beta\)-Fehler begehen.

Prüfgröße: \(\boldsymbol{.120}\) mit \(\boldsymbol{df = 1}\)
kritischer Wert: \(\boldsymbol{\chi^2_{1; 95\%} = 3.841}\)
Testentscheidung: Die \(H_0\) wird beibehalten.
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\beta}\)-Fehler


McNemar \(\chi^2\)-Test

Ein Gesprächspsychotherapeut stuft die Bereitschaft von 14 Klienten, emotionale Erlebnisinhalte zu verbalisieren, vor und nach seiner Behandlung auf einer 10-Punkte-Skala ein. Die insgesamt 28 Urteile wurden an ihrem Median dichotomisiert, wobei sich folgende Häufigkeitstabelle ergab:

nachher
< Median > Median Summe
vorher < Median a = 1 b = 9 10
> Median c = 3 d = 1 4
Summe 4 10 14

(a) Bestimme die erwarteten Häufigkeiten der Zellen b und c! Darf der McNemar-Test durchgeführt werden?


Lösung

  • Die erwarteten Häufigkeiten beziehen sich immer auf die Nullhypothese der Unabhängigkeit. In diesem Fall lautet diese, dass die Bereitschaft, emotionale Erlebnisinhalte zu verbalisieren, unabhängig von der Behandlung ist. D.h., dass nach der Behandlung nicht mehr Personen eine Bereitschaft höher als der Median aufweisen, die es vorher nicht taten, als andersherum.
  • Für den McNemar-Test sind nur die Fälle, bei denen eine Veränderung auftritt, relevant (die „Kategorienwechsler“).
  • Wir erwarten also, dass es gleich viele Kategorienwechsler (von höher als der Median zu niedriger als der Median und andersherum) „in beide Richtungen“ gibt:
    \(m_{b}\) \(=\) \(m_{c}\) \(= \frac{b + c}{2}\) (aufgepasst: hier sind die Randhäufigkeiten nicht fix!)
    \(m_{b}\) \(=\) \(m_{c}\) \(= \frac{9 + 3}{2} = \underline{\underline{6}}\)
nachher
< Median > Median Summe
vorher < Median a = 1 \(m_b\) = 6 10
> Median \(m_c\) = 6 d = 1 4
Summe 4 10 14
  • Der McNemar-Test kann angewendet werden, da die erwarteten Häufigkeiten \(m_{b}\) \(=\) \(m_{c}\) \(> 5\) sind.


(b) Führe den McNemar-Test (einseitig, \(\boldsymbol{\alpha = .05}\)) durch und vervollständige die nachfolgenden Lücken!

\(H_0\): ____________________
\(H_1\): ____________________
Prüfgröße: ________________
kritischer Wert: ________________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________


Lösung

  • Der Sinn der Therapie ist, dass PatientInnen lernen, emotionale Gesprächsinhalte zu verbalisieren. Unsere Alternativhypothese ist somit, dass mehr PatientInnen in der Therapie erlernt haben, über emotionales Erleben zu reden, als es verlernt haben. Es sollten nach der Therapie mehr Personen über dem Median eingestuft werden, die vorher darunter eingestuft wurden, als umgekehrt: b > c
  • Die Nullhypothese wird erschöpfend entgegengesetzt formuliert: b \(\leq\) c Die Therapie ist unabhängig von der Veränderung der Bereitschaft (oder lässt es mehr Personen verlernen).
  • Für die Prüfgröße vereinfacht sich unsere allgemeine Formel zu \(\chi^2 = \frac{(\color{lightblue}{b} – \color{lightblue}{m_b})^2}{\color{lightblue}{m_b}} + \frac{\color{lightgreen}{c} – \color{lightgreen}{m_c})^2}{\color{lightgreen}{m_c}}\), da nur die Veränderungen interessieren.
    Wir vereinfachen weiter zu \(\chi^2 = \frac{(\color{lightblue}{b} – \color{lightgreen}{c})^2}{\color{lightblue}{b} + \color{lightgreen}{c}}\)
    \(\chi^2 = \frac{(9 – 3)^2}{9 + 3} = \underline{\underline{3}}\)
  • Für den kritischen Wert berechnen wir zunächst die Freiheitsgrade mit \(df = (k -1) \cdot (l -1) = (2 – 1) \cdot (2 – 1) = 1\)
    einseitige Testung, daher \(\alpha = 2 \cdot .05 = .10\)
    in der Tabelle nachschauen: \(\chi^2_{1; 90\%} \approx \underline{\underline{2.706}}\)
  • 3 > 2.706 → Die \(H_0\) wird verworfen.
  • \(\alpha\)-Fehler möglich

\(H_0\): \(\boldsymbol{b \leq c}\)
\(H_1\): \(\boldsymbol{b > c}\)
Prüfgröße: \(\boldsymbol{3.000}\) mit \(\boldsymbol{df = 1}\)
kritischer Wert: \(\boldsymbol{\chi^2_{1; 90\%} = 2.706}\)
Testentscheidung: Die \(H_0\) wird verworfen
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\alpha}\)-Fehler