Allgemein
(1) Welche Aussage zu den \(\chi^2\)- Methoden ist falsch?
- Im Falle eines \(\chi^2\)-Unabhängigkeitstests entspricht die Prüfgröße der Summe von quadrierten, normierten Differenzen.
- Für einen \(k \times l\) - \(\chi^2\)-Unabhängigkeitstest ergeben sich \(df = (k -1) \cdot (l - 1)\) Freiheitsgrade, da die Randhäufigkeiten fixiert sind.
- Der eindimensionaler \(\chi^2\)-Test wird auch eingesetzt, um auf Abweichung von wichtigen Verteilungsannahmen zu prüfen, wobei die \(H_0\) die „Wunschhypothese“ ist.
- Der McNemar-Test ist, wie alle anderen \(\chi^2\)-Methoden, bei Beobachtungspaaren nicht einsetzbar.
Lösung
- Im Falle eines \(\chi^2\)-Unabhängigkeitstests entspricht die Prüfgröße der Summe von quadrierten, normierten Differenzen.
Die Prüfgröße errechnet sich mithilfe der Abweichung der beobachteten Werte von den erwarteten Werten, welche noch einmal an den erwarteten Werten normiert wird. Dieses Vorgehen wird für alle Zellen wiederholt. Die Formel lautet:
- Für einen \(k \times l\) - \(\chi^2\)-Unabhängigkeitstest ergeben sich \(df = (k -1) \cdot (l - 1)\) Freiheitsgrade, da die Randhäufigkeiten fixiert sind.
Die Randsummen der erwarteten Häufigkeiten müssen mit den Randsummen der beobachteten Häufigkeiten übereinstimmen. Es können deshalb in jeder Zeile bzw. Spalte nur \(l-1\) bzw. \(k - 1\) erwartete Häufigkeiten frei gewählt werden.
- Der eindimensionaler \(\chi^2\)-Test wird auch eingesetzt, um auf Abweichung von wichtigen Verteilungsannahmen zu prüfen („Goodness-of-Fit-Test“), wobei die \(H_0\) die „Wunschhypothese“ ist.
Das ist eine mögliche Anwendung des eindimensionalen \(\chi^2\)-Tests. Es ist wichtig zu beachten, dass die \(H_0\) die „Wunschhypothese“ ist, d.h. die von uns vermutete Verteilung beinhaltet (Gleichverteilung, Normalverteilung, etc.). Daraus ergibt sich die Notwendigkeit, das \(\alpha\)-Niveau entsprechend anzupassen, um indirekt den \(\beta\)-Fehler zu minimieren.
- Der McNemar-Test ist, wie alle anderen \(\chi^2\)-Methoden, bei Beobachtungspaaren nicht einsetzbar. X
Der McNemar-Test (und auch der Cochran’s Q-Test) wird ausschließlich bei anhängigen Beobachtungen, d.h. beim Vorliegen der Beobachtungspaare eingesetzt. Alle anderen \(\chi^2\)-Methoden erfordern Unabhängigkeit der einzelnen Beobachtungen voneinander.
(2) Welche Methoden der Häufigkeitsanalyse sind für die folgenden Fragestellungen sinnvoll?
- Ein Dozent interessiert sich dafür, ob Studierende, die seine sehr schwere Klausur im ersten Versuch streichen, damit recht haben, d.h. ob mehr Studierende die Klausur im Zweitversuch „gut“ (Note besser vs. schlechter als 3.0) bestehen als in ihrem Erstversuch. Dafür wählt er die Klausuren von den Studierenden aus, die zum zweiten Mal seine Klausur schreiben, findet ihre Klausuren aus dem Semester davor und zählt, wie viele von diesen Studierenden jeweils im Erst- und Zweitversuch seine Klausur „gut“ bestanden haben.
- Eine junge Psychologin interessiert sich, ob die Zufriedenheit (dichotom: zufrieden/unzufrieden) von ihren 8 Mitarbeitern im Startup damit zusammenhängt, ob sie im Büro oder im Homeoffice arbeiten.
- Eine Wirtschaftspsychologin fragt sich, ob sich die Anfragehäufigkeit für ihre drei unterschiedlichen Workshopangebote überzufällig häufig unterscheidet.
- Ein Gesundheitspsychologie vermutet: die Tatsache, dass jemand aufgehört hat zu rauchen vs. nicht, hängt damit zusammen, ob die Person an seinem Entwöhnungstraining teilgenommen hat oder nicht.
Lösung
- Ein Dozent interessiert sich dafür, ob Studierende, die seine sehr schwere Klausur im ersten Versuch streichen, damit recht haben…
\(\rightarrow\) Wir rechnen hier einen McNemar-Test, da ein Merkmal (hier: die Klausurleistung) zweimal in derselben Stichprobe (hier: die Studierenden) erhoben wird und wir uns fragen, ob sich die Häufigkeiten (hier: der “gut” und “schlecht” abschneidenden Studierenden) überzufällig verändern.
- Eine junge Psychologin interessiert sich, ob die Zufriedenheit von ihren 8 Mitarbeitern damit zusammenhängt, ob sie im Büro oder im Homeoffice arbeiten.
\(\rightarrow\) Wenn wir uns fragen, ob ein überzufälliger Zusammenhang zwischen zwei nominalskalierten Variablen besteht (hier: dichotomisierte Zufriedenheit und Arbeitsplatz), kommen für uns zwei Verfahren in Frage: Der \(\chi^2\)-Unabhängigkeitstest und der exakte Fisher-Yates-Test. Bei kleinem \(n\) (genauer: wenn in mehr als 20% der Zellen die erwartete Häufigkeit unter 5 liegt), wenden wir den exakten Fisher-Yates-Test an. Dies ist hier der Fall, wenn die erwarteten Häufigkeiten z.B. folgendermaßen aussehen:
Eine Wirtschaftspsychologin fragt sich, ob sich die Anfragehäufigkeit für ihre drei unterschiedlichen Workshopangebote überzufällig häufig unterscheidet.
\(\rightarrow\) Hier liegt nur ein Merkmal (Art des Workshops) mit mehreren Merkmalsabstufungen (die 3 Workshoparten) vor und wir fragen uns, ob die vorliegenden Häufigkeiten überzufällig von einer bestimmten Verteilung (hier: einer Gleichverteilung) abweichen. In diesem Fall müssen wir einen eindimensionalen \(\chi^2\)-Test anwenden.
Ein Gesundheitspsychologie vermutet: die Tatsache, dass jemand aufgehört hat zu rauchen vs. nicht, hängt damit zusammen, ob die Person an seinem Entwöhnungstraining teilgenommen hat oder nicht.
\(\rightarrow\) Auch hier liegt eine bivariate Häufigkeitsverteilung vor. Das bedeutet, dass wir uns fragen, ob ein überzufälliger Zusammenhang zwischen zwei Merkmalen (hier: Rauchverhalten und Trainingsteilnahme) besteht. Da \(n\) hier groß genug ist (der Gesundheitspsychologe hatte vermutlich genug Kund_innen), können wir davon ausgehen, dass nicht mehr als 20% der Zellen eine erwartete Häufigkeit unter 5 haben und somit einen \(\chi^2\)-Unabhängigkeitstest anwenden.
Fisher-Yates-Test
(1) Welche Aussage zum exakten Test nach Fischer ist falsch?
- Wenn in einer Kontingenztafel in \(> 20\%\) der Zellen die erwarteten Häufigkeiten \(< 5\) sind, sollte man den exakten Test nach Fisher verwenden (und nicht den \(\chi^2\)-Unabhängigkeitstest).
- Die Berechnung für mehr als \(4\) Zellen, größere Stichproben und ähnliche Zellenbesetzungen ist beim exakten Text nach Fischer sehr einfach.
- Um zu ermitteln, wie wahrscheinlich die gegebene oder eine noch extremere Häufigkeitsverteilung unter der H0 ist, müssen wir die p-Werte für die gegebene und alle noch extremeren Bedingungen berechnen und aufsummieren.
Lösung
- Wenn in einer Kontingenztafel in \(> 20\%\) der Zellen die erwarteten Häufigkeiten \(< 5\) sind, sollte man den exakten Test nach Fisher verwenden (und nicht den \(\chi^2\)-Unabhängigkeitstest).
Der Fisher-Yates-Test nennt man auch „exakt“, weil der \(p\)-Wert auch für kleines \(N\) und ohne parametrische Annahmen exakt berechnet werden kann. Der \(\chi^2\)-Unabhängigkeitstest erfordert hingegen, dass dass die Mehrheit (min. 80%) der erwarteten Häufigkeiten \(m_{ij}\) größer als 5 sind. Sonst ist die Prüfgröße nicht mehr \(\chi^2\)-verteilt.
- Die Berechnung für mehr als \(4\) Zellen, größere Stichproben und ähnliche Zellenbesetzungen ist beim exakten Text nach Fischer sehr einfach. X
Die Berechnung wird in so einem Fall enorm aufwändig. Das sind genau die Bedingungen unter welchen \(\chi^2\)-Methoden eingesetzt werden können.
- Um zu ermitteln, wie wahrscheinlich die gegebene oder eine noch extremere Häufigkeitsverteilung unter der \(H_0\) ist, müssen wir die \(p\)-Werte für gegebene und alle noch extremeren Bedingungen berechnen und aufsummieren.
Wir schauen uns zuerst die gegebene Häufigkeitsverteilung an und berechnen die Wahrscheinlichkeit dafür. Danach ermitteln wir sämtliche extremeren Häufigkeitsverteilungen und berechnen die damit verbundenen Wahrscheinlichkeiten. Als letztes summieren wir alle berechneten Wahrscheinlichkeiten auf.
\(\chi^2\)-Unabhängigkeitstest
In einer Studie soll die Wirkung von einem neuen Hustensaft mit einer Placebo-Bedingung (Zuckersirup) verglichen werden. Die Forscher_innen haben die Vermutung aufgestellt, dass die Symptomatik und die Behandlung zusammenhängen (d.h. nicht unabhängig voneinander sind).
(a) Ergänze die fehlenden beobachteten und erwarteten (in Klammern) Häufigkeiten in der 2x2-Häufigkeitstabelle!
Symptomatik
|
Medikament
|
Placebo
|
Total
|
verbessert
|
150
|
|
250
|
nicht verbessert
|
|
|
150
|
Total
|
200
|
200
|
400
|
Lösung
Symptomatik
|
Medikament (Spalte 1)
|
Placebo (Spalte 2)
|
Total
|
verbessert (Zeile 1)
|
\(n_{11}\)
|
\(n_{12}\)
|
\(n_{1\cdot}\)
|
nicht verbessert (Zeile 2)
|
\(n_{21}\)
|
\(n_{22}\)
|
\(n_{2\cdot}\)
|
Total
|
\(n_{\cdot 1}\)
|
\(n_{\cdot 2}\)
|
\(N\)
|
Berechnung der fehlenden beobachteten Häufigkeiten:
- Der Stichprobenumfang ist die Summe aller Häufigkeiten in den Zellen bzw. die Summe der Randsummen.
- Die Randsumme einer Zeile errechnet sich aus den Einzelhäufigkeiten der Zellen in dieser Zeile.
- Die Randsumme einer Spalte errechnet sich aus den Einzelhäufigkeiten der Zellen in dieser Spalte.
- Daher kann man bei einer fehlenden Häufigkeit pro Zeile bzw. Spalte die Randsumme minus der gegebenen Häufigkeit in dieser Zeile bzw. Spalte berechnen, um auf die fehlende Häufigkeit zu kommen.
- Randsumme \(n_{1\cdot}\) - Häufigkeit \(n_{11} =\) Häufigkeit \(n_{12}\) → 250 – 150 = 100
- Randsumme \(n_{\cdot1}\) - Häufigkeit \(n_{11}\) Häufigkeit \(n_{21}\) → 200 – 150 = 50
- Randsumme \(n_{\cdot2}\) - Häufigkeit \(n_{12} =\) Häufigkeit \(n_{22}\) → 200 – 100 = 100
Symptomatik
|
Medikament
|
Placebo
|
Total
|
verbessert
|
\(n_{11}=\) 150
|
\(n_{12}\) = 100
|
\(n_{1\cdot}=\) 250
|
nicht verbessert
|
\(n_{21}\) = 50
|
\(n_{22}\) = 100
|
\(n_{2\cdot}=\) 150
|
Total
|
\(n_{\cdot 1}=\) 200
|
\(n_{\cdot 2}=\) 200
|
\(N=\) 400
|
Berechnung der erwarteten Häufigkeiten:
- Die erwarteten Häufigkeiten \(m_{ij}\) geben an, wie die Zellhäufigkeiten verteilt sein müssten, wenn die kategorialen Merkmale unabhängig wären.
- Die Randsummen und der Stichprobenumfang bleiben für beobachtete und erwartete Häufigkeiten gleich.
- Man berechnet die erwarteten Häufigkeiten aus dem Produkt der (beobachteten) Randsummen für diese Zelle und teilt durch den (beobachteten) Stichprobenumfang.
- \(m_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{N}\)
- \(n_{i\cdot} =\) Randhäufigkeit der Zeile \(i\)
- \(n_{\cdot j}\) = Randhäufigkeit der Spalte \(j\)
- \(N\) = Stichprobenumfang
Symptomatik
|
Medikament
|
Placebo
|
Total
|
verbessert
|
150 \(m_{11} = \frac{n_{1\cdot} \cdot n_{\cdot 1}}{N}\)
|
100 \(m_{12} = \frac{n_{1\cdot} \cdot n_{\cdot 2}}{N}\)
|
250
|
nicht verbessert
|
50 \(m_{21} = \frac{n_{2\cdot} \cdot n_{\cdot 1}}{N}\)
|
100 \(m_{22} = \frac{n_{2\cdot} \cdot n_{\cdot 2}}{N}\)
|
150
|
Total
|
200
|
200
|
400
|
Häufigkeit \(m_{11} = \frac{n_{1\cdot} \cdot n_{\cdot 1}}{N}\) → \(\frac{250\cdot200}{400}\)
Häufigkeit \(m_{21} = \frac{n_{2\cdot} \cdot n_{\cdot 1}}{N}\) → \(\frac{250\cdot200}{400}\)
- Die letzte leere Zelle einer Zeile oder Spalte muss so gesetzt werden, dass sich wieder die gegebene Randsumme ergibt.
- D.h., dass diese Häufigkeit als die Differenz der Randsumme der Zeile (oder Spalte) minus die bereits berechnete erwartete Häufigkeit der Zeile (oder Spalte) berechnet werden kann.
- Häufigkeit \(m_{12}\) = Randsumme \(n_{1\cdot}\) - Häufigkeit \(m_{11}\) → 250 - 125 = 125
- Häufigkeit \(m_{22}\) = Randsumme \(n_{\cdot2}\) - Häufigkeit \(m_{21}\) → 200 - 125 = 75
Symptomatik
|
Medikament
|
Placebo
|
Total
|
verbessert
|
150 (125)
|
100 (125)
|
250
|
nicht verbessert
|
50 (75)
|
100 (75)
|
150
|
Total
|
200
|
200
|
400
|
(b) Teste mit einem zweiseitigen \(\boldsymbol{\chi^2}\)-Unabhängigkeitstest (\(\boldsymbol{\alpha = .05}\)) die Nullhypothese, dass Behandlungsbedingung und Symptomatik nach der Behandlung unabhängig voneinander sind. Fülle die nachfolgenden Lücken aus!
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Lösung
Für den allgemeinen Fall mit \(k\) Zeilen und \(l\) Spalten lautet die Prüfgröße des \(\chi^2\)-Tests auf Unabhängigkeit:
\(\begin{aligned} \chi^2 = \sum_{i=1}^{k} \sum_{i=1}^{l} \frac{(n_{ij} – m_{ij})^2}{m_{ij}} \end{aligned}\)
\(i = 1,…, k\) Zeilen
\(j = 1,…, l\) Spalten
\(n_{ij}\): beobachtete Häufigkeit
\(m_{ij}\): erwartete Häufigkeit
approximativ \(\chi^2\)-verteilt mit \(df = (k -1) \cdot (l -1)\) Freiheitsgraden
- In unserem Fall haben wir \(k = l = 2\) Zeilen und Spalten und folgende Prüfgröße:
\(\begin{aligned} {\chi}^2 &= \sum_{i=1}^{k} \sum_{i=1}^{l} \frac{(n_{ij} – m_{ij})^2}{m_{ij}} \\ &= \frac{(n_{11} – m_{11})^2}{m_{11}} + \frac{(n_{21} – m_{21})^2}{m_{21}} + \frac{(n_{12} – m_{12})^2}{m_{12}} + \frac{(n_{22} – m_{22})^2}{m_{22}} \\ &= \frac{(150 – 125)^2}{125} + \frac{(100 – 125)^2}{125} + \frac{(50 – 75)^2}{75} + \frac{(100 – 75)^2}{75} \\ &= \frac{80}{3} \approx \underline{\underline{26.667}} \end{aligned}\)
- Für den kritischen Wert berechnen wir zunächst die Freiheitsgrade aus dem Produkt der Zeilenanzahl \(k – 1\) und der Spaltenanzahl \(l – 1\)
\(df = (2 - 1) \cdot (2 – 1) = 1\)
- Da es sich um eine zweiseitige Testung handelt (wir testen nur, ob es nach der Behandlung mit dem Medikament einen Unterschied gibt), behalten wir das Signifikanzniveau genauso bei und können es direkt aus der Tabelle ablesen.
- Anmerkung: Unsere Prüfgröße ist \(\chi^2\)-verteilt, das heißt die Prüfgröße kann nur positive Werte annehmen.
- Wir schauen in der Tabelle der \(\chi^2\)-Verteilung für \(\chi^2_{1; 95\%}\) nach.
\(\chi^2_{1; 95\%} \approx \underline{\underline{3.842}}\)
- Ist die Prüfgröße größer als der kritische Wert?
- \(26.667 > 3.842\)
- Wir verwerfen die Nullhypothese und gehen davon aus, dass die Behandlungsart und Symptomatik nach der Behandlung voneinander abhängig sind.
- Dabei könnten wir den \(\alpha\)-Fehler begehen, also die Nullhypothese verwerfen, obwohl sie stimmt. Unser signifikantes Ergebnis könnte ein Stichprobenartefakt sein und in Wirklichkeit (also in der Population) die Symptomatik unabhängig von dem Medikament sein.
Prüfgröße: 26.667 mit \(\boldsymbol{df = 1}\)
kritischer Wert: \(\boldsymbol{ \chi^2_{1; 95\%} = 3.842}\)
Testentscheidung: Die \(H_0\) wird verworfen.
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\alpha}\)-Fehler
Exkurs einseitige Testung: Hätten wir eine einseitige Testung durchgeführt, dann hätten wir unser \(\alpha\)-Niveau verändern müssen.Denn wir wollen dafür „belohnt“ werden, dass wir eine (riskante) Annahme über die Richtung des Effekts treffen. In diesem Fall, inwiefern das Medikament die Symptomatik verändert. Damit die empirische Prüfgröße leichter unseren kritischen Wert übersteigt müssen wir diesen reduzieren. Dies erreichen wir durch die Verdopplung des \(\alpha\)-Niveaus. So erhalten wir einen niedrigeren kritischen Wert als bei der zweiseitigen Testung.
Eindimensionaler \(\chi^2\)-Test
(1) An der Universität Ulm immatrikulierten zum Wintersemester 2014/15 150 Personen für den dort angebotenen Psychologie-Bachelorstudiengang. Darunter befanden sich 52 Menschen ohne und 98 Menschen mit Fahrrad.
(a) Prüfe mittels eindimensionalem \(\boldsymbol{\chi^2}\)-Test (zweiseitig, \(\boldsymbol{\alpha = .05}\)), ob das Merkmal mit vs. ohne Fahrrad signifikant von dem für das Studienfach Psychologie üblichen Verhältnis (2 mit Fahrrad :1 ohne Fahrrad) abweicht und fülle die nachfolgenden Lücken aus!
Prüfgröße: _______________
kritischer Wert: _______________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Lösung
- Fragestellung hier lautet, ob sich die beobachte Verteilung von der Verteilung unterscheidet, die wir erwartet hätten. Wir müssen also zunächst die erwarteten Häufigkeiten berechnen.
- Bei einem Verhältnis von 2:1 gibt es also 2/3 mit und 1/3 ohne Fahrrad von \(N = 150\).
\(m_{mitFahrrad} = \frac{2}{3} \cdot 150 = 100\)
\(m_{ohneFahrrad} = \frac{1}{3} \cdot 150 = 50\)
|
mitFahrrad
|
ohneFahrrad
|
Summe
|
Häufigkeiten
|
98 (100)
|
52 (50)
|
\(N = 150\)
|
- Für die Prüfgröße benutzen wir wieder die Formel \({\chi}^2 = \sum_{i=1}^{k} \sum_{i=1}^{l} \frac{(n_{ij} – m_{ij})^2}{m_{ij}}\), aber in diesem Fall gibt es nur eine Zeile (\(k = 1\)). Somit vereinfachen wir zu
\(\begin{aligned} {\chi}^2 = \sum_{i=1}^{k} \frac{(n_{i} – m_{i})^2}{m_{i}} = \frac{(52 – 50)^2}{50} + \frac{(98 – 100)^2}{100} = \underline{\underline{.120}} \end{aligned}\)
- Für den kritischen Wert berechnen wir zunächst die Freiheitsgrade mit \(df = (k - 1) = (2 – 1) = 1\)
- Da es sich um eine zweiseitige Testung handelt, behalten wir das Signifikanzniveau von \(\alpha = 5\%\) bei und schauen in der Tabelle für \(\chi^2_{1; 95\%} \approx \underline{\underline{3.841}}\) nach.
- Da \(.120 < 3.841\) behalten wir die Nullhypothese, dass hier das übliche Fahrradverhältnis 2:1 vorliegt, bei.
- Dabei können wir den \(\beta\)-Fehler begehen.
Prüfgröße: \(\boldsymbol{.120}\) mit \(\boldsymbol{df = 1}\)
kritischer Wert: \(\boldsymbol{\chi^2_{1; 95\%} = 3.841}\)
Testentscheidung: Die \(H_0\) wird beibehalten.
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\beta}\)-Fehler
(2) Welche der folgenden Aussagen über den eindimensionalen \(\chi^2\)-Test auf Normalverteilung treffen zu?
- Wie bei anderen \(\chi^2\)-Tests sind beide Variablen kategorial
- Wie bei anderen \(\chi^2\)-Tests, sollen die erwarteten Häufigkeiten pro Zelle über 5 liegen
- Die Prüfgröße folgt k - 2 Freiheitsgraden, da wir je bei der Schätzung von \(\mu\) und \(\sigma^2\) einen Freiheitsgrad verlieren
- Es handelt sich bei der Nullhypothese um unsere Wunschhypothese
- Die Wahrscheinlichkeit des Fehlers 2. Art ist quantifizierbar
Lösung
- Wie bei anderen \(\chi^2\)-Tests sind beide Variablen kategorial
Diese Aussage ist aus zwei Gründen inkorrekt: 1) Der \(\chi^2\)-Test auf Verteilungsform ist eindimensional, d.h. dass nur eine Variable vorliegt; 2) Der Test prüft in diesem speziellen Fall, ob ein metrisches Merkmal normalverteilt ist, d.h. hierfür muss dieses Merkmal metrisch sein und wird erst zu Berechnungszwecken künstlich kategorisiert
- Wie bei anderen \(\chi^2\)-Tests, sollen die erwarteten Häufigkeiten pro Zelle über 5 liegen 🗸
Hinweis: Kategorien mit \(m < 5\) können hier zusammengefasst werden.
- Die Prüfgröße folgt k - 2 Freiheitsgraden, da wir je bei der Schätzung von \(\mu\) und \(\sigma^2\) einen Freiheitsgrad verlieren
Wir verlieren 3 Freiheitsgrade: 1) Für die Schätzung von \(\mu\), 2) Für die Schätzung von \(\sigma^2\), 3) Da die Randhäufigkeiten der Kontingenztabelle fixiert sind und sich somit 1 Wert immer automatisch aus den anderen ergibt
- Es handelt sich bei der Nullhypothese um unsere Wunschhypothese 🗸
- Die Wahrscheinlichkeit des Fehlers 2. Art ist quantifizierbar
Die \(H_1\) umfasst alle Fälle außer Normalverteilung, d.h. Wir haben keine konkrete Verteilung der \(H_1\)
McNemar \(\chi^2\)-Test
Ein Gesprächspsychotherapeut stuft die Bereitschaft von 14 Klient_innen, emotionale Erlebnisinhalte zu verbalisieren, vor und nach seiner Behandlung auf einer 10-Punkte-Skala ein. Die Urteile wurden an ihrem Median dichotomisiert, wobei sich folgende Häufigkeitstabelle ergab:
|
|
nachher
|
|
|
< Median
|
> Median
|
Summe
|
vorher
|
< Median
|
a = 1
|
b = 9
|
10
|
vorher
|
> Median
|
c = 3
|
d = 1
|
4
|
vorher
|
Summe
|
4
|
10
|
14
|
(a) Bestimme die erwarteten Häufigkeiten der Zellen b und c! Darf der McNemar-Test durchgeführt werden?
Lösung
- Die erwarteten Häufigkeiten beziehen sich immer auf die Nullhypothese der Unabhängigkeit. In diesem Fall lautet diese, dass die Bereitschaft, emotionale Erlebnisinhalte zu verbalisieren, unabhängig von der Behandlung ist. D.h., dass nach der Behandlung nicht mehr Personen eine Bereitschaft höher als der Median aufweisen, die es vorher nicht taten, als andersherum.
- Für den McNemar-Test sind nur die Fälle, bei denen eine Veränderung auftritt, relevant (die „Kategorienwechsler_innen“).
- Wir erwarten also, dass es gleich viele Kategorienwechsler_innen (von höher als der Median zu niedriger als der Median und andersherum) „in beide Richtungen“ gibt:
\(m_{b}\) \(=\) \(m_{c}\) \(= \frac{b + c}{2}\) (aufgepasst: hier sind die Randhäufigkeiten nicht fix!)
\(m_{b}\) \(=\) \(m_{c}\) \(= \frac{9 + 3}{2} = \underline{\underline{6}}\)
|
|
nachher
|
|
|
< Median
|
> Median
|
Summe
|
vorher
|
< Median
|
a = 1
|
\(m_b\) = 6
|
10
|
vorher
|
> Median
|
\(m_c\) = 6
|
d = 1
|
4
|
vorher
|
Summe
|
4
|
10
|
14
|
- Der McNemar-Test kann angewendet werden, da die erwarteten Häufigkeiten \(m_{b}\) \(=\) \(m_{c}\) \(> 5\) sind.
(b) Führe den McNemar-Test (einseitig, \(\boldsymbol{\alpha = .05}\)) durch und vervollständige die nachfolgenden Lücken!
\(H_0\): ____________________
\(H_1\): ____________________
Prüfgröße: ________________
kritischer Wert: ________________
Testentscheidung: Die \(H_0\) wird _______________
möglicher Fehler nach erfolgter Testentscheidung: _______________
Lösung
- Der Sinn der Therapie ist, dass Patient_innen lernen, emotionale Gesprächsinhalte zu verbalisieren. Unsere Alternativhypothese ist somit, dass mehr Patient_innen in der Therapie erlernt haben, über emotionales Erleben zu reden, als es verlernt haben. Es sollten nach der Therapie mehr Personen über dem Median eingestuft werden, die vorher darunter eingestuft wurden, als umgekehrt: b > c
- Die Nullhypothese wird erschöpfend entgegengesetzt formuliert: b \(\leq\) c Die Therapie ist unabhängig von der Veränderung der Bereitschaft (oder lässt es mehr Personen verlernen).
- Für die Prüfgröße vereinfacht sich unsere allgemeine Formel zu \(\chi^2 = \frac{(\color{lightblue}{b} – \color{lightblue}{m_b})^2}{\color{lightblue}{m_b}} + \frac{\color{lightgreen}{c} – \color{lightgreen}{m_c})^2}{\color{lightgreen}{m_c}}\), da nur die Veränderungen interessieren.
Wir vereinfachen weiter zu \(\chi^2 = \frac{(\color{lightblue}{b} – \color{lightgreen}{c})^2}{\color{lightblue}{b} + \color{lightgreen}{c}}\)
\(\chi^2 = \frac{(9 – 3)^2}{9 + 3} = \underline{\underline{3}}\)
- Für den kritischen Wert berechnen wir zunächst die Freiheitsgrade mit \(df = (k -1) \cdot (l -1) = (2 – 1) \cdot (2 – 1) = 1\)
einseitige Testung, daher \(\alpha = 2 \cdot .05 = .10\)
in der Tabelle nachschauen: \(\chi^2_{1; 90\%} \approx \underline{\underline{2.706}}\)
- 3 > 2.706 → Die \(H_0\) wird verworfen.
- \(\alpha\)-Fehler möglich
\(H_0\): \(\boldsymbol{b \leq c}\)
\(H_1\): \(\boldsymbol{b > c}\)
Prüfgröße: \(\boldsymbol{3.000}\) mit \(\boldsymbol{df = 1}\)
kritischer Wert: \(\boldsymbol{\chi^2_{1; 90\%} = 2.706}\)
Testentscheidung: Die \(H_0\) wird verworfen
möglicher Fehler nach erfolgter Testentscheidung: \(\boldsymbol{\alpha}\)-Fehler