Poweranalyse allgemein

(a) Worum handelt es sich bei den nummerierten Flächen (I. - V.)? Benenne sie zunächst und ordne ihnen zusätzlich die untenstehenden Beschreibungen (a - e.) zu.

Die Wahrscheinlichkeit, die \(H_0\) beizubehalten, wenn in der Population tatsächlich kein Effekt existiert.
Die Wahrscheinlichkeit, die \(H_0\) abzulehnen, obwohl in der Population kein Effekt besteht.
statistisches Maß für die Größe eines Effekts in der Population.
Die Wahrscheinlichkeit, die \(H_0\) beizubehalten, obwohl eigentlich ein Effekt in der Population vorliegt.
Die Wahrscheinlichkeit, die \(H_0\) abzulehnen, wenn tatsächlich ein Effekt in der Population vorliegt; d.h. die Wahrscheinlichkeit, einen Effekt festzustellen, wenn dieser tatsächlich existiert.

Lösung

I. e: Teststärke/ Power (1- ß) \(\rightarrow\) Die Wahrscheinlichkeit, die \(H_0\) abzulehnen, wenn tatsächlich ein Effekt in der Population vorliegt; d.h. die Wahrscheinlichkeit, einen Effekt festzustellen, wenn dieser tatsächlich existiert.

II. b: \(\alpha\)/ Wahrscheinlichkeit des Fehlers 1. Art \(\rightarrow\) Die Wahrscheinlichkeit, die \(H_0\) abzulehnen, obwohl in der Population kein Effekt besteht.

III. d: \(\beta\)/ Wahrscheinlichkeit des Fehlers 2. Art \(\rightarrow\) Die Wahrscheinlichkeit, die \(H_0\) beizubehalten, obwohl eigentlich ein Effekt in der Population vorliegt.

IV. a: Spezifität (1- \(\alpha\)) \(\rightarrow\) Die Wahrscheinlichkeit, die \(H_0\) beizubehalten, wenn in der Population tatsächlich kein Effekt existiert.

V. c: Effektstärke (ES) \(\rightarrow\) statistisches Maß für die Größe eines Effekts in der Population.

(b) Wie verändert sich die Teststärke in Abhängigkeit ihrer Determinanten? Fülle die Lücke mit dem korrekten Wort!

Mit zunehmender Effektstärke __________ (vergrößert/ verkleinert) sich die Teststärke.
Mit abnehmender Stichprobengröße ____________ (vergrößert/ verkleinert) sich die Teststärke.
Bei einem kleineren Alpha Niveau ist die Teststärke ____________ (größer/ kleiner).

Lösung

Mit zunehmender Effektstärke vergrößert sich die Teststärke.
\(\rightarrow\) Eine große Effektstärke bedeutet, dass die Erwartungswerte der Verteilungen von \(H_0\) und \(H_1\) weit auseinander liegen.
Dies lässt sich an der Grafik aus Teilaufgabe a) veranschaulichen: Vergrößert sich die angenommene Effektstärke, verschiebt sich die \(H_1\) Verteilung weiter von der \(H_0\) Verteilung weg und die Teststärke (blau) vergrößert sich: Die Teststärke \(1-\beta\) entspricht der Fläche unter der \(H_1\) Verteilung, die (im Falle einer rechtsseitigen Testung) rechts des kritischen Wertes liegt. Rücken die beiden Verteilungen nun weiter auseinander (durch eine größere Effektstärke), liegt mehr Fläche der \(H_1\) Verteilung rechts des kritischen Werts. Die Teststärke ist also größer.
Mit abnehmender Stichprobengröße verkleinert sich die Teststärke.
\(\rightarrow\) Je größer die Stichprobe, desto größer der Anteil der Population, den wir untersuchen. Dementsprechend wissen wir mehr über die Population und unsere Schätzung ist genauer.
Dies bedeutet wiederrum eine höhere Wahrscheinlichkeit, einen Effekt zu finden, wenn dieser tatsächlich vorliegt (also die Teststärke).
Im Umkehrschluss bedeutet dies: Je kleiner die Stichprobengröße, desto kleiner die Teststärke.
Bei einem kleineren Alpha Niveau ist die Teststärke kleiner.
\(\rightarrow\) Je kleiner das \(\alpha\)-Niveau, desto weiter außen liegt der kritische Wert.
Da die Teststärke der Fläche unter der \(H_1\)-Verteilung entspricht, die außerhalb des kritischen Werts liegt, bringt dies automatisch eine Verkleinerung der Teststärke mit sich.
Auch dies lässt sich an grafisch verdeutlichen:
Teststärke (blau) bei größerem \(\alpha\)-Niveau… …vs. Teststärke bei kleinerem \(\alpha\)- Niveau \(\rightarrow\) 1 - \(\beta\) wird ebenfalls kleiner: Dies lässt auch daran erkennen, dass die Fläche des Alpha-Niveaus Teil der Fläche der Teststärke ist; verkleinert sich das Alpha-Niveau, wird also automatisch auch die Teststärke kleiner.

(c) Welche Aussage bezüglich Effektstärke ist falsch?

Bei einer a priori Poweranalyse muss für jeden statistischen Test vorab eine Aussage zur Größe des Effekts in der Stichprobe getroffen werden, genauso wie bei der post hoc Poweranalyse.
Standardisierte Effektstärken sind von den Messeinheiten der Rohwerte befreit und dadurch über Studien hinweg vergleichbar.
Bei der multiplen linearen Regression lässt sich der standardisierte Effektstärkemaß aus der multiplen Korrelation \(R^2\) berechnen.
Die Effektstärke bezeichnet die Abweichung derjenigen Populationsparameter unter Gültigkeit der \(H_0\) und \(H_1\) voneinander, welche im Rahmen der statistischen Testung betrachtet werden.

Lösung

Bei einer a priori Poweranalyse muss für jeden statistischen Test vorab eine Aussage zur Größe des Effekts in der Stichprobe getroffen werden, genauso wie bei der post hoc Poweranalyse.
FALSCH. Bei einer a priori Poweranalyse ist die Größe des zu erwartenden Populationseffekts notwendig. Auch bei der post hoc Poweranalyse bezieht sich die Effektstärke immer auf die Populationseffektstärke. Dies ist nicht das gleiche wie die „observed power“ der retrospektiven Poweranalyse, welche von manchen Statistikprogrammen automatisch berechnet und berichtet wird.
Standardisierte Effektstärken sind von den Messeinheiten der Rohwerte befreit und dadurch über Studien hinweg vergleichbar.
RICHTIG. Die Formel zur Standardiisierung der Effektgröße ist im Grunde dieselbe wie die Formel der \(z\)-Standardisierung.
Bei der multiplen linearen Regression lässt sich der standardisierte Effektstärkemaß aus der multiplen Korrelation \(R^2\) berechnen.
RICHTIG. Die multiple Korrelation \(R^2\) entspricht dem Determinationskoeffizienten der multiplen linearen Regression. In der Tabelle zu Effektstärkekonventionen von Cohen finden wir die Formel, mit der wir so einen standardisierten Effektstärkemaß berechnen können: \(f^2=\frac{R^2}{1-R^2}\).
Die Effektstärke bezeichnet die Abweichung derjenigen Populationsparameter unter Gültigkeit der \(H_0\) und \(H_1\) voneinander, welche im Rahmen der statistischen Testung betrachtet werden.
RICHTIG. Wenn es z.B. um Mittelwertsvergleich mit Hilfe eines \(z\)-Tests geht, geben wir an als Effektstärke die Abweichung zwischen der beiden Parameter \(\mu_0\) (unter \(H_0\)) und \(\mu_1\) (unter \(H_1\)).

Spezifische Poweranalysen

(d) Du führst eine a priori Teststärkeanalyse durch.
Welche Stichprobengröße solltest du jeweils in den folgenden Szenarien wählen, um mindestens eine Teststärke von .80 zu erzielen (\(\alpha\) = .05)?

1. Durchführung einer Regressionsanalyse mit 4 Prädiktoren und einer erwarteten Varianzaufklärung von \(R^2 = .26\).

Lösung

Zur Lösung dieser Aufgaben verwenden wir die beiden Tabellen, die Du unter “Test-/Effektstärke und Versuchsplanung” auf Seite 13 und 14 in der Formelsammlung findest.

Um N im Rahmen einer A priori Poweranalyse zu berechnen haben wir bereits das Alpha Niveau (\(\alpha\) = .05) und die gewünschte Teststärke (\(1-\beta\) = .80) gegeben.
Wir benötigen somit nur noch Angaben zur Effektstärke.

Die Formel zu deren Berechnung bei einer einfachen und multiplen linearen Regression finden wir in der ersten Tabelle:
Dafür suchen wir unser entsprechendes Verfahren (Multiple and multiple partial correlation) und lesen die Formel zur Berechnung der Effektstärke ab: wir setzten dann unser \(R^2\) in die Formel ein:

\(\begin{aligned} f^2 =& \frac {R^2} {1-R^2} \\ =& \frac {0.26} {1-0.26} \\ \approx& 0.35 \end{aligned}\)

Wir können der Tabelle des Weiteren entnehmen, dass dieser Wert im Kontext einer mutiplen linearen Regression nach Cohen einer großen Effektstärke entspricht: Diese Information benötigen wir für die zweite Tabelle.
Da es sich um eine Regressionsanalyse mit 4 Prädiktoren handelt, betrachten wir die Zeile “8. Multiple R \(4k^b\)”.
Die Spalte wählen wir entsprechend unserem Alpha-Niveau von \(\alpha\) = .05 und der Klassifikation der Effektstärke nach Cohen (groß: lg): Um bei der Berechnung einer Regressionsanalyse mit 4 Prädiktoren und einer erwarteten Varianzaufklärung von \(R^2 = .26\) mindestens eine Teststärke von .80 zu erzielen, würden wir eine Stichprobengröße von \(\underline{\underline{N = 38}}\) benötigen.

2. Signifikanztest einer erwarteten Produkt-Moment-Korrelation zwischen 2 Merkmalen von \(r = .10\)

Lösung

Auch hier müssen wir zunächst die Effektstärke und deren Klassifikation nach Cohen ermitteln.
Da es sich um den Signifikanztest einer Produkt-Moment-Korrelation handelt, finden wir die Formel zur Berechnung der Effektstärke in der zweiten Zeile unter Significance of produkt-moment r. Der Tabelle ist zu entnehmen, dass die Effektsstärke einfach der erwarteten Produkt-Moment-Korrelation r entspricht.
In unserem Beispiel beträgt sie somit .10, was nach Cohen einer kleinen Effektstärke entspricht.

Basierend auf dieser Klassifikation können wir nun die benötigte Stichprobe aus der zweiten Tabelle ablesen.
Hierzu betrachten wir die 2. Zeile Sig r (da es sich um den Signifikanztest der Korrelation r handelt) und die Spalte Sm (für kleine Effektstärke nach Cohen) unter der Angabe \(\alpha\) = .05: Demnach müssten wir eine Stichprobe von \(\underline{\underline{N = 783}}\) Personen erheben, um die erwartete Produkt-Moment-Korrelation von \(r= .10\) mit einer Teststärke von mindestens .80 zu überprüfen.

3. Einfaktorielle ANOVA mit \(p = 3\) Faktorstufen und einem Effekt von \(f = .27\).

Lösung

In diesem Fall haben wir die Effektstärke von \(f = .27\) bereits gegeben und müssen sie nicht berechnen.
Wir müssen nun in der ersten Tabelle nachschauen, wie diese Effektstärke nach Cohen klassifiziert wird.
Die entsprechenden Angaben finden wir in Zeile 7 One way analysis of variance.
Allerdings ist unser Wert von \(f = .27\) nicht in der Tabelle vorhanden. In diesem Fall klassifizieren wir unsere Effektstärke, indem wir schauen, welchem Wert sie am nähesten liegt- in diesem Fall ist es \(f = .25\): Der Tabelle entnehmen wir, dass es sich laut Cohen bei \(f=.25\) im Falle einer einfaktoriellen ANOVA um eine mittlere Effektstärke handelt. Somit klassifizieren wir unsere Effektstärke von \(f = .27\) ebenfalls als mittlere Effektstärke.

Um die benötige Stichprobengröße aus der zweiten Tabelle abzulesen, betrachten wir unter 7. ANOVA die Zeile \(3g^a\) (da p=3 Faktorstufen vorliegen).
Bezüglich der Spalte betrachten wir im Abschnitt \(\alpha .05\) den mittleren Effekt Med: Wir schlussfolgern, dass bei Berechnung einer einfaktoriellen ANOVA mit \(p = 3\) Faktorstufen und einem Effekt von \(f = .27\) eine Stichprobengröße von ca. \(\underline{\underline{N = n \cdot p = 52 \cdot 3 = 156}}\) benötigt wird, um mindestens eine Teststärke von .80 zu erhalten.

Beachte: An dieser Aufgabe wird klar, dass die Genauigkeit der Aussagen, die anhand der Tabellen nach Cohen getroffen werden können, in der Praxis schnell ungenau werden können. Hier empfiehlt sich die Verwendung des kostenlosen Programms G-Power, welches in der Vorlesung vorgestellt wurde.

(e) Welche der folgenden Aussagen über Post-hoc Poweranalysen ist falsch?

Sie wird nach der inferenzstatistischen Auswertung einer Studie berechnet.
Zur Berechnung müssen die Stichprobengröße N, das Alpha-Niveau und die Effektstärke bekannt sein.
Sie dient der Berechnung der Wahrscheinlichkeit, dass die \(H_0\) tatsächlich zutrifft, wenn die gegebenen Daten vorliegen.
Aus ihrem Ergebnis lässt sich die Wahrscheinlichkeit des Fehlers 2. Art (\(\beta\)- Fehler) ableiten.

Lösung

Sie wird nach der inferenzstatistischen Auswertung einer Studie berechnet.
RICHTIG.
Zur Berechnung müssen die Stichprobengröße N, das Alpha-Niveau und die Effektstärke bekannt sein.
RICHTIG.
Sie dient der Berechnung der Wahrscheinlichkeit, dass die \(H_0\) tatsächlich zutrifft, wenn die gegebenen Daten vorliegen.
FALSCH. Die Post-hoc Poweranalyse dient der Berechnung der Teststärke.
Diese ist jedoch nicht mit der Wahrscheinlichkeit gleichzusetzen, dass die \(H_0\) stimmt, wenn gegebenen Daten vorliegen.
Aus ihrem Ergebnis lässt sich die Wahrscheinlichkeit des Fehlers 2. Art (\(\beta\)- Fehler) ableiten.
RICHTIG. Wenn wir die Teststärke (also \(1-\beta\)) kennen, können wir auch \(\beta\) berechnen.

(f) Welche Teststärke-Analysen wurden hier mit Hilfe des Programms GPower durchgeführt? Mache diese Analysen mit Hilfe der Tabellen aus der Formelsammlung nach.

Anmerkung: die Schätzungen durch Programme sind genauer und können deshalb leicht von händischen Berechnungen abweichen!

Lösung

Hier wird eine a priori Poweranalyse durchgeführt. Das sehen wir an der Zeile “A priori: Compute required sampe size”. D.h. hier wird die Stichprobengröße gesucht.
Dies ist eine Analyse für eine multiple lineare Regression. Das sehen wir an der Zeile “Linear multiple regression: Fixed model, R^2 deviation from zero”.
In der unteren Hälfte des Outputs sehen wir links die “Input Parameters”:
- Effektstärke \(f^2= 0.15\). Wir können diese in der Tabelle der Effektstärken nachschauen \(\rightarrow\) das ist eine nach Cohen mittlere Effektstärke
- \(\alpha = 0.05\)
- Teststärke \(1-\beta=0.80\)
- 3 Prädiktoren
Wir schauen in der Tabelle der Stichprobengrößen aus der Formelsammlung für die oben genannten Parameter nach:

76 Versuchspersonen sind bei so einem Design erforderlich, um den vorgegebenen Effekt mit der festgelegten Teststärke finden zu können. Das Ergebnis der Berechnung mit den Tabellen weicht ein wenig ab von dem Ergebnis der Berechnung mit GPower (77 Versuchspersonen).

Lösung

Hier wird eine post hoc Poweranalyse durchgeführt. Das sehen wir an der Zeile “Post hoc: Compute achieved power”. D.h. hier wird die Teststärke gesucht.
Dies ist eine Analyse für eine einfaktorielle ANOVA. Das sehen wir an der Zeile “ANOVA: Fixed effects, omnibus, one-way”.
In der unteren Hälfte des Outputs sehen wir links die “Input Parameters”:
- Effektstärke \(f^2= 0.10\). Wir können diese in der Tabelle der Effektstärken nachschauen \(\rightarrow\) das ist eine nach Cohen kleine Effektstärke
- \(\alpha = 0.01\)
- Stichprobengröße \(N=965\)
- 5 Gruppen: in unserer Tabelle der Stichprobengrößen wird für ANOVA die Stichprobengröße pro Gruppe angegeben \(\rightarrow\) d.h. wir sollen die Stichprobengröße durch die Gruppenanzahl teilen, um die Werte in der Tabelle nachschauen zu können: \(965/5= 193\).
In der Formelsammlung steht uns nur eine Tabelle der Stichprobengrößen zur Verfügung, nämlich für die Teststärke von .80. Wir können also in diesem Fall die Analyse nicht wirklich nachrechnen, sondern lediglich überprüfen, ob die erreichte Power in diesem Fall gleich .80 war. Wir schauen in der Tabelle für die oben genannten Parameter nach:

Alle oben aufgelisteten Parameter passen zusammen (Effektstärke, \(\alpha\)-Niveau, Stichprobengröße, Gruppenanzahl). Die mit diesem Design erreichte Power beträgt .80. Das Ergebnis der Berechnung der Teststärke mit GPower weicht davon marginal ab (\(1-\beta = 0.797\)).