Buchenwälder und Aktivismus

Ein Buchenwald wird gefällt, um eine Autobahn zu bauen. Umweltaktivist_innen möchten auf die Katastrophe aufmerksam machen und zählen die Jahresringe einiger Bäume, um deren Alter zu schätzen. Folgende Werte zählen sie:

\(93, 62, 87, 211, 104, 70, 168, 125, 26, 53, 31, 69, 139\)

a) Welches Skalenniveau hat die interessierende Variable? Begründe!

Lösung
  • Absolutskaliert: Es handelt sich bei der Variable um eine Häufigkeit. Die Einheit »Jahresringe« kann nicht in ein Alter in einer anderen Einheit überführt werden.
  • Oder aber verhältnisskaliert: Es wären auch »begonnene« Jahresringe denkbar. Somit könnte man das Alter in Jahren (denn die Bäume altern ja nicht sprunghaft ein Mal pro Jahr und haben plötzlich einen Jahresring mehr) auch in anderen Einheiten angegeben werden. Zugleich kann ein Baum nicht weniger als 0 Jahresringe haben, da es kein negatives Alter gibt.


b) Berechne einen geeigneten Kennwert, um die zentrale Tendenz des Alters der gefällten Bäume zu repräsentieren.

Lösung

Es gibt keine richtigen Ausreißer, denn an beiden Enden der Verteilung in der Stichprobe gibt es extremer werdende Werte. Es liegen metrische Daten vor. Damit dürfen wir den Mittelwert berechnen:

\(\begin{aligned} \bar{x} &= \frac{\sum_{i=1}^nx_{i}}{n}\\[1,2ex] &= \frac{93 + 62 + 87 + 211 + 104 + 70 + 168 + 125 + 26 + 53 + 31 + 69 + 139}{13}\\[1,2ex] &= \underline{\underline{95.231}}\\ \end{aligned}\)


c) Berechne die Varianz und die Standardabweichung der Jahresringe der erhobenen Bäume.

Lösung

Varianz:
\(s^2 = \frac{\sum_{i=1}^n(x_{i}-\bar{x})^2}{n-1}\) Standardabweichung:
\(\begin{aligned} s &= \sqrt{s^2}\\ &= \sqrt{2898.359}\\ &= \underline{\underline{53.836}} \end{aligned}\)


Das durchschnittliche Alter deutscher Bäume dieser Art sei 88, die Standardabweichung 40. Das Alter von Buchen wird hier als normalverteilt angenommen.

Berater_innen deutscher Politiker_innen geben an, dass eine Rettung des Waldes sinnvoll sei, wenn der Wald zu den ältesten 25% deutscher Buchenwälder gehöre.

d) Sollte der Wald nach Meinung der Berater_innen gerettet werden? (Achtung: hier ist ein bisschen Knobeln gefragt, da wir so eine Aufgabe nicht explizit besprochen haben.)

Lösung
  • Wir wollen die praktische Signifikanz (d.h. den Wert, der das Entscheidungskriterium markiert,) berechnen. Der Wald soll zu den ältesten deutschen Buchenwäldern gehören, d.h. das Durchschnittsalter der Bäume unseres Waldes muss mindestens dem 75%-Perzentil der Stichprobenmittelwerteverteilung entsprechen.
  • Dazu suchen wir das 75%-Perzentil der Stichprobenkennwerteverteilung des durchschnittlichen Alters deutscher Buchenwälder mit \(n = 13\) und dem Erwartungswert \(\mu = 88\) bei \(\sigma = 40\).
  • Zunächst benötigen wir den Standardfehler:

\(\begin{aligned} \sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}}\\[1,2ex] &= \frac{40}{\sqrt{13}}\\[1,2ex] &= 11.094 \end{aligned}\)
\(\quad \rightarrow X \sim N(88,11.094^2)\)

  • Aus der z-Tabelle suchen wir \(z_{75\%} \approx .67\).
  • Diesen z-Wert wandeln wir mit Hilfe der z-Transformation um in das dem 75%-Perzentil entsprechende Durchschnittsalter:

\(\begin{aligned} z &= \frac{\mu -\mu_0}{\frac{\sigma}{\sqrt{n}}}\\[1,2ex] 0.67 &= \frac{\mu - 88}{11.094} \quad | \cdot 11.094\\[1,2ex] 7.433 &= \mu - 88 \quad | + 88\\ \mu &= \underline{\underline{95.433}} \end{aligned}\)

\(\quad \bar{x} = 95.231 < \mu = 95.433\)

\(\quad \rightarrow\) Der Wald kann nach dem Kriterium der Berater_innen nicht gerettet werden, da der betroffene Buchenwald nicht zu den 25% der ältesten Buchenwälder Deutschlands zählt.


e) Berechne die Effektstärke der praktischen Signifikanz! Wie hieße diese Effektstärke nach Cohen?

Lösung
  • Den praktisch signifikanten Effekt (d.h. den Effekt, der für die Entscheidung relevant ist,) berechnen wir als die Differenz zwischen dem 75%-Perzentil der Stichprobenkennwerteverteilung µ des durchschnittlichen Alters deutscher Buchenwälder mit \(n = 13\) und dem allgemeinen Erwartungswert: \(|\mu - \mu_0| = |88 - 95.433| = 7.433\)
  • Um die Effektstärke nach Cohen zu bestimmen, ist eine z-Standardisierung notwendig:
    \(\begin{aligned} \enspace \delta &= \frac{\mu - \mu_0}{\sigma}\\ \enspace &= \frac{7.433}{40}\\ \enspace &= \underline{\underline{0.186}} \end{aligned}\)

\(\quad \rightarrow\) Nach Cohen handelt es sich hierbei um einen kleinen Effekt.


f) Welche Stichprobengröße wäre mindestens notwendig, um einen Effekt dieser Größe mit 90%iger Wahrscheinlichkeit bei \(\boldsymbol{\alpha = 5\%}\) zu finden, wenn er tatsächlich existiert?

Lösung

A priori-Poweranalyse:

  • ges.: n
  • geg.: \(\delta = .186\), \(1 - \beta = .90\), \(\alpha = .05\)
    \(\quad n = (\frac{z_{1-\alpha} - z_{\beta}}{\delta})^2\)
  • \(z_{1-\alpha} = z_{95\%} = 1.65\)
  • \(z_{\beta} = z_{10\%} = -z_{90\%} = -1.28\)

\(\begin{aligned} \quad n &= (\frac{1.65 + 1.28}{.186})^2\\ \quad &= 248.147 \approx \underline{\underline{249}} \end{aligned}\)

\(\rightarrow\) Es würde eine Stichprobe von ca. 249 Bäumen benötigt werden, um einen solchen Effekt mit einer Teststärke von 90% bei \(\alpha\) = 5% zu finden.


International besteht ein durchschnittliches Alter von Buchen von 79 Jahren.

g) Weicht der Buchenwald in seinem Alter bedeutsam (\(\boldsymbol{\alpha = 5\%}\)) vom internationalen Durchschnitt ab? überlege dir vorher, welcher Test sich hier anbietet.

Lösung
  • Da uns der Erwartungswert in der Population gegeben ist, aber nicht die Populationsvarianz, wenden wir einen Ein-Stichproben-t-Test an.
  • Hypothesen:
    • \(H_0: \enspace \mu = \mu_0\)
    • \(H_1: \enspace \mu \neq \mu_0\)
  • kritischer Wert:
    • für \(\alpha = .05\), \(df = n - 1 = 13 - 1 = 12\)
    • \(t_{krit} = t_{12,97.5\%} = 2.179 \enspace \rightarrow \enspace t_{12,2.5\%} = - 2.179\)
  • empirische Prüfgröße:
    \(\begin{aligned} t_{emp} &= \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}}\\[1,2ex] &= \frac{95.231 - 79}{\frac{53.836}{\sqrt{13}}}\\[1,2ex] &= \underline{\underline{1.087}} \end{aligned}\)
  • Testentscheidung:
    • Vergleich kritischer und empirischer Wert: \(|\pm 2.179| > 1.087 \enspace \rightarrow t_{krit} > t_{emp}\)
    • Die Nullhypothese wird beibehalten.
  • Interpretation: Es gibt keine Evidenz dafür, dass das durchschnittliche Alter der Bäume des Buchenwaldes vom durchschnittlichen Alter von Buchen international abweicht.


h) Könnte der Wald im internationalen Vergleich gerettet werden, wenn man sich an dem Kriterium der deutschen Berater_innen orientiert (angenommen, dass für Buchen international dieselbe Standardabweichung besteht wie innerdeutsch)?

Lösung
  • Die Berater_innen halten die Rettung für verhältnismäßig, wenn der Wald im durchschnittlichen Alter zu den oberen 25% von Wäldern gehört.
  • Bezogen auf den Vergleich mit internationalen Wäldern suchen wir also das 75%-Perzentil aus der Stichprobenkennwerteverteilung mit \(\mu = 79\) und \(\sigma = 40\) bei \(n = 13\):

\(\begin{aligned} \enspace \sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}}\\[1,2ex] \enspace &= \frac{40}{\sqrt{13}}\\[1,2ex] \enspace &= 11.094 \end{aligned}\)
\(\quad \rightarrow X \sim N(79,11.094^2)\)

  • Aus der z-Tabelle suchen wir \(z_{75\%} \approx .67\) heraus.
  • Diesen z-Wert wandeln wir mit Hilfe der Formel für z-Transformation um in die Einheit Jahresringe:

\(\begin{aligned} z &= \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}\\[1,2ex] 0.67 &= \frac{\bar{x} - 79}{11.094} \quad | \cdot 11.094\\[1,2ex] 7.433 &= \bar{x} - 79 \quad | + 79\\ \bar{x} &= \underline{\underline{86.433}} \end{aligned}\)

\(86.433 < 95.231 \enspace \rightarrow\) Der Wald könnte im internationalen Vergleich gerettet werden.



Schizophrenie und Vererbung

Die Wahrscheinlichkeit, dass das Kind eines schizophrenen Elternteils schizophren ist, liegt bei 80% \((P(S|E))\). Insgesamt erkrankt 2% der Allgemeinbevölkerung im Laufe des Lebens an Schizophrenie \((P(S))\). Eine an Schizophrenie erkrankte Patientin hat einen Sohn. Wie wahrscheinlich ist es, dass er an Schizophrenie erkranken wird?


Lösung

 
\(P(S|E) = .8\)
Die Wahrscheinlichkeit, dass das Kind an Schizophrenie erkrankt, beträgt 80% - manchmal kann es auch einfach sein :)!



Forensische Psychologie

Straftäter_innen, die gewaltsame Verbrechen begangen haben, werden mit einer Wahrscheinlichkeit von 50% erneut einer Straftat schuldig \(P(W)\). Wenn sie schuldig gesprochen wurden und ihre Strafe vollzogen wurde, liegt die Wahrscheinlichkeit eines erneuten Verbrechens bei 30% \(P(W|V)\). Die Wahrscheinlichkeit eines Strafvollzugs beträgt 8.8% \(P(V)\).

Wie groß ist die Wahrscheinlichkeit, dass ein/e Wiederholungstäter_in bereits eine Strafe verbüßt hat?


Lösung


\(\rightarrow\) Bayes-Theorem:

\(\begin{aligned} P(V|W) &= \frac{P(W|V) \cdot P(V)}{P(W)}\\[1,2ex] &= \frac{0.3 \cdot 0.088}{0.5}\\[1,2ex] &= \underline{\underline{0.0528}}\\[1,2ex] \end{aligned}\)

Mit einer Wahrscheinlichkeit von 5.28% hat ein Wiederholungstäter_innen bereits eine Strafe verbüßt.



Neue Software

Der YouTube-Kanal “Psycholina” der Psychologin Lina wird immer erfolgreicher. Nun überlegt Lina, in eine neue Video-Schnitt-Software zu investieren, um ihre Videos noch ansprechender zu gestalten. Da besagte Software jedoch teuer ist, würde sich diese Investition nur lohnen, wenn sie die Anzahl der durchschnittlichen Aufrufe ihres Kanals pro Tag signifikant steigert.

Um dies zu überprüfen, lädt sie zunächst über einen Zeitraum von einer Woche täglich ein kurzes Video hoch, ohne die Software zu verwenden. In dieser wird ihr Kanal durchschnittlich 130 Mal pro Tag aufgerufen.

In der darauffolgenden Woche legt sie sich ein kostenloses Probeabo der besagten Video-Schnitt-Software zu und lädt in dieser Woche täglich ein professionell geschnittenes Video hoch. In der zweiten Woche erhält ihr Kanal im Durchschnitt 170 Aufrufe pro Tag.

Der Mittelwert der Differenzen der jeweiligen Tage der ersten und der zweiten Woche beträgt \(\bar{d} = 40\) und die Standardabweichung \(s_d = 61.98\).

Lina möchte nun mithilfe ihrer Methodenlehrekenntnisse inferenzstatistisch prüfen, ob die neue Software ihre durchschnittlichen Aufrufe pro Tag erhöht (\(\alpha\) = 0.01).

a) Welches inferenzstatistische Verfahren eignet sich zur Überprüfung der Fragestellung?

Lösung

t-Test für abhängige Stichproben
Es liegen zwei abhängige Stichproben vor

  • Messzeitpunkt \(t_1\): Woche ohne Software (\(\bar{x_1} = 130\))
  • Messzeitpunkt \(t_2\): Woche mit Software (\(\bar{x_2} = 170\))

Es handelt sich hierbei um abhängige Stichproben, da dieselbe Einheit (Linas YouTube-Kanal) zu zwei unterschiedlichen Messzeitpunkten getestet wird. Der Ruf des Kanals und die Tatsache, dass ihr Publikum vermutlich (teilweise) aus denselben Leuten besteht, verhindern die Unabhängigkeit der Stichproben.


b) Nenne die abhängige Variable (aV) sowie die unabhängige Variable (uV) inklusive ihrer Ausprägungen.

Lösung
  • aV: Durchschnittliche Aufrufe pro Tag
  • uV: die beiden Bedingungen/ Messzeitpunkte:
    • \(t_1\): ohne Software
    • \(t_2\): mit Software


c) Prüfe inferenzstatistisch, ob die neue Software die durchschnittliche Anzahl an täglichen Aufrufen signifikant erhöht. (\(\alpha\)= 0.01).

Lösung
  1. Bestimmung des kritischen Werts:
    Gegeben:
  • \(\alpha\) = 0.01
  • Rechtsseitige Testung (wenn \(H_1: \mu_{t_2} > \mu_{t_1}\))
  • \(df = n – 1 = 7 – 1 = 6\)

\(t_{krit} = t_{0.99, df = 6} = \underline{3.143}\)

  1. Berechnung der empirischen Prüfgröße:
    Gegeben:
  • \(\bar{d} = 40\)
  • \(s_d = 61.98\)
  • \(n = 7\) Tage

Einsetzen in Formel:
\(\begin{aligned} t_{emp} &= \frac{\bar{d}} {\frac{s_d} {\sqrt{n}}} \\ &= \frac{40} {\frac{61.98} {\sqrt{7}}} \\ &= 1.707 \end{aligned}\)

  1. Testentscheidung:

\(3.143 > 1.707 \rightarrow t_{krit} > t_{emp} \rightarrow\) Nullhypothese wird beibehalten.


d) Schreibe einen Interpretationssatz.

Lösung

Es liegt keine Evidenz dafür vor, dass die Verwendung der Video-Schnitt-Software die durchschnittliche Anzahl an Aufrufen pro Tag erhöht.



Lina fragt sich, ob eine Beobachtungsdauer von \(n=7\) Tagen überhaupt ausreichend war, um einen Effekt zu erkennen.
Die Investition in die Software hätte sich für Lina gelohnt, wenn sie die durchschnittliche Anzahl von täglichen Aufrufen um mindestens 30 % gesteigert hätte.
Mit einer a-priori Power Analyse möchte sie die Anzahl an Tagen (\(n\)) ermitteln, die notwendig gewesen wäre, um mit einer Wahrscheinlichkeit von 95% einen solchen Effekt zu detektieren.
Durch den Vergleich von ähnlichen Kanälen, die die Video-Software nicht nutzen, schlussfolgert sie, dass der Erwartungswert der durschnittlichen Aufrufe pro Tag für solche Kanäle \(\mu_1\) = 130 beträgt.

e) Wie groß müsste der standardisierte Effekt \(\delta\) mindestens sein, damit sich die Investition in die neue Software lohnt?

Lösung

Die Formel zur Berechnung des standardisierten Effekts für paired t-Tests lautet:
\(\underline{\delta = \frac{\mu_d} {\sigma_d}}\)

Berechnung von \(\mu_d\):
Gesucht ist der Erwartungswert der Differenzen für den Fall, der mindestens auftreten müsste, um die Investition in die Software zu rechtfertigen. Aus dem Text entnehmen wir, dass dies der Fall ist, wenn die Software die Anzahl der durchschnittlichen Aufrufe pro Tag um mindestens 30% steigern würde. Ohne Software beläuft sich die diese Anzahl auf durchschnittlich \(\mu_1 = 130\).
Der Erwartungswert der Differenz, der gegeben sein müsste, um mindestens eine Steigerung von 30% zu erhalten berechnen wir wie folgt:

  1. Benötigte durchschnittliche Anzahl an Aufrufen pro Tag mit Software \(\mu_2\):
    \(\mu_2 = \mu_1 \cdot 1.3 = 130 \cdot 1.3 = 169\)

  2. Berechnung von \(\mu_d\):
    \(\mu_d = \mu_2 - \mu_1 = 169 – 130 = 39\)

Die Streuung der Differenzwerte in der Population \(\sigma_d\) schätzen wir (wie beim t-Test üblich) durch die Stichprobenstreuung von \(s_d = 61.98\).

Einsetzen in die Formel:
\(\begin{aligned} \delta &= \frac{\mu_d} {\sigma_d}\\ &= \frac{39} {61.98}\\ &= \underline{0.629} \end{aligned}\)

Der standardisierte Effekt müsste mindestens 0.629 betragen, damit sich die Investition in die Software lohnt.


f) Welcher Größenordnung entspricht dieser Effekt nach Cohen?

Lösung

Hierfür betrachten wir die erste Zeile “mA vs. mB for independent means” der Tabelle “Effektstärkemaße nach Cohen”: Die Effektstärke liegt mit 0.629 im Bereich zwischen einer mittleren und einer großen Effektgröße nach Cohen.


Lina führt eine a-priori-Power-Analyse mit Hilfe des Programms G*Power durch und enthält folgenden Output:

g) Wie viele Tage müsste Lina mindestens jeweils Videos mit und ohne Video-Software publizieren, um den beschriebenen Effekt mit einer Wahrscheinlichkeit 95% zu detektieren?

Lösung

Lina müsste beide Versionen (Videos mit und ohne Software) jeweils mindestens \(\underline{43}\) Tage lang testen, um den gewünschten Effekt mit einer Power von 95% detektieren zu können.



Sensitivität, Spezifität und Teststärke

Wahr oder falsch?
□ Die Teststärke heißt auch Sensitivität, ist also die Wahrscheinlichkeit,
\(\enspace\) eine richtig-negative Testentscheidung zu treffen.
\(\beta\) ist das Gegenereignis zur Sensitivität.
\(1 - \alpha\) ist die Spezifität.
□ Ein Hypothesentest, der eine hohe Spezifität hat, kann keine hohe Sensitivität haben.

Lösung


\(\times\) Die Teststärke heißt auch Sensitivität, ist also die Wahrscheinlichkeit,
\(\enspace\) eine richtig-negative Testentscheidung zu treffen.
Falsch. Die Teststärke heißt zwar Sensitivität, ist aber die Wahrscheinlichkeit,
eine richtig-positive Testentscheidung zu treffen.

Anmerkung: Hierbei werden die Begriffe “negativ” bzw. “positiv” nicht inhaltlich wertend verwendet. “Positiv” bedeutet, dass die Nullhypothese verworfen wird - unabhängig davon, ob diese Entscheidung inhaltlich positiv ist. Zum Beispiel könnte die Alternativhypothese auch bedeuten, dass eine Therapie eine Symptomatik verschlechtert. “Negativ” bedeutet entsprechend, dass die Nullhypothese beibehalten wird.
Hier eine Übersicht:

  • Wichtig zu beachten: In der untenstehenden Tabelle werden Wahrscheinlichkeiten und keine Häufigkeiten abgebildet. Sie beziehen sich immer auf die Testentscheidung gegeben der Populationsverteilung (links).
Testentscheidung
für H0 gegen H0
Population H0 gilt nicht β - Fehler:
Falsch-Negative
Sensitivität (mit 1 - β):
Richtig-Positive
Population H0 gilt Spezifität (mit 1 - α):
Richtig-Negative
α - Fehler:
Falsch-Positive


\(\times\) \(\beta\) ist das Gegenereignis zur Sensitivität.
Falsch. Sowohl \(\beta\) als auch die Sensitivität sind Wahrscheinlichkeiten und keine Ereignisse. Der \(\beta\)-Fehler bzw. die Nullhypothese beizubehalten, obwohl sie falsch ist, ist das Gegenereignis zur richtig-positiven Testentscheidung, also die Nullhypothese zu verwerfen, wenn sie tatsächlich falsch ist. Die zugehörigen Wahrscheinlichkeiten \(\beta\) bzw. Sensitivität sind Gegenwahrscheinlichkeiten.

\(\checkmark\) \(1 - \alpha\) ist die Spezifität.
Korrekt. Sie bezeichnet die Wahrscheinlichkeit, die Nullhypothese beizubehalten, wenn sie tatsächlich wahr ist.

\(\times\) Ein Hypothesentest, der eine hohe Spezifität hat, kann keine hohe Sensitivität haben.
Falsch. Die beiden Wahrscheinlichkeiten bzw. die zugehörigen Ereignisse sind zwar nicht unabhängig voneinander. Allerdings werden sie von weiteren Faktoren beeinflusst, z.B. der Stichprobengröße und der Effektstärke.



Containern

Mimi möchte von nun an nur noch containern gehen. Allerdings ist sie sehr wählerisch und möchte nicht auf leckere Bananen verzichten. Leider hat sie von Freunden gehört, dass diese nur in 1/4 der Fälle Bananen in den Containern gefunden hätten. Sie weiß auch, dass Sie in der ersten Woche Ihres Vorhabens nur drei Mal containern gehen kann.

Wie wahrscheinlich ist es, dass Mimi in der ersten Woche nicht auf leckere Bananen verzichten muss?

Lösungsansatz


Ein Bananenfund beim Containern kann als Bernoulli-Experiment angesehen werden.


Lösung


  • Gesucht: \(P(X \geq 1)\)
  • Gegeben:
    • \(n = 3\)
    • \(\pi = 0.25\), denn die Wahrscheinlichkeit, dass Mimi beim Container Bananen finden wird schätzen wir mit der Auskunft der Freunde
  • Wir verwenden zur Lösung eine Binomialverteilung, da es sich um eine dichotome Zufallsvariable handelt. Statt alle Wahrscheinlichkeiten für \(P(X = 1)\), \(P(X = 2)\) und \(P(X = 3)\) zu addieren, können wir auch die Gegenwahrscheinlichkeit zum einzigen verbleibenden Fall, \(P(X = 0)\) ermitteln.


\(\begin{aligned} P(X \geq 1) &= 1 - P(X = 0)\\ &= 1 - (\binom{3}{0} \cdot .25^0 \cdot (1 - .25)^{3 - 0})\\ &= 1 - (1 \cdot .75^3)\\ &= \underline{\underline{0.5781}} \end{aligned}\)

\(\rightarrow\) Die Wahrscheinlichkeit, dass Mimi nicht auf Bananen verzichten muss bzw. mindestens einmal bei dreimaligem Containern Bananen erwischt, beträgt ca. 57.81%.



Bestimmung der Stichprobengröße

a) Schulpsychologin und Mathe-Unterricht

Eine Schulpsychologin möchte wissen, ob sich die Änderung des Lehrplans im Mathe-Unterricht auf die Leistung der Siebtklässler_innen an ihrer (sehr großen) Schule auswirkt. Sie möchte die mittlere Leistung (als Noten erfasst) über ein halbes Jahr vor und ein halbes Jahr nach der Einführung des neuen Lehrplans vergleichen und legt ein Signifikanzniveau von 5% fest. Sie hat vor, Daten von Siebtklässler_innen zufällig auszuwählen, und möchte wissen, wie viele Schüler_innen sie mindestens braucht. Sie erwartet einen mittleren Effekt mit der Wahrscheinlichkeit von 80% zu finden, falls es ihn gibt.

Lösung


  • t-Test für abhängige Stichproben, da es sich um Messwiederholungen handelt

  • ungerichtete Hypothese

  • Voraussetzungen für a priori Poweranalyse:

    • Power 80%
    • \(\alpha = 0.05\), zweiseitig
    • mittlerer Effekt: genauen Wert in der Tabelle der Effektstärken nachschauen.
      Mittelwertvergleich \(\rightarrow d=.50\)

  • Stichprobengröße in der Tabelle nachschauen:

  • Die Psychologin braucht 64 Beobachtungspaare, d.h. Sie müsste von 64 Schüler_innen die Noten vor und nach der Lehrplanänderung auswerten.


a) UX-Experte und App

Ein User Experience-Experte testet eine neue Trading-App und interessiert sich dafür, ob seine App im Mittel positiver eingeschätzt wird im Vergleich zu der aktuell populärsten auf dem Markt (\(\alpha = .05\)). Dazu will er zwei Stichproben erheben: eine, die die konkurrierende App bewertet, und eine andere, die die neue App einschätzen soll. Er möchte unterschiedliche Proband_innen in jeder Stichprobe haben, damit die App-Einschätzungen sich nicht gegenseitig beeinflussen. Ihm wird auch ein kleiner Unterschied (mit Wahrscheinlichkeit von 80% entdeckbar) zwischen den beiden Apps genügen, um die App als bereit für die Markteinführung zu bewerten. Er möchte wissen, wie groß seine Stichprobe sein soll, um seinen Anforderungen zu entsprechen.

Lösung


  • t-Test für unabhängige Stichproben

  • gerichtete Hypothese (rechtsseitig) \(\rightarrow\) weil der Experte die App als bereit für die Markteinführung bewerten will, wofür sie den bisherigen Apps überlegen sein sollte

  • Voraussetzungen für die a priori Poweranalyse:

    • Power 80%
    • \(\alpha = 0.05\), einseitig
    • kleiner Effekt: genauen Wert in der Tabelle der Effektstärken nachschauen.
      Mittelwertvergleich \(\rightarrow \delta=.20\)

  • Stichprobengröße in der Tabelle nachschauen. Das Alpha-Niveau muss bei einseitiger Testung verdoppelt werden, da die Tabellen für zweiseitige Testungen ausgelegt sind:

  • Der Experte braucht 310 Proband_innen pro Gruppe (bzw. pro Stichprobe).