Theorie

(1) Deskriptive & Inferenzstatistik

Was gehört nicht zur deskriptiven Statistik?

□ Tabellen erstellen, um einen systematischen Überblick über die Daten zu erhalten.
□ Die Verteilung der Daten grafisch darstellen.
□ Kennwerte berechnen, um die zentrale Tendenz und Streuung der Daten zu quantifizieren.
□ Parameter schätzen, um die Daten auf Populationsebene einzuordnen.


Lösung

□ Tabellen erstellen, um einen systematischen Überblick über die Daten zu erhalten.
□ Die Verteilung der Daten grafisch darstellen.
□ Kennwerte berechnen, um die zentrale Tendenz und Streuung der Daten zu quantifizieren.
\(\times\) Parameter schätzen, um die Daten auf Populationsebene einzuordnen.
\(\quad \rightarrow\) Parameterschätzung zählt zur Inferenzstatistik. Immer dann, wenn wir von einer Stichprobe auf die Grundgesamtheit verallgemeinern wollen, benötigen wir inferenzstatistische Methoden.


(2) Wahr oder falsch: Stichprobenkennwerteverteilung

Welche der folgenden Aussagen sind wahr und welche falsch?

Was ist die Stichprobenkennwerteverteilung (SKV)?

□ Die SKV ist eine theoretische Verteilung.
□ Die SKV gibt die Verteilung eines Kennwerts bei bestimmter Stichprobengröße an.


Lösung

\(\checkmark\) Die SKV ist eine theoretische Verteilung.
\(\quad \rightarrow\) Auf die Stichprobenkennwerteverteilung kommen wir durch ein Gedankenexperiment. Wenn wir unendlich viele Stichproben aus einer Population ziehen würden (als Zufallsexperiment), und für jede dieser Stichproben je einen bestimmten Kennwert (z.B. Mittelwert) berechneten, dann würden diese Stichprobenkennwerte eine Verteilung bilden. Diese Verteilung ist die SKV.
In Wirklichkeit kann man natürlich nicht unendlich viele Stichproben ziehen. Deswegen handelt es sich um eine theoretische Verteilung. Wir nutzen sie lediglich, um die Unsicherheit zu bemessen, mit der wir Aussagen auf Basis von einer oder wenigen Stichproben über die Grundgesamtheit treffen.

\(\checkmark\) Die SKV gibt die Verteilung eines Kennwerts bei bestimmter Stichprobengröße an.
\(\quad \rightarrow\) Richtig. Für jede beliebige Stichprobengröße gibt es eine SKV. Das liegt daran, dass eine geringere Stichprobengröße eine größere Unsicherheit der Schätzung bedeutet. Der Erwartungswert der Verteilung ändert sich zwar nicht durch die Stichprobengröße. Allerdings fließt das n in die Berechnung der Varianz bzw. des Standardfehlers der Verteilung ein. Durch diese unterschiedlich große Streuung unterscheiden sich SKVs verschiedener Stichprobengröße.




Worauf bezieht sich die SKV?

□ Es existiert für jede Populationsverteilung genau eine SKV.
□ Für Mittelwert, Standardabweichung, b-Gewichte usw. können SKVs gebildet werden.


Lösung

\(\times\) Es existiert für jede Populationsverteilung genau eine SKV.
\(\quad \rightarrow\) Falsch. Wir können sehr viele unterschiedliche Parameter schätzen, jeweils mit Hilfe unterschiedlicher Stichprobenkennwerteverteilungen. Zudem existieren für verschiedene Stichprobengrößen unterschiedliche SKVs (s.o.).

\(\checkmark\) Für Mittelwert, Standardabweichung, b-gewichte usw. können SKVs gebildet werden. \(\quad \rightarrow\) Richtig. Für jeden Kennwert, der für Stichproben berechnet werden kann, können wir SKVs bilden und dadurch inferenzstatistische Schlüsse ziehen. Die SKVs haben z.T. lediglich unterschiedliche Eigenschaften je nach Kennwert.


Wie ist die Verteilung der SKV?

□ Bei normaler Populationsverteilung ist die SKV auch normal.
□ Mit steigender Stichprobengröße nähert sich die SKV einer Normalverteilung an.


Lösung

\(\times\) Bei normaler Populationsverteilung ist die SKV auch normal.
\(\quad \rightarrow\) Für die Stichprobenmittelwerteverteilung, das prominenteste Beispiel, ist dieser Zusammenhang korrekt. Jedoch gilt dies nicht für alle schätzbaren Parameter (z.B. die Varianz).
\(\checkmark\) Mit steigender Stichprobengröße nähert sich die SKV einer Normalverteilung.
\(\quad \rightarrow\) Korrekt. Grund dafür ist der zentrale Grenzwertsatz. Dabei wird das Ziehen von Stichproben mit den zugehörigen Kennwerten aus der Population als Zufallsexperiment betrachtet und die einzelnen Kennwerte als Realisierung von Zufallsvariablen. Unabhängige Ziehungen von Stichproben(kennwerten) aus derselben Population mit einer nicht übermächtigen Verteilung des Merkmals folgen dem zentralen Grenzwertsatz.
Demnach ist die Verteilung dieser Kennwerte eine Normalverteilung, wenn die Stichprobe »groß« ist. Wie groß die Stichprobe sein muss, hängt davon ab, wie stark die Verteilung des Merkmals in der Population von einer Normalverteilung abweicht. Dies gilt für alle SKVs - bei ausreichender Stichprobengröße.


Wie ist die zugrundeliegende Populationsverteilung?

□ Eine normale SKV weist auf eine normale Populationsverteilung hin.


Lösung

\(\times\) Eine normale SKV weist auf eine normale Populationsverteilung hin.
\(\quad \rightarrow\) Falsch. Nach dem zentralen Grenzwertsatz nähern sich alle SKVs mit zunehmender Stichprobengröße einer Normalverteilung an, unabhängig von der Verteilung in der Population. Deshalb können wir von einer normalverteilten SKV nicht auf die Populationsverteilung schließen, zumindest nicht ohne zusätzliche Information über die Stichprobengröße.



(3) Wahr oder falsch: Stichprobenkennwerteverteilung des Mittels

Was ist die Stichprobenkennwerteverteilung des Mittels (SKV-M)?

□ Die SKV-M gibt die Verteilung des Mittels bei bestimmter Stichprobengröße an.


Lösung

\(\checkmark\) Die SKV-M gibt die Verteilung des Mittels bei bestimmter Stichprobengröße an.
\(\quad \rightarrow\) Korrekt. Durch den Standardfehler bestimmt die Stichprobengröße die Verteilung der SKVs-M mit (s.o.).


Worauf bezieht sich die SKV-M?

□ Es existiert für jede Populationsverteilung genau eine SKV-M.


Lösung

\(\times\) Es existiert für jede Populationsverteilung genau eine SKV-M.
\(\quad \rightarrow\) Falsch. Es existieren für jede Populationsverteilung so viele SKVs-M, wie Stichproben unterschiedlicher Größen daraus gezogen werden können (potenziell unendlich viele).


Wie ist die Verteilung der SKV-M?

□ Bei normaler Populationsverteilung ist die SKV-M auch normal.
□ Mit steigender Stichprobengröße nähert sich die SKV-M einer Normalverteilung an.
□ Der Erwartungswert der SKV-M entspricht dem Populationsmittel.
□ Die Varianz der SKV-M entspricht der Populationsvarianz.
□ Nimmt man eine viermal so große Stichprobe, halbiert sich der Standardfehler.


Lösung

\(\checkmark\) Bei normaler Populationsverteilung ist die SKV-M auch normal.
\(\quad \rightarrow\) Korrekt. Dies gilt unabhängig von der Stichprobengröße.

\(\checkmark\) Mit steigender Stichprobengröße nähert sich die SKV-M einer Normalverteilung an.
\(\quad \rightarrow\) Richtig. Dies gilt unabhängig von der Verteilung der Rohwerte in der Population.

\(\checkmark\) Der Erwartungswert der SKV-M entspricht dem Populationsmittel.
\(\quad \rightarrow\) Korrekt. Der Mittelwert ist ein erwartungstreuer Schätzer des Populationsmittels. Das bedeutet, dass Stichprobenmittelwerte den Erwartungswert (Mittelwert als Parameter in der Population \(\mu\)) nicht systematisch über- oder unterschätzen.

\(\times\) Die Varianz der SKV-M entspricht der Populationsvarianz.
\(\quad \rightarrow\) Falsch. Dies gilt nur für den Spezialfall n = 1. Die Varianz der SKV-M \(\sigma_{\bar{x}}^2\) ist der quadrierte Standardfehler, der sich als \(\sigma_{\bar{x}}^2 =\) \(\frac{\sigma^2}{n}\) ergibt. Darin enthalten ist nicht nur die Populationsvarianz \(\sigma^2\), sondern auch die Stichprobengröße, um die Unsicherheit der Schätzung zu quantifizieren. Je größer unsere Stichprobe ist, desto mehr »wissen« wir über die Population. Somit verbessert sich unsere Schätzung: Sie wird sicherer, da wir mit geringerer Wahrscheinlichkeit viele extreme Merkmalsträger in unserer Stichprobe haben und somit die Verhältnisse in der Population verschätzen.

\(\checkmark\) Nimmt man eine viermal so große Stichprobe, halbiert sich der Standardfehler.
\(\quad \rightarrow\) Korrekt. Um diesen Zusammenhang zu erkennen, müssen wir den Satz nur als Gleichung darstellen und umformen:
\(\begin{aligned} \frac{1}{2}\cdot \sigma_{\bar{x}} &= \sqrt{\frac{\sigma^2}{4 \cdot n}}\\ &= \sqrt{\frac{1}{4} \cdot \frac{\sigma^2}{n}}\\ &= \frac{1}{2} \cdot \sqrt{\frac{\sigma^2}{n}}\\ &= \frac{1}{2} \cdot \sigma_{\bar{x}}\\ \end{aligned}\)


Wie ist die zugrundeliegende Populationsverteilung?

□ Eine normale SKV-M weist auf eine normale Populationsverteilung hin.


Lösung

\(\times\) Eine normale SKV-M weist auf eine normale Populationsverteilung hin.
\(\quad \rightarrow\) Falsch. Wenn die Stichprobe »groß« ist, ist die zugehörige SKV-M nach dem zentralen Grenzwertsatz (s.o.) unabhängig von der Populationsverteilung normalverteilt.



Zusatzaufgabe - Wahr oder falsch: Stichprobenkennwerteverteilung der Varianz
(nicht klausurrelevant!)

Was ist die Stichprobenkennwerteverteilung der Varianz (SKV-V)?

□ Die SKV-V gibt die Verteilung der Varianz bei bestimmter Stichprobengröße an.


Lösung

\(\checkmark\) Die SKV-V gibt die Verteilung der Varianz bei bestimmter Stichprobengröße an.
\(\quad \rightarrow\) Richtig. (Hier ist die Stichprobenvarianz \(s^2\) (als Kennwert) für eine gegebene Population, nicht die Populationsvarianz \(\sigma^2\) gemeint.)


Wie ist die Verteilung der SKV-V?

□ Bei normaler Populationsverteilung ist die SKV-V auch normal.
□ Mit steigender Stichprobengröße nähert sich die SKV-V einer Normalverteilung an.
□ Der Erwartungswert der SKV-V entspricht der Populationsvarianz.
□ Die SKV-V entspricht bei normalverteilter Population einer \(\chi^2\) -Verteilung.
□ Nimmt man eine viermal so große Stichprobe, halbiert sich der Standardfehler.


Lösung

\(\times\) Bei normaler Populationsverteilung ist die SKV-V auch normal.
\(\quad \rightarrow\) Im allgemeinen Fall ist diese Aussage falsch. Die SKV-V entspricht bei beliebiger Stichprobengröße einer \(\boldsymbol{\chi^2}\)-Verteilung mit dem Erwartungswert \(\mu_{s^2} = n\) und der Varianz \(\sigma^2_{s^2} = 2n\). Diese nähert sich erst mit steigender Stichprobengröße (\(\rightarrow \infty\)) einer Normalverteilung an.

\(\checkmark\) Mit steigender Stichprobengröße nähert sich die SKV-V einer Normalverteilung an.
\(\quad \rightarrow\) Korrekt. Mit steigender Stichprobengröße entspricht die SKV-V mit \(\sigma^2 \sim \chi^2(n)\) einer Normalverteilung mit \(\sigma^2 \sim N(\sigma^2,(\sigma^2 \cdot \sqrt{\frac{2}{n-1}})\).


\(\checkmark\) Der Erwartungswert der SKV-V entspricht der Populationsvarianz.
\(\quad \rightarrow\) Korrekt. \(\mu_{s^2} = \sigma^2\).

\(\checkmark\) Die SKV-V entspricht bei normalverteilter Population einer \(\chi^2\)-Verteilung.
\(\quad \rightarrow\) Korrekt. \(s^2 \sim \chi^2(n)\)

\(\times\) Nimmt man eine viermal so große Stichprobe, halbiert sich der Standardfehler.
\(\quad \rightarrow\) Falsch. Dieser Zusammenhang gilt für die Stichprobenmittelwerteverteilung, aber nicht für die SKV-V.


Wie ist die zugrundeliegende Populationsverteilung?

□ Eine normale SKV-V weist auf eine normale Populationsverteilung hin.


Lösung

\(\times\) Eine normale SKV-V weist auf eine normale Populationsverteilung hin.
\(\quad \rightarrow\) Falsch. Die SKV-V ist \(\chi^2\)-verteilt. Mit steigender Stichprobengröße nähert sie sich einer Normalverteilung - unabhängig von der Verteilung in der Population.



Anwendung

(4) Intelligenzquotient

Es sei bekannt, dass Intelligenzquotientwerte in der Population normalverteilt sind mit x ~ N(100, 100)- vgl. Übungsblatt “Stetige Zufallsverteilungen”.
Du ziehst eine Zufallsstichprobe mit N = 25 Psychologiestudierenden und erhältst einen Mittelwert von \(\bar{x}\) = 106 und eine Standardabweichung von s = 6.

(a) Welchen IQ-Mittelwert müsste eine zufällig ausgewählte Stichprobe mindestens aufweisen, um im Mittel zu den oberen 2,5% zu gehören?


Lösung

  • Wir gehen von der Formel für die z-Transformation aus. Wir möchten nämlich einen Wert (Mittelwert) ermitteln, der einen bestimmten Prozentsatz (P = 2,5%) einer Normalverteilung (IQ-Verteilung) mit bekannter Streuung nach oben abschneidet.
    \(z =\) \(\frac{x - \mu}{\sigma}\)
  • Für unsere Aufgabe müssen wir aber die passenden Größen in die Formel einsetzen:
    • Die Verteilung, auf die wir uns beziehen, ist die Stichprobenmittelwerteverteilung der IQ-Mittelwerte für Stichproben der Größe N = 25.
    • Das \(x\) ist in unserem Fall ein Stichprobenmittelwert zu einem bestimmten Perzentil der Stichprobenmittelwerteverteilung \(\bar{x}_{p}\).
    • Genauer gesagt, ist es der IQ-Mittelwert einer (zufällig gewählten) Stichprobe mit N = 25, die einen besseren Mittelwert als 97,5% aller möglichen Stichproben derselben Größe aufweist.
    • Das \(\mu\) ist der Erwartungswert der Population und gleich dem Erwartungswert der Stichprobenmittelwerteverteilung \(\mu_{\bar{x}}\).
    • \(\sigma\) ist die Streuung der Stichprobenmittelwerteverteilung, also der Standardfehler \(\sigma_{\bar{x}}\).
    • Der z-Wert, den wir suchen, ist der z-Wert zu diesem Perzentil.
  • Somit können wir unsere Formel für die z-Transformation folgendermaßen anpassen:
    \(z_{p} =\) \(\frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\)
  • Folgende Größen sind uns gegeben:
    • \(\mu = \mu_{\bar{x}} = 100\)
    • \(\sigma^2 = 100\)
    • \(n = 25\)
  • Daraus können wir den Standardfehler im Nenner der Gleichung berechnen:
    \(\sigma_{\bar{x}} =\) \(\sqrt{\frac{\sigma^2}{n}} = \sqrt{\frac{100}{25}} = \frac{10}{5}\) \(= 2\)
  • Auch den z-Wert können wir ermitteln: \(z_{p} = z_{97.5\%}\)
    • Wir suchen den IQ-Wert, der 2.5% der Verteilung nach oben abschneidet.
    • In der z-Tabelle können wir nur die Werte nachschauen, die einen Anteil der Verteilung nach unten abschneiden. Der gesuchte IQ-Wert schneidet 2.5% der Verteilung nach oben und somit 97.5% nach unten ab.
    • Wir schlagen in der Tabelle nach:

      • Wir finden den Prozentsatz 97.5% bei »0,9750«.
      • Bis zur ersten Nachkommastelle finden wir den zugehörigen z-Wert, wenn wir von da nach links in die erste Spalte schauen: »1,9«
      • Die zweite Nachkommastelle erhalten wir, indem wir vom Prozentwert nach oben in die erste Zeile sehen: »0,06«
    • Somit ist \(z_{p} = z_{97.5\%} = 1.96\)
  • Diese Werte setzen wir in die Formel oben ein und erhalten:

    \(\begin{aligned} 1.96 &=\frac{\bar{x}_{p} - 100}{2} \quad | \cdot 2\\[1,2ex] 1.96 \cdot 2 &= \bar{x}_{p} - 100 \quad | + 100\\ \bar{x}_{p} &= \underline{\underline{103.92}}\\ \end{aligned}\)

    \(\rightarrow\) Eine zufällig ausgewählte Stichprobe derselben Größe müsste mindestens einen IQ-Wert von 103.92 aufweisen, um zu den oberen 2,5% der Mittel zu gehören.


(b) Welchen Mittelwert \(\boldsymbol{\bar{x}}\) müsste eine zufällig ausgewählte Stichprobe mindestens aufweisen, um nicht zu den unteren 5% zu gehören?


Lösung

  • Wir gehen wiederum von der Formel für die z-Transformation aus.
    • Wir möchten einen Mittelwert ermitteln, der p = 5% einer Normalverteilung (IQ-Verteilung) mit bekannter Streuung nach unten abschneidet.
    • Alle Überlegungen aus Aufgabe (a) treffen auch hier zu.
    • Wir gehen also wieder von folgender Formel aus:
      \(z_{p} =\) \(\frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\)
  • Folgende Werte sind gegeben:
    • \(\mu = \mu_{\bar{x}} = 100\)
    • \(\sigma = \sqrt{100} = 10\)
    • \(n = 25\)
  • Wir schlagen den z-Wert in der Tabelle nach:
    • In der Tabelle sind nur Prozentwerte über 50% angegeben. Da die z-Verteilung symmetrisch um 0 ist, schauen wir bei 95% nach. Der gesuchte z-Wert ist die entgegengesetzte Zahl.


    • Der exakte Wert von 95% ist nicht tabelliert.
      • Die beiden nächstgelegenen Alternativen haben einen gleich weiten Abstand zu 95%.
      • Standardmäßig wollen wir eher konservativ runden. In unserer Aufgabenstellung heißt, es welchen IQ-Wert eine Stichprobe mindestens aufweisen müsste, um nicht zu den unteren 5% zu gehören. Im Zweifelsfall soll es also eher 5.5% als 4.5% sein.
      • Deshalb wählen wir 1 - 5.5% = 94.95% und lesen den z-Wert zu »0,9495« ab: \(z_{94.95\%}=1.64 \rightarrow z_{5\%} \approx -1.64\)

  • Diese Werte setzen wir in die Formel ein und erhalten:

    \(\begin{aligned} z_{p} &= \frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\\[1,2ex] z_{p} &= \frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sqrt{\frac{\sigma^2}{n}}}\\[1,2ex] -1.64 &=\frac{\bar{x}_{p} - 100}{\sqrt{\frac{100}{25}}}\\[1,2ex] -1.64 &=\frac{\bar{x}_{p} - 100}{\frac{10}{5}}\\[1,2ex] -1.64 &=\frac{\bar{x}_{p} - 100}{2} \quad | \cdot 2\\[1,2ex] -1.64 \cdot 2 &= \bar{x}_{p} - 100 \quad | + 100\\ \bar{x}_{p} &= \underline{\underline{96.72}}\\ \end{aligned}\)

    \(\rightarrow\) Eine zufällig ausgewählte Stichprobe derselben Größe müsste mindestens einen IQ-Wert von 96.72 aufweisen, um nicht zu den unteren 5% der Mittel zu gehören.


(c) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Stichprobe einen IQ-Mittelwert zwischen \(\boldsymbol{\bar{x}}\) = 80 und \(\boldsymbol{\bar{x}}\) = 120 hat?


Lösung

  • Wir gehen wiederum von der Formel für die z-Transformation aus.
    • Denn wir möchten die Wahrscheinlichkeit P ermitteln, dass eine Stichprobe einen Wert (Mittelwert) in einem festgelegten Intervall einer Normalverteilung (IQ-Verteilung) mit bekannter Streuung aufweist.
    • Über die z-Transformation können wir den Intervallgrenzen Wahrscheinlichkeiten zuordnen.
    • Die Überlegungen zur Verteilung aus (a) treffen auch hier zu.
    • Wir verwenden also wieder folgende Formel:
      \(z_{p} =\) \(\frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\)
  • Folgende Werte sind gegeben bzw. haben wir in den vorangegangenen Aufgaben berechnet:
    • \(\mu = \mu_{\bar{x}} = 100\)
    • \(\sigma_{\bar{x}} =\) \(\sqrt{\frac{\sigma^2}{n}}\) \(= \sqrt{\frac{100}{25}} = 2\)
    • obere Intervallgrenze \(\bar{x}_o = 120\)
    • untere Intervallgrenze \(\bar{x}_u = 80\)
  • Zunächst berechnen wir die Wahrscheinlichkeiten, dass der IQ-Wert einer zufällig gezogenen Stichprobe niedriger als 80 bzw. 120 ist. Daraus bilden wir eine Differenz, um auf die Wahrscheinlichkeit zu kommen, dass ein ein Stichprobenmittelwert in das Intervall [80;120] fällt.
  • Die Wahrscheinlichkeiten erhalten wir durch die z-Werte:
    \(\begin{aligned} z_{o} &= \frac{\bar{x}_{o} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\\[1,2ex] &= \frac{120 - 100}{2}\\[1,2ex] &= \frac{20}{2}\\[1,2ex] &= 10\\[1,2ex] z_{u} &= \frac{\bar{x}_{u} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\\[1,2ex] &= \frac{80 - 100}{2}\\[1,2ex] &= -\frac{20}{2}\\[1,2ex] &= -10\\[1,2ex] \end{aligned}\)
    \(\rightarrow\) z-Werte > |10| finden wir nicht in der Tabelle. Der größte z-Wert, den wir noch in der Tabelle finden, liegt bei \(z = \pm 3.09\) und entspricht dem 99.9%-Perzentil. Ein z-Wert von |10| ist mehr als doppelt so groß, d.h. dieser und extremere Werte sind noch viel unwahrscheinlicher. Man spricht davon, dass die Wahrscheinlichkeit für einen solchen oder einen noch extremeren Wert »gegen 0« geht: \(F(10) \approx 1\) und \(F(-10) \approx 0\)
    \(\rightarrow\) \(F(10) - F(-10) \approx 1\)
    \(\rightarrow\) Die Wahrscheinlichkeit, dass eine zufällig gezogene Stichprobe der Größe 25 einen IQ-Mittelwert zwischen 80 und 120 aufweist, liegt beinahe bei 100%.


(d) Wie wahrscheinlich ist es, bei N = 25 einen Mittelwert von \(\boldsymbol{\bar{x}}\) = 106 oder größer aus der Gesamtpopulation zu erhalten?


Lösung

  • Ausgangspunkt ist die Formel für die z-Transformation.
    • Auch hierbei ist unsere Normalverteilung die Stichprobenmittelwerteverteilung zu IQ-Werten von Stichproben der Größe N = 25.
      \(z_{p} =\) \(\frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\)
  • Der Erwartungswert \(\mu_{\bar{x}}\) der SKV-M ist weiterhin 100.
  • Die Standardabweichung, an der wir normieren, ist der Standardfehler dieser SKV-M, also weiterhin \(\sigma_{\bar{x}} =\) \(\sqrt{\frac{\sigma^2}{n}} = \sqrt{\frac{100}{25}} = 2\)
  • Lass Dich nicht von der Standardabweichung im Aufgabenszenario irritieren. Wir beziehen uns auf unser Gedankenexperiment: Hypothetisch könnten wir unendlich viele Stichproben aus der Population mit n = 25 ziehen und den IQ-Mittelwert berechnen. Unsere Aufgabe ist, herauszufinden, wie viel Prozent der Verteilung der IQ-Mittelwert \(\bar{x} = 106\) nach oben abschneidet.
    \(\begin{aligned} z_{p} &= \frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\\[1,2ex] &= \frac{106 - 100}{2}\\[1,2ex] &= \frac{6}{2}\\[1,2ex] &= \underline{\underline{3}}\\ \end{aligned}\)
    \(\rightarrow\) Der z-Wert, der einem IQ-Mittelwert von 106 entspricht, ist 3.
  • Wenn wir in der z-Tabelle den Wert von 3 nachschlagen, erhalten wir die Wahrscheinlichkeit, dass eine Stichprobe mit N = 25 einen IQ-Mittelwert kleiner oder gleich 106 hat.

  • Wir suchen nun die Wahrscheinlichkeit, dass eine Stichprobe mit N = 25 einen IQ-Mittelwert größer oder gleich 106 hat. Anders ausgedrückt, berechnen wir die Fläche unter der Kurve für das Intervall \([106, \hspace{0,2em} + \infty]\), wobei \(+ \infty\) das obere »Ende« der Verteilung bildet. Da die Fläche unter der Verteilung 1 ist (und somit die Wahrscheinlichkeit, dass die Stichprobe einen IQ-Mittelwert zwischen \(- \infty\) und \(+ \infty\) hat, bei 100% liegt), bilden wir die Differenz \(1 - F(3) = 1 - 0.9987 = \underline{\underline{0.0013}}\)
    \(\rightarrow\) Die Wahrscheinlichkeit, bei n = 25 einen IQ-Mittelwert von 106 oder größer aus der Gesamtpopulation zu erhalten, liegt bei 0.13%.


(e) In welchem IQ-Mittelwert-Bereich müsste eine zufällig ausgewählte Stichprobe liegen, um zu den mittleren 95% zu gehören?


Lösung

  • Gesucht ist ein Intervall in der Mitte der SKV-M von IQ-Mittelwerten, das 95% der Verteilung umfasst.
    • 1 - .95 = .05 liegen außerhalb der Verteilung, und zwar je eine Hälte dieser 5% symmetrisch am oberen und am unteren Ende.
    • Wir suchen also die IQ-Werte für das 2.5%- und das 97.5%-Perzentil \(\bar{x}_{2.5\%}\) und \(\bar{x}_{97.5\%}\) aus der Stichproben-IQ-Mittelwerte-Verteilung.

  • Wir verwenden die angepasste z-Transformationsformel:
    \(z_{p} =\) \(\frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\)
    • \(\mu_{\bar{x}} = 100\) und \(\sigma_{\bar{x}} = 2\) kennen wir bereits aus den anderen Unteraufgaben.
    • \(z_{p}\) suchen wir aus der z-Tabelle.

      \(\quad \rightarrow\) \(z_{97.5\%}\) \(= 1.96\) und \(z_{2.5\%}\) \(= -1.96\)
  • Wir setzen ein:
    \(\begin{aligned} 1.96 &= \frac{\bar{x}_{97.5\%} - 100}{2}\\[1,2ex] 1.96 \cdot 2 + 100 &= \bar{x}_{97.5\%}\\ \bar{x}_{97.5\%} &= \underline{\underline{103.92}}\\ \end{aligned}\)

    \(\begin{aligned} -1.96 &= \frac{\bar{x}_{2.5\%} - 100}{2}\\[1,2ex] -1.96 \cdot 2 + 100 &= \bar{x}_{2.5\%}\\ \bar{x}_{2.5\%} &= \underline{\underline{96.08}}\\ \end{aligned}\)


    \(\rightarrow\) Eine zufällig ausgewählte Stichprobe muss in dem IQ-Werte-Bereich von [96.08; 103.92] liegen, um zu den mittleren 95% zu gehören


(f) Ist der gefundene Mittelwert plausibel?


Lösung

Wenn man davon ausgeht, dass die Population wie oben verteilt ist, dann bekommt man einen solchen oder noch extremeren Mittelwert nur zu 0.13% (bei n = 25)!
In 95% der Fälle wird man aus der obigen Populationsverteilung einen Mittelwert zwischen 96.08 und 103.92 (bei n = 25) bekommen!
Als Stichprobenmittelwert von Psychologiestudierenden ist dieses Ergebnis also untypisch für die deutsche Normalbevölkerung.


(g) Was passiert, wenn man statt N = 25 N = 100 Personen untersucht? Bestimme die Mittelwertverteilung für N = 100 Personen.


Lösung

  • Der Erwartungswert bleibt gleich, denn er ist unabhängig von der Stichprobengröße und entspricht immer dem Populationsmittelwert. \(\rightarrow\) \(\mu = \mu_{\bar{x}} = 100\)
  • Der Standardfehler wird durch die Streuung in der Population (unverändert) und die Stichprobengröße berechnet: \(\sigma_{\bar{x}} = \sqrt{\frac{\sigma^2}{n}}\)
    • für \(n = 25\) ergibt sich der Standardfehler als \(\sigma_{\bar{x}} = \sqrt{\frac{100}{25}} =\) \(\sqrt{4} = 2\) \(\rightarrow\) \(\bar{x} \sim N(100,2^2)\)
    • für \(\boldsymbol{n = 100}\) ergibt sich der Standardfehler als \(\sigma_{\bar{x}} = \sqrt{\frac{100}{100}} =\) \(\sqrt{1} = 1\) \(\rightarrow\) \(\bar{x} \sim N(100,1)\)

\(\quad \rightarrow\) Der Standardfehler halbiert sich. Der Erwartungswert bleibt gleich.


(h) Auf welche „Fehlerart“ ist unser Ergebnis zurückzuführen?


Lösung

Mit absoluter Sicherheit können wir das nie sagen. Möglicherweise spielt hier unser Stichprobenfehler eine Rolle, d.h. wir haben durch Zufall einen recht extremen Stichprobenmittelwert »gezogen«.
Angesichts der Zusammensetzung der Stichprobe liegt aber vermutlich (auch) ein systematischer Fehler vor: Psychologiestudierende sind nicht unbedingt eine repräsentative Stichprobe für die Normalbevölkerung bezüglich Intelligenz. Da Intelligenz mit dem Abiturdurchschnitt zusammenhängt und die Zulassungsbeschränkung für den Studiengang v.a. mittels des Abiturnotendurchschnitts ausgeführt wird, ist hier eine Verzerrung wahrscheinlich.
Ob sich die Population der Psychologiestudierenden hinsichtlich Intelligenz tatsächlich von der Normalbevölkerung unterscheidet, müsste man aber mittels eines Hypothesentests prüfen. Damit beschäftigen wir uns in den nächsten Wochen.



(5) Transkription

Du schreibst Deine Bachelorarbeit und wertest Tonaufnahmen aus. Dazu verschriftlichst Du das Material. Trainierte Transkribierende machen pro halber Stunde transkribiertem Material im Mittel 5 Fehler mit einer Standardabweichung von 2. Es wurde an deutschen Universitäten eine Stichprobe von N = 500 trainierten Transkribierenden erhoben.

(a) Bestimme die Populationsverteilung.


Lösung

  • Gesucht ist die Populationsverteilung der Fehleranzahl trainierter Transkribierender beim Verschriftlichen.
  • Die Informationen zur Lösung dieser Aufgabe erhalten wir aus dem zweiten Satz.
    • Fehler sind im Allgemeinen normalverteilt. Normalverteilungen sind bestimmt durch den Erwartungswert \(\mu\) und die Varianz \(\sigma^2\)
    • \(\mu = 5\)
    • \(\sigma = 2 \enspace \rightarrow \sigma^2 = 2^2 = 4\)
  • \(X \sim N(5, 4)\)


(b) Bestimme die zugehörige Stichprobenkennwerteverteilung.


Lösung

  • Gesucht ist die Stichprobenmittelwerteverteilung zu der Populationsverteilung der Fehleranzahl.
  • Wir benötigen also die Werte, die die Populationsverteilung bestimmen: \(\mu = 5, \enspace \sigma^2 = 2^2\)
  • Die Stichprobenmittelwerteverteilung (SKV-M) ist zusätzlich durch die Stichprobengröße bestimmt: n = 500
    • Sie folgt ebenfalls einer Normalverteilung, da zum einen die Populationsverteilung normalverteilt ist und zum anderen der Stichprobenumfang »groß« ist.
    • Der Erwartungswert der SKV-M entspricht dem Erwartungswert der Populationsverteilung: \(\mu_{\bar{x}} = \mu = 5\)
    • Die Varianz der SKV-M bezieht nicht nur die Streuung der Werte in der Population ein, sondern auch die Stichprobengröße.
      • Je stärker die Streuung in der Population, desto größer die Wahrscheinlichkeit, dass in unserer Stichprobe extreme Transkribierende vorkommen. Je größer die Stichprobe, desto mehr Mitglieder der Population kennen wir und umso unwahrscheinlicher ist es, dass die Stichprobe untypische Populationsmitglieder einschließt und den Erwartungswert (der Population) verschätzt.
      • Daher teilen wir die Populationsvarianz durch den Stichprobenumfang und erhalten die Varianz der SKV-M (den quadrierten Standardfehler): \(\sigma_{\bar{x}}^2 =\) \(\frac{\sigma^2}{n} = \frac{4}{500}\) \(= 0.008\)
  • \(\bar{x} \sim N(5, 0.008)\)


(c) Wie viele Fehler dürftest Du bei Deiner Transkription machen, wenn Du zu den besten 10% der Transkribierenden gehören möchtest?


Lösung

  • Gesucht ist das 10%-Perzentil der Populationsverteilung. Die besten Transkribierenden machen die wenigsten Fehler, also möchtest Du zu den unteren 10% der Verteilung gehören.
  • Wir beziehen uns somit auf die Populationsverteilung: \(X \sim N(5, 4)\)
  • Diese Normalverteilung können wir mit Hilfe der z-Transformation in eine Standardnormalverteilung umwandeln.
    • Gegeben sind uns der Erwartungswert \(\mu = 5\), die Standardabweichung in der Population \(\sigma = 2\) und indirekt der z-Wert über den Prozentsatz 10%.
    • Wir suchen \(z_{10\%}\) aus der Tabelle. Da nur die Werte > 50% abgetragen sind, verwenden wir \(- z_{90\%}\) (da \(F(-z) = 1 - F(z)\)).

    • Der gesuchte z-Wert lautet \(z_{10\%} = -1.28\)
    • Wir setzen in die Formel der z-Transformation \(z_{10\%} =\) \(\frac{x_{10\%} - \mu}{\sigma}\) ein:
      \(\begin{aligned} -1.28 &= \frac{\bar{x}_{10\%} - 5}{2} \quad | \cdot 2\\[1,2ex] -1.28 \cdot 2 &= \bar{x}_{10\%} - 5 \quad | + 5\\ \bar{x}_{10\%} &= -1.28 \cdot 2 + 5\\ \bar{x}_{10\%} &= 2.44 \approx \underline{\underline{2}}\\ \end{aligned}\)
\(\quad \rightarrow\) Um zu den 10% besten Transkribierenden zu gehören, dürftest Du nicht mehr als zwei Fehler pro halber Stunde Transkriptionsmaterial begehen. (Hier muss abgerundet werden, da man keinen 0.44 Fehler machen kann und Du nicht nur fast zu den 10% Besten gehören möchtest.)


Bei der Korrektur stellst Du fest, dass Du im Mittel pro halber Stunde transkribierter Aufnahme 7 Fehler machst.

(d) Wie wahrscheinlich ist es, dass eine Stichprobe trainierter Transkribierender durchschnittlich 7 Fehler oder mehr macht? Interpretiere Dein Ergebnis.


Lösung

  • Gesucht ist die Wahrscheinlichkeit, dass eine Stichprobe von Transkribierenden einen Mittelwert von 7 oder einen noch extremeren (also höheren) Mittelwert aufweist.
  • Diese Wahrscheinlichkeit erhalten wir über die Stichprobenmittelwerteverteilung. Hier geht es um eine Stichprobe und deren Mittelwert, nicht um einzelne Transkribierende.
  • Da nichts anderes gegeben ist, gehen wir davon aus, dass die Stichprobe ebenfalls n = 500 groß ist.
  • Die SKV-M ist folgendermaßen bestimmt: \(\bar{x} \sim N(5, 0.008)\). Perzentile und zugehörige Wahrscheinlichkeiten erhalten wir über die z-Transformation.
    • Gegeben: \(\mu_{\bar{x}} = 5, \enspace \sigma_\bar{x}^2 = .008, \enspace \bar{x}_{p} = 7\)
    • Zunächst berechnen wir den z-Wert \(z_{p}\) zu \(\bar{x}_{p} = 7\), um schließlich die gesuchte Wahrscheinlichkeit p zu erhalten.
    • Wir setzen in die Formel der z-Transformation ein: \(z_{p} =\) \(\frac{\bar{x}_{p} - \mu_{\bar{x}}}{\sigma_{\bar{x}}}\)
      \(\begin{aligned} z_{p} &= \frac{7 - 5}{\sqrt{.008}}\\[1,2ex] z_{p} &= \underline{\underline{22.361}}\\ \end{aligned}\)
\(\quad \rightarrow\) Die Wahrscheinlichkeit F(22.361) finden wir nicht mehr in der z-Tabelle. Sie geht gegen 1. Das heißt, die Wahrscheinlichkeit 1 - F(22.361), einen solchen oder einen extremeren Stichprobenmittelwert zu erhalten, geht gegen 0.
\(\quad \rightarrow\) Eine Stichprobe trainierter Transkribierender von n = 500 macht mit einer Wahrscheinlichkeit nahe 0 durchschnittlich 7 oder mehr Fehler.
Das liegt v.a. an der großen Stichprobe und an der geringen Streuung in der Population. Dadurch ist diese Stichprobenmittelwerteverteilung sehr schmalgipflig. Schon zahlenmäßig nicht weit abweichende Mittelwerte sind somit unwahrscheinlich. Das bedeutet, dass man mit einer Stichprobe von 500 trainierten Transkribierenden die durchschnittliche Fehleranzahl pro halber Stunde in der Population sehr präzise schätzen kann.
Inhaltlich ist es schlüssig, dass eine im Transkribieren untrainierte Person mehr Fehler macht bzw. trainierte Transkribierende weniger Fehler machen (weil Übung die Transkriptions-Fähigkeiten schult).