Mathematische Grundlagen

(1) Summenzeichen

Gegeben sind die folgenden Werte
\(x_1\) = 2, \(x_2\) = 3, \(x_3\) = 5 und \(x_4\) = 8;
\(y_1\) = 6, \(y_2\) = 2, \(y_3\) = 4, \(y_4\) = 1 und \(y_5\) = 7.

Berechne folgende Summen:

  1. \(\sum_{(i=1)}^4 x_i^3\)
  2. \(\sum_{(i=1)}^3 (4x_i)\)
  3. \(\sum_{(i=3)}^4 (x_i + i^2)\)
  4. \(\sum_{(i=1)}^3 (x_{i} + y_{(i+1)})\)
  5. \(\sum_{(i=2)}^5 (y_{i}^2 + 2)\)
  6. \(3\sum_{(i=1)}^2 y_{i}\)

Lösung

  1. \(\sum_{(i=1)}^4 x_i^3 = x_1^3 + x_2^3+x_3^3+x_4^3 \\=2^3+3^3+5^3+8^3 = 672\)
    Man muss in diesem Fall jede Ausprägung von \(x\) hoch 3 rechnen und zusammen addieren.
  2. \(\sum_{(i=1)}^3 (4x_i) = 4x_1+4x_2+4x_3 \\= 4\cdot2+4\cdot3+4\cdot5 = 4\cdot(2+3+5) = 40\)
    Die Zahl 4 ist eine Konstante. Deswegen gilt \(\sum_{(i=1)}^n (4x_i) = 4\cdot\sum_{(i=1)}^n x_i\). Wir können die 4 entweder mit jeder Ausprägung von \(x\) multiplizieren (siehe: \(4x_1+4x_2+4x_3\)) oder ausklammern und mit der Summe über alle Ausprägungen von \(x\) multiplizieren (siehe: \(4\cdot(x_1+x_2+x_3)\)).
  3. \(\sum_{(i=3)}^4 (x_i + i^2) = (x_3+3^2)+(x_4+4^2)\\=(5+9)+(8+16)=38\)
    Hier bedeutet \(i^2\) eine Zahl, die dem Index der jeweiligen Ausprägung von \(x\) entspricht und quadriert werden muss. Wir müssen in diesem Beispiel die jeweiligen Summen von \(x_i\) und der Zahl \(i^2\) aufsummieren.
  4. \(\sum_{(i=1)}^3 (x_{i} + y_{(i+1)}) = (x_1+y_{(1+1=2)}) +(x_2+y_{(2+1=3)})+(x_3+y_{(3+1=4)}) \\= (2+2)+(3+4)+(5+1) = 17\)
    In dieser Aufgabe müssen wir die Summen von \(x_{i}\) und \(y_{(i+1)}\) aufsummieren. Dabei können wir alternativ einfach die Summe über die Ausprägungen von \(x\) bilden und dazu die Summe über die Ausprägungen von \(y\) addieren: \(\sum_{(i=1)}^3 (x_{i} + y_{(i+1)})=\sum_{(i=1)}^3 x_{i} + \sum_{(i=1)}^3 y_{(i+1)}\).
  5. \(\sum_{(i=2)}^5 (y_{i}^2 + 2) = (y_2^2+2)+(y_3^2+2)+(y_4^2+2)+(y_5^2+2) \\= (2^2+ 2) + (4^2+ 2) + (1^2+ 2) + (7^2 + 2) = 78\)
    Hier müssen wir die Summen von den quadrierten Ausprägungen von \(y\) und einer Konstante aufaddieren. Wir können alternativ einfach die Summe über die Ausprägungen von \(y\) berechnen und danach zählen, wie viele Male diese Konstante 2 addiert werden soll. Am Ende können wir die Konstante mit dieser Zahl multiplizieren und zur bereits berechneten Summe addieren: \(\sum_{(i=2)}^5 (y_{i}^2 + 2)=\sum_{(i=2)}^5 y_{i}^2 + 4\cdot 2\).
  6. \(3\sum_{(i=1)}^2 y_{i} = \sum_{(i=1)}^2 (3y_{i}) = 3\cdot y_1 + 3\cdot y_2 \\ = 3\cdot6+3\cdot2 = 24\)
    Dieses Beispiel entspricht der Aufgabe b).



Kennwerte

(2) Berechnung statistischer Kennwerte

Gegeben sind durchschnittliche Temperaturen des Monats Oktober in Berlin.

6°C, 12°C, 13°C, 8°C, 13°C, 9°C, 7°C, 13°C, 5°C, 12°C, 10°C

Berechne bitte die folgenden Kennwerte:

  1. Modus
  2. Median
  3. Mittelwert
  4. Range
  5. Varianz
  6. Standardabweichung
  7. Erstes Quartil

Lösung

  1. Modus: Der Modus (oder Modalwert) einer Verteilung ist derjenige Messwert, der am häufigsten vorkommt.
    \[Mo= 13°C\]
  2. Median: Der Median einer Verteilung ist der Wert für den gilt, dass 50% aller Werte kleiner oder gleich und 50% aller Werte größer oder gleich sind. D.h. er teilt die Verteilung in zwei gleich große Hälften.
    Berechnung:
  • Die Werte werden nach ihrer Größe sortiert:
    5°C, 6°C, 7°C, 8°C, 9°C, 10°C, 12°C, 12°C, 13°C, 13°C, 13°C
  • Die Berechnung des Medians unterscheidet sich in Abhängigkeit davon, ob die Anzahl an Werten gerade oder ungerade ist. In unsrem Fall ist die Anzahl der Werte ungerade: \(n=11\).
    Deswegen berechnen wir den Median als \[Md= x_{(n+1)/2}= x_{(11+1)/2}=x_6= 10°C\] D.h. der Median entspricht dem \((n+1)/2\)-ten bzw. dem sechsten Wert in der Verteilung.
  1. Mittelwert: Summe aller Werte dividiert durch die Anzahl der Werte.

\(\begin{aligned} \bar{x} &=\frac{\sum_{i=1}^n x_i}{n} \\ &=\frac{x_1+x_2+x_3+...+x_9+x_{10}+x_{11}}{n}\\ &=\frac{5+6+7+8+9+10+12+12+13+13+13}{11} \\ &\approx 9.818°C \end{aligned}\)

  1. Range: Differenz des größten und des kleinsten beobachteten Wertes.
    \[d_r=x_n-x_1=x_{11}-x_1= 13-5=8°C\]
  2. Varianz: durchschnittliche quadrierte Abweichung der Einzelwerte vom arithmetischen Mittel.

\(\begin{aligned} s^2 &=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\\ &=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+...+(x_{10}-\bar{x})^2+(x_{11}-\bar{x})^2}{n-1}\\ &= \frac{(5-9.8)^2+(6-9.8)^2+(7-9.8)^2+(8-9.8)^2+(9-9.8)^2+(10-9.8)^2+}{11-1} \\ &\frac{+(12-9.8)^2+(12-9.8)^2+(13-9.8)^2+(13-9.8)^2+(13-9.8)^2}{}\\ &\approx 8.964°C^2 \end{aligned}\)

  1. Standardabweichung: (auch Streuung) ist die Quadratwurzel aus der Varianz.
    \[SD= \sqrt{s^2}=\sqrt{9.0}=2.994°C\]
  2. Erstes Quartil: der Wert unter dem 25% der Messwerte liegen.
    Berechnung:
  • Wir bilden einen neuen Datensatz, der die untere Hälfte des sortierten Datensatzes umfasst: \(x_1,..., x_m\). Die Größe des neuen Datensatzes bezeichen wir als \(m\), wobei \(m=(n+1)/2=(11+1)/2=6\). D.h. der neue Datensatz umfasst 6 Werte, nämlich die ersten 6 Werte des ursprünglichen sortierten Datensatzes: 5°C, 6°C, 7°C, 8°C, 9°C, 10°C.
    Diese Formel ist notwendig zur Berechnung der neuen Stichprobengröße, da ursprüngliche Stichprobengröße \(n=11\) ungerade ist. Dadurch können wir den Datensatz nicht einfach in zwei Teile teilen. Wir nehmen in diesem Fall den mittleren Wert (den ursprünglichen Median) in beide neuen Datensätze auf. Genau dies zeigt die Formel.
  • Wir berechnen den Median dieses Datensatzes: das ist das erste Quartil.
    Im neuen Datensatz haben wir eine gerade Anzahl an Werten. Wir berechnen den Median, in dem wir das arithmetische Mittel von den beiden mittleren Zahlen ausrechnen: \[Q_1=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}=\frac{x_{\frac{6}{2}}+x_{\frac{6}{2}+1}}{2}=\frac{x_3+x_4}{2}=\frac{7+8}{2}=7.5°C\]


(3) Kalter Oktober: Beeinflussung statistischer Kennwerte durch Ausreißer

Zu einem Messzeitpunkt war das Thermometer defekt. An diesem Tag wurde eine Temperatur von -200 °C gemessen:

6°C, 12°C, 13°C, 8°C, 13°C, 9°C, 7°C, 13°C, 5°C, 12°C, 10°C, -200 °C

Berechne erneut die folgenden statistischen Kennwerte und überprüfe, inwiefern sie jeweils durch den Ausreißerwert im Vergleich zur Aufgabe (2) beeinflusst wurden:

  1. Modus
  2. Median
  3. Mittelwert
  4. Range
  5. Varianz
  6. Standardabweichung
  7. Erstes Quartil

Lösung

  1. Modus: Der Modus (oder Modalwert) einer Verteilung ist derjenige Messwert, der am häufigsten vorkommt.
    \[Mo= 13°C\] Der Modus bleibt unverändert im Vergleich zur Aufgabe (2). Dieser statistische Kennwert ist robust (nicht sensitiv) gegenüber Ausreißerwerten.

  2. Median: Der Median einer Verteilung ist der Wert für den gilt, dass 50% aller Werte kleiner oder gleich und 50% aller Werte größer oder gleich sind. D.h. er teilt die Verteilung in zwei gleich große Hälften.
    Berechnung:

  • Die Werte werden nach ihrer Größe sortiert:
    -200 °C , 5°C, 6°C, 7°C, 8°C, 9°C, 10°C, 12°C, 12°C, 13°C, 13°C, 13°C
  • Die Berechnung des Medians unterscheidet sich in Abhängigkeit davon, ob die Anzahl an Werten gerade oder ungerade ist. In unsrem Fall ist die Anzahl der Werte gerade: \(n=12\).
    Deswegen berechnen wir den Median als das arithmetische Mittel der mittleren zwei Werte:

\(\begin{aligned} Md = \frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}=\frac{x_{\frac{12}{2}}+x_{\frac{12}{2}+1}}{2}=\frac{x_6+x_7}{2}=\frac{9+10}{2}=9.5°C \end{aligned}\)

Der Median verändert sich geringfügig im Vergleich zur Aufgabe (2): \(Md=10°C\) vs. \(Md=9.5°C\). Dieser statistische Kennwert ist robust gegenüber Ausreißerwerten.

  1. Mittelwert: Summe aller Werte dividiert durch die Anzahl der Werte.
    \(\begin{aligned} \bar{x} &=\frac{\sum_{i=1}^n x_i}{n} \\ &= \frac{x_1+x_2+x_3+...+x_{10}+x_{11}+x_{12}}{n}\\ &=\frac{-200+5+6+7+8+9+10+12+12+13+13+13}{12} \\ & \approx -7.7 °C \end{aligned}\)

Der Mittelwert verändert sich stark im Vergleich zur Aufgabe (2): \(\bar{x}=9.8°C\) vs. \(\bar{x}=-7.7°C\). Dieser statistische Kennwert ist nicht robust bzw. sensitiv gegenüber Ausreißerwerten.

  1. Range: Differenz des größten und des kleinsten beobachteten Wertes.
    \[d_r=x_n-x_1=x_{12}-x_1= 13- (-200) =213°C\] Der Range verändert sich stark im Vergleich zur Aufgabe (2): \(d_r=8°C\) vs. \(d_r=213°C\). Dieser statistische Kennwert ist nicht robust bzw. sensitiv gegenüber Ausreißerwerten.

  2. Varianz: durchschnittliche quadrierte Abweichung der Einzelwerte vom arithmetischen Mittel.

\(\begin{aligned} s^2 &=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\\ & = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+...+(x_{11}-\bar{x})^2+(x_{12}-\bar{x})^2}{n-1} \\ & = \frac{(-200-(-7.7))^2+(5-(-7.7))^2+(6-(-7.7))^2+(7-(-7.7))^2+}{ }\\ &\frac{+(8-(-7.7))^2+(9-(-7.7))^2+(10-(-7.7))^2+(12-(-7.7))^2+}{12-1} \\ &\frac{+(12-(-7.7))^2+(13-(-7.7))^2+(13-(-7.7))^2+(13-(-7.7))^2}{} \\ &\approx 3677°C^2 \end{aligned}\)

Die Varianz verändert sich stark im Vergleich zur Aufgabe (2): \(s^2=9.0°C\) vs. \(s^2=3677°C\). Dieser statistische Kennwert ist nicht robust gegenüber Ausreißerwerten. Im Gegensatz zu Kennwerten mit dem Median oder den Quartilen beziehen Mittelwert und Varianz als mittlere quadrierte Abweichung tatsächlich alle Werte ein (auch extreme Werte), nicht nur die mittigen Werte in der Ordnungsstatistik.

  1. Standardabweichung: (auch Streuung) ist die Quadratwurzel aus der Varianz.
    \[SD= \sqrt{s^2}=\sqrt{3677}=60.6°C\] Die Standardabweichung (wie auch die Varianz) verändert sich stark im Vergleich zur Aufgabe (2): \(SD=3.0°C\) vs. \(SD=60.6°C\). Dieser statistische Kennwert ist nicht robust gegenüber Ausreißerwerten durch die Abhängigkeit von der Varianz.

  2. Erstes Quartil: der Wert unter dem 25% der Messwerte liegen.
    Berechnung:

  • Wir bilden einen neuen Datensatz, der die untere Hälfte des sortierten Datensatzes umfasst: \(x_1,..., x_m\), wobei \(m=n/2=12/2=6\) (da \(n\) gerade ist): -200°C, 5°C, 6°C, 7°C, 8°C, 9°C.
  • Wir berechnen den Median dieses Datensatzes: das ist das erste Quartil.
    In diesem Fall haben wir eine gerade Anzahl an Werten. Wir berechnen den Median, in dem wir das arithmetische Mittel von den beiden mittleren Zahlen ausrechnen: \[Q_1=\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}=\frac{x_{\frac{6}{2}}+x_{\frac{6}{2}+1}}{2}=\frac{x_3+x_4}{2}=\frac{6+7}{2}=6.5°C\]
Das erste Quartil (wie auch der Median) verändert sich geringfügig im Vergleich zur Aufgabe (2): \(SD=7.5°C\) vs. \(SD=6.5°C\). Dieser statistische Kennwert ist robust gegenüber Ausreißerwerten.


(4) Therapie: Berechnung des Interquartilbereichs

Um die Wirksamkeit einer neuen Depressionstherapie zu bestimmen, wurden folgende Differenzen von Depressionswerten – prä- und post-Behandlung – erfasst:

5, 7, 2, 0, 4, 4, 3, 8

Berechne den Interquartilbereich, um einen Überblick über die Daten der Veränderung zu erhalten.


Lösung

  1. Zuerst müssen wir eine Ordnungsstatistik aufstellen, d.h. die Werte nach ihrer Größe sortieren:
    0, 2, 3, 4, 4, 5, 7, 8
  2. Danach bilden wir zwei neue Datensätze aus der unteren sowie der oberen Hälfte der Werte:
  • untere Hälfte: 0, 2, 3, 4
  • obere Hälfte: 4, 5, 7, 8.
  1. Dann bestimmen wir die Mediane der neuen Datensätze:
    Beachte: Die beiden Datensätze haben eine gerade Anzahl an Werten, weshalb der Median sich jeweils als der Mittelwert der mittleren zwei Werten berechnen lässt.
  • erstes Quartil: $Q_1=Md_u= =2.5 $
  • drittes Quartil: \(Q_3=Md_o= \frac{5+7}{2}=6\)
  1. Als letztes berechnen wir den Interquartilbereich als die Differenz aus dem dritten und dem ersten Quartil: \[IQR= Q_3-Q_1= 6-2.5=3.5\]


(5) Berechnung statistischer Kennwerte

Für acht Außendienst-Mitarbeitende liegen die folgenden Angaben über die Anzahl der im letzten Quartal erzielten Abschlüsse vor:
2, 2, 5, 1, 9, 8, 2, 8

Berechne die nachfolgenden Kennwerte!

  1. Modalwert
  2. Median
  3. Mittelwert
  4. Varianz
  5. Standardabweichung
  6. AD-Streuung
  7. Range
  8. IQR

Lösung

  1. Modalwert:
    \[Mo=2\]
  2. Median:
  • Ordnungsstatistik bilden: 1, 2, 2, 2, 5, 8, 8, 9.
  • Median berechnen: da gerade Anzahl an Werten, berechnen wir den Median als Mittelwert der beiden mittleren Werte.

\[Md = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} = \frac{x_{\frac{8}{2}} + x_{\frac{8}{2}+1}}{2} = \frac{x_4 + x_5}{2} = \frac{2 + 5}{2} = 3.5\]

  1. Mittelwert:

\(\begin{aligned} \bar{x} &=\frac{\sum_{i=1}^n x_i}{n} = \frac{x_1+x_2+...+x_7+x_8}{n} \\ &= \frac{1+2+2+2+5+8+8+9}{8} = \frac{37}{8} \approx 4.6 \end{aligned}\)

  1. Varianz:

\(\begin{aligned} s^2 &=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\\ &= \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+...+(x_{7}-\bar{x})^2+(x_{8}-\bar{x})^2}{n-1} \\ &=\frac{(1-4.6)^2+(2-4.6)^2+(2-4.6)^2+(2-4.6)^2+(5-4.6)^2+(8-4.6)^2+}{8-1}\\ & \frac{+(8-4.6)^2+(9-4.6)^2}{ } \approx 10.8 \end{aligned}\)

  1. Standardabweichung:

\[SD=\sqrt{s^2}=\sqrt{10.8} \approx 3.3\]

  1. AD-Streuung: die mittlere absolute Abweichung vom Mittelwert (average absolute deviation) gibt an, wie weit die Elemente einer Verteilung im Durchschnitt vom arithmetischen Mittel der Verteilung abweichen. Dabei unterscheidet sich die AD-Streuung von der Varianz unter anderem dadurch, dass im Zähler die Beträge der Abweichungen der einzelnen Werte vom Mittelwert aufsummiert werden (und nicht quadrierte Abweichungen). Diese in Betragstriche genommene Abweichungen nennt man auch absolute Abweichungen (daher kommt auch der Name AD-Streuung), weil sie kein Vorzeichen berücksichtigen, sondern lediglich den jeweiligen Wert.

\(\begin{aligned} AD &=\frac{\sum_{i=1}^n(|x_i-\bar{x}|)}{n} \\ &= \frac{|x_1-\bar{x}|+|x_2-\bar{x}|+...+|x_7-\bar{x}|+|x_8-\bar{x}|}{n} \\ & = \frac{|1-4.6|+|2-4.6|+|2-4.6|+|2-4.6|+|5-4.6|+|8-4.6|+}{8}\\ &\frac{+|8-4.6|+|9-4.6|}{ } \\ &= \frac{3,6+2.6+2.6+2.6+0.4+3.4+3.4+4.4}{8} \\ &\approx 2.9 \end{aligned}\)

  1. Range:

\[d_r=x_n-x_1 = 9-1=8\]

  1. IQR:
  • Zwei Teildatensätze bilden, die jeweils die obere bzw. die untere Hälfte des ursprünglichen Datensatzes umfassen:
  • untere Hälfte: 1, 2, 2, 2;
  • obere Hälfte: 5, 8, 8, 9.
  • Die Mediane von diesen Datensätzen berechnen (auch Angelpunkte genannt):
\[Q_1= \frac{x_2+x_3}{2}= \frac{2+2}{2} = 2\] \[Q_3=\frac{x_6+x_7}{2}= \frac{8+8}{2} = 8\] \[IQR=Q_3-Q_1= 8-2= 6\]


Statistische Kennwerte im Kontext

(6) Katzen

In deiner Nachbarschaft fällt dir auf, dass einige Katzen herumstreunen. Dein Freund berichtet, dass in seiner Wohnumgebung keine Tiere zu sehen seien. Nun fragt ihr euch, ob in bestimmten Vierteln Berlins systematisch mehr Katzen herumlaufen als in anderen.

Ihr erhebt die folgende Häufigkeitsverteilung von Katzen im Rahmen einer eintägigen Beobachtungsstudie:

Anzahl beobachteter Katzen
Tempelhof 22
Friedrichshain 15
Adlershof 2
Kreuzberg 56
Zehlendorf 31
Wedding 26

(a) Berechne je einen geeigneten Kennwert für die zentrale Tendenz und die Variabilität.


Lösung

Hier sollten wir zuerst bestimmen, welche Kennwerte in diesem Kontext geeignet sind. Die meisten Werte in der Tabelle liegen ungefähr zwischen 15 und 30. Es gibt jedoch zwei klare Ausreißer: in Adlershof hat man lediglich 2 Katzen beobachtet, in Kreuzberg 56.

Maß der zentralen Tendenz
Deswegen empfiehlt es sich, den Median als Maß der zentralen Tendenz zu nehmen, da er robust gegenüber Ausreißerwerten ist.
Berechnung:

  • Ordnungsstatistik aufstellen: 2, 15, 22, 26, 31, 56
  • Die Anzahl an Werten ist gerade, deswegen wird der Median wie folgt berechnet:

\[Md= \frac{x_3+x_4}{2}=\frac{22+26}{2}=24\]

  • Dieser Wert teilt die Verteilung in zwei gleich große Hälften. In 50% der Berliner Viertel wurden weniger als 24 Katzen beobachtet und in den restlichen 50% der Viertel wurden mehr als 24 Katzen beobachtet.

Maß der Variabilität

Da wir zwei klare Ausreißer in der Verteilung haben, ist es sinnvoll, den Interquartilbereich als Maß der Variabilität zu berechnen (und nicht Varianz oder Standardabweichung, da diese sensitiv gegenüber Ausreißern sind).
Berechnung:

  • Den Datensatz in zwei Hälften teilen:
    untere Hälfte: 2, 15, 22;
    obere Hälfte: 26, 31, 56.

  • Jeder Teildatensatz hat eine ungerade Anzahl an Werten, deswegen berechnen wir die Angelpunkte wie folgt:

\[Q_1=x_{\frac{n+1}{2}}=x_{\frac{3+1}{2}}=x_2= 15\] \[Q_3=x_{\frac{n+1}{2}}=x_{\frac{3+1}{2}}=x_2= 31\]

  • Interquartilbereich berechnen:

\[IQR=Q_1-Q_3=31-15=16\]

  • Die mittleren 50% der Verteilung liegen zwischen 15 und 31. Im Kontext bedeutet dies, dass die mittleren 50% der beobachteten Häufigkeiten von Katzen in Berliner Vierteln liegen zwischen 15 und 31.


(b) Reichen die Ergebnisse dieser Beobachtungsstudie, um die Ausgangsfrage, ob in manchen Bezirken Berlins systematisch mehr Katzen herumlaufen als in anderen, eindeutig zu beantworten?


Lösung

Nein, die Ergebnisse dieser Beobachtungsstudie reichen dafür nicht. Man kann rein deskriptiv feststellen, dass in manchen Bezirken mehr Katzen beobachtet wurden als in anderen Bezirken. Über Systematik hinter diesen Beobachtungen kann man jedoch nicht reden. Es gab nur eine Beobachtung an einem einzigen Tag: vielleicht gibt es an einem anderen Tag besonders viele Katze in Adlershof und in Kreuzberg fast gar keine. Wir brauchen Inferenzstatistik, um nachweisen zu können, dass die beobachteten Unterschiede nicht durch Zufall zustande gekommen sind. Darüber werdet ihr dieses Semester einiges lernen!