(1) Summenzeichen
Gegeben sind die folgenden Werte
\(x_1\) = 2, \(x_2\) = 3, \(x_3\) = 5 und \(x_4\) = 8;
\(y_1\) = 6, \(y_2\) = 2, \(y_3\) = 4, \(y_4\) = 1 und \(y_5\) = 7.
Berechne folgende Summen:
(2) Berechnung statistischer Kennwerte
Gegeben sind durchschnittliche Temperaturen des Monats Oktober in Berlin.
6°C, 12°C, 13°C, 8°C, 13°C, 9°C, 7°C, 13°C, 5°C, 12°C, 10°C
Berechne bitte die folgenden Kennwerte:
\(\begin{aligned} \bar{x} &=\frac{\sum_{i=1}^n x_i}{n} \\ &=\frac{x_1+x_2+x_3+...+x_9+x_{10}+x_{11}}{n}\\ &=\frac{5+6+7+8+9+10+12+12+13+13+13}{11} \\ &\approx 9.818°C \end{aligned}\)
\(\begin{aligned} s^2 &=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\\ &=\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+...+(x_{10}-\bar{x})^2+(x_{11}-\bar{x})^2}{n-1}\\ &= \frac{(5-9.8)^2+(6-9.8)^2+(7-9.8)^2+(8-9.8)^2+(9-9.8)^2+(10-9.8)^2+}{11-1} \\ &\frac{+(12-9.8)^2+(12-9.8)^2+(13-9.8)^2+(13-9.8)^2+(13-9.8)^2}{}\\ &\approx 8.964°C^2 \end{aligned}\)
(3) Kalter Oktober: Beeinflussung statistischer Kennwerte durch Ausreißer
Zu einem Messzeitpunkt war das Thermometer defekt. An diesem Tag wurde eine Temperatur von -200 °C gemessen:
6°C, 12°C, 13°C, 8°C, 13°C, 9°C, 7°C, 13°C, 5°C, 12°C, 10°C, -200 °C
Berechne erneut die folgenden statistischen Kennwerte und überprüfe, inwiefern sie jeweils durch den Ausreißerwert im Vergleich zur Aufgabe (2) beeinflusst wurden:
Modus: Der Modus (oder Modalwert) einer Verteilung ist derjenige Messwert, der am häufigsten vorkommt.
\[Mo= 13°C\] Der Modus bleibt unverändert im Vergleich zur Aufgabe (2). Dieser statistische Kennwert ist robust (nicht sensitiv) gegenüber Ausreißerwerten.
Median: Der Median einer Verteilung ist der Wert für den gilt, dass 50% aller Werte kleiner oder gleich und 50% aller Werte größer oder gleich sind. D.h. er teilt die Verteilung in zwei gleich große Hälften.
Berechnung:
\(\begin{aligned} Md = \frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}=\frac{x_{\frac{12}{2}}+x_{\frac{12}{2}+1}}{2}=\frac{x_6+x_7}{2}=\frac{9+10}{2}=9.5°C \end{aligned}\)
Der Median verändert sich geringfügig im Vergleich zur Aufgabe (2): \(Md=10°C\) vs. \(Md=9.5°C\). Dieser statistische Kennwert ist robust gegenüber Ausreißerwerten.
Der Mittelwert verändert sich stark im Vergleich zur Aufgabe (2): \(\bar{x}=9.8°C\) vs. \(\bar{x}=-7.7°C\). Dieser statistische Kennwert ist nicht robust bzw. sensitiv gegenüber Ausreißerwerten.
Range: Differenz des größten und des kleinsten beobachteten Wertes.
\[d_r=x_n-x_1=x_{12}-x_1= 13- (-200) =213°C\] Der Range verändert sich stark im Vergleich zur Aufgabe (2): \(d_r=8°C\) vs. \(d_r=213°C\). Dieser statistische Kennwert ist nicht robust bzw. sensitiv gegenüber Ausreißerwerten.
Varianz: durchschnittliche quadrierte Abweichung der Einzelwerte vom arithmetischen Mittel.
\(\begin{aligned} s^2 &=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\\ & = \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+...+(x_{11}-\bar{x})^2+(x_{12}-\bar{x})^2}{n-1} \\ & = \frac{(-200-(-7.7))^2+(5-(-7.7))^2+(6-(-7.7))^2+(7-(-7.7))^2+}{ }\\ &\frac{+(8-(-7.7))^2+(9-(-7.7))^2+(10-(-7.7))^2+(12-(-7.7))^2+}{12-1} \\ &\frac{+(12-(-7.7))^2+(13-(-7.7))^2+(13-(-7.7))^2+(13-(-7.7))^2}{} \\ &\approx 3677°C^2 \end{aligned}\)
Die Varianz verändert sich stark im Vergleich zur Aufgabe (2): \(s^2=9.0°C\) vs. \(s^2=3677°C\). Dieser statistische Kennwert ist nicht robust gegenüber Ausreißerwerten. Im Gegensatz zu Kennwerten mit dem Median oder den Quartilen beziehen Mittelwert und Varianz als mittlere quadrierte Abweichung tatsächlich alle Werte ein (auch extreme Werte), nicht nur die mittigen Werte in der Ordnungsstatistik.
Standardabweichung: (auch Streuung) ist die Quadratwurzel aus der Varianz.
\[SD= \sqrt{s^2}=\sqrt{3677}=60.6°C\] Die Standardabweichung (wie auch die Varianz) verändert sich stark im Vergleich zur Aufgabe (2): \(SD=3.0°C\) vs. \(SD=60.6°C\). Dieser statistische Kennwert ist nicht robust gegenüber Ausreißerwerten durch die Abhängigkeit von der Varianz.
Erstes Quartil: der Wert unter dem 25% der Messwerte liegen.
Berechnung:
(4) Therapie: Berechnung des Interquartilbereichs
Um die Wirksamkeit einer neuen Depressionstherapie zu bestimmen, wurden folgende Differenzen von Depressionswerten – prä- und post-Behandlung – erfasst:
5, 7, 2, 0, 4, 4, 3, 8
Berechne den Interquartilbereich, um einen Überblick über die Daten der Veränderung zu erhalten.
(5) Berechnung statistischer Kennwerte
Für acht Außendienst-Mitarbeitende liegen die folgenden Angaben über die Anzahl der im letzten Quartal erzielten Abschlüsse vor:
2, 2, 5, 1, 9, 8, 2, 8
Berechne die nachfolgenden Kennwerte!
\[Md = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} = \frac{x_{\frac{8}{2}} + x_{\frac{8}{2}+1}}{2} = \frac{x_4 + x_5}{2} = \frac{2 + 5}{2} = 3.5\]
\(\begin{aligned} \bar{x} &=\frac{\sum_{i=1}^n x_i}{n} = \frac{x_1+x_2+...+x_7+x_8}{n} \\ &= \frac{1+2+2+2+5+8+8+9}{8} = \frac{37}{8} \approx 4.6 \end{aligned}\)
\(\begin{aligned} s^2 &=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1}\\ &= \frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+...+(x_{7}-\bar{x})^2+(x_{8}-\bar{x})^2}{n-1} \\ &=\frac{(1-4.6)^2+(2-4.6)^2+(2-4.6)^2+(2-4.6)^2+(5-4.6)^2+(8-4.6)^2+}{8-1}\\ & \frac{+(8-4.6)^2+(9-4.6)^2}{ } \approx 10.8 \end{aligned}\)
\[SD=\sqrt{s^2}=\sqrt{10.8} \approx 3.3\]
\(\begin{aligned} AD &=\frac{\sum_{i=1}^n(|x_i-\bar{x}|)}{n} \\ &= \frac{|x_1-\bar{x}|+|x_2-\bar{x}|+...+|x_7-\bar{x}|+|x_8-\bar{x}|}{n} \\ & = \frac{|1-4.6|+|2-4.6|+|2-4.6|+|2-4.6|+|5-4.6|+|8-4.6|+}{8}\\ &\frac{+|8-4.6|+|9-4.6|}{ } \\ &= \frac{3,6+2.6+2.6+2.6+0.4+3.4+3.4+4.4}{8} \\ &\approx 2.9 \end{aligned}\)
\[d_r=x_n-x_1 = 9-1=8\]
(6) Katzen
In deiner Nachbarschaft fällt dir auf, dass einige Katzen herumstreunen. Dein Freund berichtet, dass in seiner Wohnumgebung keine Tiere zu sehen seien. Nun fragt ihr euch, ob in bestimmten Vierteln Berlins systematisch mehr Katzen herumlaufen als in anderen.
Ihr erhebt die folgende Häufigkeitsverteilung von Katzen im Rahmen einer eintägigen Beobachtungsstudie:
Anzahl beobachteter Katzen | |
---|---|
Tempelhof | 22 |
Friedrichshain | 15 |
Adlershof | 2 |
Kreuzberg | 56 |
Zehlendorf | 31 |
Wedding | 26 |
(a) Berechne je einen geeigneten Kennwert für die zentrale Tendenz und die Variabilität.
Hier sollten wir zuerst bestimmen, welche Kennwerte in diesem Kontext geeignet sind. Die meisten Werte in der Tabelle liegen ungefähr zwischen 15 und 30. Es gibt jedoch zwei klare Ausreißer: in Adlershof hat man lediglich 2 Katzen beobachtet, in Kreuzberg 56.
Maß der zentralen Tendenz
Deswegen empfiehlt es sich, den Median als Maß der zentralen Tendenz zu nehmen, da er robust gegenüber Ausreißerwerten ist.
Berechnung:
\[Md= \frac{x_3+x_4}{2}=\frac{22+26}{2}=24\]
Maß der Variabilität
Da wir zwei klare Ausreißer in der Verteilung haben, ist es sinnvoll, den Interquartilbereich als Maß der Variabilität zu berechnen (und nicht Varianz oder Standardabweichung, da diese sensitiv gegenüber Ausreißern sind).
Berechnung:
Den Datensatz in zwei Hälften teilen:
untere Hälfte: 2, 15, 22;
obere Hälfte: 26, 31, 56.
Jeder Teildatensatz hat eine ungerade Anzahl an Werten, deswegen berechnen wir die Angelpunkte wie folgt:
\[Q_1=x_{\frac{n+1}{2}}=x_{\frac{3+1}{2}}=x_2= 15\] \[Q_3=x_{\frac{n+1}{2}}=x_{\frac{3+1}{2}}=x_2= 31\]
\[IQR=Q_1-Q_3=31-15=16\]
(b) Reichen die Ergebnisse dieser Beobachtungsstudie, um die Ausgangsfrage, ob in manchen Bezirken Berlins systematisch mehr Katzen herumlaufen als in anderen, eindeutig zu beantworten?
Nein, die Ergebnisse dieser Beobachtungsstudie reichen dafür nicht. Man kann rein deskriptiv feststellen, dass in manchen Bezirken mehr Katzen beobachtet wurden als in anderen Bezirken. Über Systematik hinter diesen Beobachtungen kann man jedoch nicht reden. Es gab nur eine Beobachtung an einem einzigen Tag: vielleicht gibt es an einem anderen Tag besonders viele Katze in Adlershof und in Kreuzberg fast gar keine. Wir brauchen Inferenzstatistik, um nachweisen zu können, dass die beobachteten Unterschiede nicht durch Zufall zustande gekommen sind. Darüber werdet ihr dieses Semester einiges lernen!