(1) Anwendung statistischer Kennwerte im Kontext: Grafiken
Gegeben sei die Einkommensverteilung aus einer Stadt (1 = niedrig, 9 = hoch).
Welche der folgenden Aussagen ist falsch?
(2) Kalter Oktober 2.0
Skizziere ein Histogramm für die Übungsaufgabe (2) aus der letzten Woche (Temperaturen im Oktober ohne den Wert durch das kaputte Thermometer). Beachte eine angemessene Skalierung und beschrifte die Achsen eindeutig.
Hier noch einmal die Werte: 6°C, 12°C, 13°C, 8°C, 13°C, 9°C, 7°C, 13°C, 5°C, 12°C, 10°C
Zuerst werden die Werte geordnet:
5°C, 6°C, 7°C, 8°C, 9°C, 10°C, 12°C, 12°C, 13°C, 13°C, 13°C
Um ein Histogramm zu skizzieren, müssen wir zuerst eine angemessene Skalierung festlegen.
Dafür nehmen wir die Sturges-Regel: \[m = 1 + 3.32 \cdot lg(n) = 1+3.32\cdot log_{10}(11) = 4.46\] wo \(m\) Anzahl der Kategorien für eine Stichprobe der Größe \(n\) ist. Wir sollten also 4 oder 5 Kategorien bilden. Wir wählen 4 Kategorien für das Histogramm. Es heißt aber nicht, dass 5 Kategorien festzulegen falsch wäre. Benutzt für die Kategorienanzahl am besten “gesunden Menschenverstand” und euer Auge!
Alle Kategorien sollten im Normalfall die gleiche Breite aufweisen.
Dafür berechnen wir den Range \(d_r= 13-5=8\) und teilen ihn durch die Kategorienanzahl: \(8:4=2\). Die Kategorienbreite sollte 2 sein.
Jetzt können wir die Kategorien festlegen.
Beachte: die runde Klammer “(” bedeutet “exklusive”, die eckige Klammer “[” bedeutet “inklusive”.
Wir legen folgende Kategorien fest: [5, 7], (7, 9], (9, 11], (11, 13].
Dabei haben alle Kategorien die Breite 2, außer der ersten Kategorie [5, 7], die die Breite 3 hat. Es klappt in diesem Fall nicht, immer die gleiche Kategorienbreite beizubehalten. Ihr könnt selbstverständlich auch eine andere Kategorie breiter als andere machen.
Jetzt skizzieren wir das Histogramm:
(3) Verschiedene Grafiken skizzieren
Skizziere grob in einer jeweils geeigneten Darstellungsform die folgenden Daten:
(a) Wortanzahl von Ginas Blogposts: 1559, 1239, 996, 1471, 462, 1421, 1343, 1595
(b) Lieblingsgenre (Anteil): SciFi (20%), Comedy (20%), Drama (5%), Romanze (30%), Action (25%)
(c) Eifersuchtsrating bei Singles (s) vs. Verpartnerten (p):
s: 5, 4, 2, 3
p: 3, 4, 2, 7, 4, 3, 8
Umsetzung:
Als erstes sollten wir die Ordnungsstatistiken aufstellen:
Im ersten Schritt skizzieren wir die “Box” von dem Boxplot: das sind die mittleren 50% einer Verteilung zwischen dem ersten und dritten Quartil (\(Q_1\) und \(Q_3\)). Dies entspricht dem Interquartilbereich.
Dafür berechnen wir die beiden Mediane:
Dann berechnen wir die Angelpunkte für den Interquartilbereich. Diese Zahlen grenzen die jeweilige “Box” ein.
Der Interquartilbereich beträgt:
Im zweiten Schritt berechnen wir die “Whisker”: Das sind Werte an den Rändern der Verteilung oder die Ausreißergrenzen.
Beachte: Werte über- bzw. unterhalb der Ausreißergrenzen (siehe unten) werden zusätzlich in den Boxplot als einzelne Punkte eingezeichnet. Dies trifft auf dieses Beispiel nicht zu.
Obere Ausreißergrenze beträgt \(Q_3+1.5\cdot IQR\). D.h. wir zeichnen den Whisker entweder bis zu diesem Wert oder (wenn kein Wert so groß ist, wie dieser) bis zu dem höchsten Wert unter der oberen Ausreißergrenze.
Untere Ausreißergrenze: \(Q_1-1.5\cdot IQR\). D.h. wir zeichnen den Whisker entweder bis zu diesem Wert oder (wenn kein Wert so klein ist, wie dieser) bis zu dem kleinsten Wert über der unteren Ausreißergrenze.
(4) Stem-and-leaf plot
Ihr habt einmal gehört, dass Menschen, die Fleisch essen größer werden als Menschen, die kein Fleisch essen. Deshalb habt ihr in eurem Umfeld die Körpergröße und den Ernährungsstil (nicht vegetarisch oder vegetarisch/vegan) erfragt.
Folgende Werte liegen euch vor:
Fleisch: 1.60, 1.72, 1.75, 1.77, 1.79, 1.81, 1.85, 1.87, 1.89, 1.89, 1.89, 1.92
Kein Fleisch: 1.57, 1.60, 1.61, 1.65, 1.65, 1.65, 1.69, 1.70, 1.78, 1.78, 1.79, 1.89
(a) Diagrammerstellung
Zwei Dinge stellen sich bei den vorliegenden Daten als ungewöhnlich dar: zwei Nachkommastellen und zwei Gruppen.
Im Folgenden stem-and-leaf plot wurde der Stamm in lediglich drei Teile zerlegt. Problematisch ist hierbei, dass die Werte nicht eindeutig abgelesen werden können. Liegen nun der Wert 1,55 oder 1,65 vor? Diese Frage ist mit dem vorliegenden Diagramm nicht beantwortbar.
(b) Könnt ihr das Gerücht nun bestätigen?
NEIN. Auch wenn die Datenlage darauf hinweist, können wir aus deskriptiven Daten nicht direkt Aussagen über die Population treffen. Dafür brauchen wir die Inferenzstatistik. Zudem ist hierbei besonders problematisch, dass die Daten erfragt wurden und nicht standardisiert gemessen wurden.
(5) Verteilungen und Boxplots
Mehrfachauswahl möglich: Wähle die richtigen Aussagen aus.
Bei einer linkssteilen Häufigkeitsverteilung ist der Mittelwert kleiner als der Modus.
FALSCH. Bei der linkssteilen Häufigkeitsverteilung ist der Modus kleiner als der Mittelwert.
Bei einer linksschiefen Häufigkeitsverteilung ist der Modus größer als der Median und größer als der Mittelwert.
RICHTIG.
Bei einer symmetrischen Häufigkeitsverteilung sind Mittelwert, Median und Modalwert in etwa gleich groß.
RICHTIG.
Der Boxplot veranschaulicht u.a. die Variabilität der Messwerte.
RICHTIG. Wie wir in der Aufgabe 3c) schon gesehen haben, können wir von der Box des Boxplots den Interquartilbereich ablesen, welcher ein Maß für Variabilität ist.
Vom Boxplot kann man das arithmetische Mittel ablesen.
FALSCH. Vom Boxplot kann der Median abgelesen werden.
Die Box eines Boxplots zeigt die mittleren 25% der Verteilung.
FALSCH. Die Box eines Boxplots zeigt die mittleren 50% der Verteilung.
An der Box eines Boxplots lässt sich der Abstand der 3 Quartile zueinander erkennen.
RICHTIG. Wir können vom Boxplot den Median (zweites Quartil) und das erste und dritte Quartil ablesen. Dadurch erkennen wir auch die Abstände dieser drei Quartile zueinander.
Der obere Whisker eines Boxplots geht immer exakt bis zu dem Wert, der sich folgendermaßen ergibt: \(Q3 + 1.5\cdot IQR\).
FALSCH. Das kann der Fall sein, muss aber nicht. Wenn der höchste Wert in der Verteilung unter diesem Wert liegt, wird der Whisker nur bis zu diesem höchsten Wert in der Verteilung gezeichnet.
Ausreißer werden in Boxplots nicht berücksichtigt.
FALSCH. Ausreißer werden in Boxplots als einzelne Punkte angegeben.
(6) Histogramme
Beschreibe die folgenden Histogramme hinsichtlich Symmetrie, Schiefe und Modalität der Verteilung.
Diese Verteilung ist asymmetrisch, linkssteil (rechtsschief) und unimodal.
Diese Verteilung ist symmetrisch und unimodal.
Diese Verteilung ist bimodal und symmetrisch. Allerdings können auch Verteilungen mit zwei Peaks, die nicht die genau gleiche Ausprägung haben, als bimodal beschrieben werden. Dies ist besonders bei kontinuierlichen Daten sinnvoll, da bestimmte Werte selten zwei Mal vorkommen und die Daten sowieso gruppiert werden.
(7) Zusatz: Beschreibung von Grafiken
Gib für die folgenden Grafiken jeweils an:
1. Art der Variable(n) (Skalenniveau, qualitativ vs. quantitativ, diskret vs. stetig, ggf. dichotom vs. polytom)
2. Art der Grafik
3. Symmetrie und Schiefe, Breite und Modalität der Verteilung.
In der Grafik wird die Notenverteilung der Testklausur mit der der „richtigen“ Klausur verglichen.
Es handelt sich um zwei Polygone; diese Darstellungsform erfordert mindestens intervallskalierte Daten. Da dieses konkrete Polygon Häufigkeiten abbildet, sind die Daten (\(y\)-Achse) absolutskaliert.
Die \(y\)-Achse bildet Häufigkeiten ab (diskrete quantitative Werte).
Die \(x\)-Achse bildet Noten(punkte) ab (diskrete quantitative Variable).
Die Verteilung ist rechtssteil und unimodal, weder extrem breit- noch schmalgipflig.
In der Grafik werden verschiedene Dosismengen bezüglich der „length“ (sollte Zahnlänge bei Mäusen sein) verglichen.
Es handelt sich um drei Boxplots; diese Darstellungsform erfordert (mindestens) ordinalskalierte Daten (Median & IQR!).
Die \(y\)-Achse bildet Länge ab (vermutlich stetige, in jedem Fall quantitative Variable).
Die \(x\)-Achse bildet Dosismengen ab (polytomisierte Variable, eigentlich metrisch). (Diese Variable ist polytomisiert (und nicht polytom), da Dosismengen bei einer genug präzisen Messung eigentlich eine stetige Variable darstellen. In diesem Fall sind aber nur drei Ausprägungen relevant. Diese Variable wäre polytom, wenn es nur diese Ausprägungen in der Natur geben würde.)
Die Verteilung bei 0.5 mg und 2 mg ist relativ symmetrisch. Die Verteilung bei 1 mg ist eher linkssteil (da der Median sich eher in der unteren Hälfte befinden und die Werte in der unteren Hälfte häufiger vorkommen als in der oberen Hälfte). Modalität & Wölbung sind hierüber schwer sichtbar.
In der Grafik wird die Nutzungsdauer bei verschiedenen Mobilgeräten verglichen.
Es handelt sich um ein Kreisdiagramm; diese Darstellungsform erfordert nominal- (oder ordinalskalierte) Daten.
Die Winkelgröße bildet die Zeitdauer ab (stetige quantitative Werte).
Die Farben bilden die verschiedenen Geräte ab (polytome Variable).
Die Verteilung ist unimodal (Gipfel: Smartphone-Apps), über Symmetrie lässt sich hier nichts sagen.
Hinweis: diese Grafik zeigt die Körpergröße.
In der Grafik wird die Körpergröße bei Basketballer_innen und Kanut_innen verglichen.
Es handelt sich um ein Stängel-Blatt-Diagramm; diese Darstellungsform erfordert mindestens intervallskalierte Daten.
Die äußeren Spalten bilden die Sportart ab (polytome Variable).
Die Zeilen bilden Körpergröße ab (diskretisierte quantitative Variable).
Zusätzlich zu sehen ist die Häufigkeit für jedes Intervall (= Zeile) über die Anzahl der Werte.
Die Verteilungen sind unimodal und relativ symmetrisch bzw. etwas rechtssteil bei Kanut_innen und bei diesen auch schmalgipfliger.
In der Grafik wird die Altersverteilung von Männern zwischen verschiedenen Ländern verglichen.
Es handelt sich um ein Stapel-Balkendiagramm; diese Darstellungsform erfordert ordinal- oder nominalskalierte Daten.
Die \(x\)-Achse bildet die Bevölkerungsgröße ab (diskrete quantitative Werte).
Die \(y\)-Achse bildet die Länder ab (polytome Variable).
Die Farben bilden die verschiedenen Altersgruppen ab (diskretisierte Variable).
Die Verteilung ist unimodal, über Symmetrie lässt sich nur bezüglich der Altersgruppen, nicht bezüglich der Länder (nominalskaliert!) etwas sagen.
In der Grafik wird die Altersverteilung von Frauen bei der ersten Heirat dargestellt.
Es handelt sich um ein Histogramm; diese Darstellungsform erfordert mindestens intervallskalierte Daten.
Die \(x\)-Achse bildet das Alter ab (stetige quantitative Variable). Die \(y\)-Achse bildet die Häufigkeit ab (diskrete quantitative Variable). Die Verteilung ist bimodal und eher breitgipflig.