Deskriptive Kennwerte und Grafiken

(1) Anwendung statistischer Kennwerte im Kontext: Grafiken

Gegeben sei die Einkommensverteilung aus einer Stadt (1 = niedrig, 9 = hoch).

Welche der folgenden Aussagen ist falsch?

  1. Der Modus beträgt 2.
  2. Der Modus ist kleiner als der Median.
  3. Es ist wahrscheinlicher, auf einen Menschen mit sehr niedrigem als mit sehr hohem Einkommen zu treffen (ceteris paribus).
  4. Will man die Verteilung in zwei gleich große Gruppen mit hohem vs. niedrigem Einkommen einteilen, sollte man am Mittelwert splitten.

Lösung

  1. Der Modus beträgt 2.
    RICHTIG.
  2. Der Modus ist kleiner als der Median.
    RICHTIG. Der Modus ist der häufigste Wert in der Verteilung und beträgt 2. Der Median teilt die Verteilung in zwei gleich große Hälften und liegt somit ein bisschen weiter rechts von dem Modus.
  3. Es ist wahrscheinlicher, auf einen Menschen mit sehr niedrigem als mit sehr hohem Einkommen zu treffen (ceteris paribus).
    RICHTIG. Es gibt viel mehr EinwohnerInnen mit sehr niedrigem Einkommen. Deswegen ist es auch wahrscheinlicher auf einen Menschen mit sehr niedrigem als mit sehr hohem Einkommen zu treffen.
    By the way: ceteris paribus = “unter sonst gleichen Bedingungen”.
    ceteris paribus- Klausel besagt, dass bei der damit gekennzeichneten Aussage nur das erwähnte Merkmal unterschiedlich ist (Einkommen in unserem Fall), alle übrigen (denkbaren) Merkmale oder Bedingungen sind jedoch gleich.

  4. Will man die Verteilung in zwei gleich große Gruppen mit hohem vs. niedrigem Einkommen einteilen, sollte man am Mittelwert splitten.
    FALSCH. Man sollte in dem Fall die Verteilung am Median splitten. Dies ergibt sich aus der Definition des Medians als der Wert, für den gilt, dass 50% aller Werte kleiner oder gleich und 50% aller Werte größer oder gleich sind.


Skizzieren von Grafiken

(2) Kalter Oktober 2.0

Skizziere ein Histogramm für die Übungsaufgabe (2) aus der letzten Woche (Temperaturen im Oktober ohne den Wert durch das kaputte Thermometer). Beachte eine angemessene Skalierung und beschrifte die Achsen eindeutig.
Hier noch einmal die Werte: 6°C, 12°C, 13°C, 8°C, 13°C, 9°C, 7°C, 13°C, 5°C, 12°C, 10°C


Lösung

  • Zuerst werden die Werte geordnet:
    5°C, 6°C, 7°C, 8°C, 9°C, 10°C, 12°C, 12°C, 13°C, 13°C, 13°C

  • Um ein Histogramm zu skizzieren, müssen wir zuerst eine angemessene Skalierung festlegen.

  • Dafür nehmen wir die Sturges-Regel: \[m = 1 + 3.32 \cdot lg(n) = 1+3.32\cdot log_{10}(11) = 4.46\] wo \(m\) Anzahl der Kategorien für eine Stichprobe der Größe \(n\) ist. Wir sollten also 4 oder 5 Kategorien bilden. Wir wählen 4 Kategorien für das Histogramm. Es heißt aber nicht, dass 5 Kategorien festzulegen falsch wäre. Benutzt für die Kategorienanzahl am besten “gesunden Menschenverstand” und euer Auge!

  • Alle Kategorien sollten im Normalfall die gleiche Breite aufweisen.
    Dafür berechnen wir den Range \(d_r= 13-5=8\) und teilen ihn durch die Kategorienanzahl: \(8:4=2\). Die Kategorienbreite sollte 2 sein.

  • Jetzt können wir die Kategorien festlegen.
    Beachte: die runde Klammer “(” bedeutet “exklusive”, die eckige Klammer “[” bedeutet “inklusive”.

  • Wir legen folgende Kategorien fest: [5, 7], (7, 9], (9, 11], (11, 13].
    Dabei haben alle Kategorien die Breite 2, außer der ersten Kategorie [5, 7], die die Breite 3 hat. Es klappt in diesem Fall nicht, immer die gleiche Kategorienbreite beizubehalten. Ihr könnt selbstverständlich auch eine andere Kategorie breiter als andere machen.

  • Jetzt skizzieren wir das Histogramm:


(3) Verschiedene Grafiken skizzieren

Skizziere grob in einer jeweils geeigneten Darstellungsform die folgenden Daten:

  1. Wortanzahl von Ginas Blogposts: 1559, 1239, 996, 1471, 462, 1421, 1343, 1595
  2. Lieblingsgenre (Anteil): SciFi (20%), Comedy (20%), Drama (5%), Romanze (30%), Action (25%)
  3. Eifersuchtsrating bei Singles (s) vs. Verpartnerten (p):
    s: 5, 4, 2, 3
    p: 3, 4, 2, 7, 4, 3, 8

Lösung

(a) Wortanzahl von Ginas Blogposts: 1559, 1239, 996, 1471, 462, 1421, 1343, 1595

  • Zuerst stellen wir die Ordnungsstatistik auf: 462, 996, 1239, 1343, 1421, 1471, 1559, 1595.
  • Es ergibt Sinn, ein Histogramm zu skizzieren, da die quantitative Variable “Wortanzahl” ziemlich viele Werte umfasst, die wir der Übersichtlichkeit halber in Kategorien zusammenfassen.
  • Jetzt berechnen wir die Anzahl an Kategorien. Dafür nehmen wir die Sturges-Regel: \[m =1 + 3.32 \cdot lg(n) = 1+3.32\cdot log_{10}(8) = 4\]
  • Jetzt berechnen wir die Kategorienbreite:
    Dafür berechnen wir den Range \(d_r= 1595-462=1133\) und teilen ihn durch die Kategorienanzahl: \(1133:4=283,2\). Die Kategorienbreite sollte nach dieser Berechnung 283,2 sein.
  • Jedoch dürfen und sollten wir unseren “gesunden Menschenverstand” verwenden bei der Festlegung von Kategorien. Deswegen legen wir folgende Kategorien fest:
    (0,500], (500,1000], (1000, 1500], (1500, 2000].
    So wird das Histogramm viel übersichtlicher.

(b) Lieblingsgenre (Anteil): SciFi (20%), Comedy (20%), Drama (5%), Romanze (30%), Action (25%)

  • Diese Daten haben Nominalskalenniveau. Damit Betrachter keine Rangordnung annehmen, wo es keine gibt ist z.B. ein Kreisdiagramm angemessen. Hier wird nicht beschrieben, wie man es skizziert, da es nicht im Rahmen der Methodenlehre I Vorlesung besprochen wird.
  • Alternativ ist auch ein Balkendiagramm möglich.
    Das ist einfacher zu zeichnen, da man lediglich die jeweiligen Anteile in Prozent auf der \(y\)-Achse bzw. \(x\)-Achse eintragen muss.

(c) Eifersuchtsrating bei Singles (s) vs. Verpartnerten (p):
s: 5, 4, 2, 3
p: 3, 4, 2, 7, 4, 3, 8

  • Hier sollten wir die Singles mit den Verpartnerten hinsichtlich ihres Eifersuchtsratings vergleichen.
  • Wir wollen dabei nicht nur die mittlere Eifersuchtsausprägung darstellen, sondern auch die Streuung von Werten jeweils bei Singles und Verpartnerten.
  • Da es um Ratings geht, liegt ein Ordinalskalenniveau vor.
    D.h. in Bezug auf statistische Kennwerte dürfen wir den Median als Maß der zentralen Tendenz verwenden (und nicht den Mittelwert) und den Interquartilbereich als Maß der Variabilität (und nicht die Varianz).
  • Deswegen können wir den Boxplot als mögliche Darstellungsform wählen.

Umsetzung:

  • Als erstes sollten wir die Ordnungsstatistiken aufstellen:

    • Singles: 2, 3, 4, 5
    • Verpartnerte: 2, 3, 3, 4, 4, 7, 8
  • Im ersten Schritt skizzieren wir die “Box” von dem Boxplot: das sind die mittleren 50% einer Verteilung zwischen dem ersten und dritten Quartil (\(Q_1\) und \(Q_3\)). Dies entspricht dem Interquartilbereich.

    • Dafür berechnen wir die beiden Mediane:

      • Singles: \(Md_s=\frac{3+4}{2}=3.5\)
      • Verpartnerte: \(Md_v=4\)
    • Dann berechnen wir die Angelpunkte für den Interquartilbereich. Diese Zahlen grenzen die jeweilige “Box” ein.

      • Singles: \(Q_1 = \frac{2+3}{2}=2.5\), \(Q_3 = \frac{4+5}{2}=4.5\)
      • Verpartnerte: \(Q_1 = \frac{3+3}{2}=3\), \(Q_1 = \frac{4+7}{2}=5.5\)
    • Der Interquartilbereich beträgt:

      • Singles: \(IQR= Q_3-Q_1=4.5-2.5=2\)
      • Verpartnerte: \(IQR= Q_3-Q_1=5.5-3=2.5\)
  • Im zweiten Schritt berechnen wir die “Whisker”: Das sind Werte an den Rändern der Verteilung oder die Ausreißergrenzen.
    Beachte: Werte über- bzw. unterhalb der Ausreißergrenzen (siehe unten) werden zusätzlich in den Boxplot als einzelne Punkte eingezeichnet. Dies trifft auf dieses Beispiel nicht zu.

    • Obere Ausreißergrenze beträgt \(Q_3+1.5\cdot IQR\). D.h. wir zeichnen den Whisker entweder bis zu diesem Wert oder (wenn kein Wert so groß ist, wie dieser) bis zu dem höchsten Wert unter der oberen Ausreißergrenze.

      • Singles: \(4.5+1.5\cdot2= 7.5\). D.h. wir zeichnen den Whisker bis zu dem Wert 5, da dieser der höchste Wert unter der oberen Ausreißergrenze 7.5 ist.
      • Verpartnerte: \(5.5+1.5\cdot 2.5=9.25\). D.h. wir zeichnen den Whisker bis zu dem Wert 8, da dieser der höchste Wert unter der oberen Ausreißergrenze 11.5 ist.
    • Untere Ausreißergrenze: \(Q_1-1.5\cdot IQR\). D.h. wir zeichnen den Whisker entweder bis zu diesem Wert oder (wenn kein Wert so klein ist, wie dieser) bis zu dem kleinsten Wert über der unteren Ausreißergrenze.

      • Singles: \(2.5-1.5\cdot2= -0.5\). D.h. wir zeichnen den Whisker bis zu dem Wert 2, da dieser der niedrigste Wert über der unteren Ausreißergrenze -0.5 ist.
      • Verpartnerte: \(3-1.5\cdot2.5=-0.75\). D.h. wir zeichnen den Whisker bis zu dem Wert 2, da dieser der niedrigste Wert über der unteren Ausreißergrenze -0.75 ist.


(4) Stem-and-leaf plot

Ihr habt einmal gehört, dass Menschen, die Fleisch essen größer werden als Menschen, die kein Fleisch essen. Deshalb habt ihr in eurem Umfeld die Körpergröße und den Ernährungsstil (nicht vegetarisch oder vegetarisch/vegan) erfragt.

  1. Die Ergebnisse wollt ihr nun in einem stem-and-leaf plot darstellen.

Folgende Werte liegen euch vor:
Fleisch: 1.60, 1.72, 1.75, 1.77, 1.79, 1.81, 1.85, 1.87, 1.89, 1.89, 1.89, 1.92
Kein Fleisch: 1.57, 1.60, 1.61, 1.65, 1.65, 1.65, 1.69, 1.70, 1.78, 1.78, 1.79, 1.89

  1. Könnt ihr das Gerücht nun bestätigen?

Lösung

(a) Diagrammerstellung

Zwei Dinge stellen sich bei den vorliegenden Daten als ungewöhnlich dar: zwei Nachkommastellen und zwei Gruppen.

  • Die Gruppen können jeweils links und rechts des “Stamms” angefügt werden. 
  • Da wir nun primär die Unterschiedlichkeit in der zweiten Nachkommastelle in den “Blättern” darstellen wollen, können wir die Werte als Kommawerte in den “Stamm” schreiben. Zum Beispiel: 1,8 oder 1,9. R nutzt ganzzahlige Werte und verweist zu Beginn auf die Kommaverschiebung (siehe unten). In der Grafik bildet zum Beispiel 17 | 8 den Wert 1,78 ab.

Im Folgenden stem-and-leaf plot wurde der Stamm in lediglich drei Teile zerlegt. Problematisch ist hierbei, dass die Werte nicht eindeutig abgelesen werden können. Liegen nun der Wert 1,55 oder 1,65 vor? Diese Frage ist mit dem vorliegenden Diagramm nicht beantwortbar.

(b) Könnt ihr das Gerücht nun bestätigen?

NEIN. Auch wenn die Datenlage darauf hinweist, können wir aus deskriptiven Daten nicht direkt Aussagen über die Population treffen. Dafür brauchen wir die Inferenzstatistik. Zudem ist hierbei besonders problematisch, dass die Daten erfragt wurden und nicht standardisiert gemessen wurden.


Beschreibung von Grafiken

(5) Verteilungen und Boxplots

Mehrfachauswahl möglich: Wähle die richtigen Aussagen aus.

  1. Bei einer linkssteilen Häufigkeitsverteilung ist der Mittelwert kleiner als der Modus.
  2. Bei einer linksschiefen Häufigkeitsverteilung ist der Modus größer als der Median und größer als der Mittelwert.
  3. Bei einer symmetrischen Häufigkeitsverteilung sind Mittelwert, Median und Modalwert in etwa gleich groß.
  4. Der Boxplot veranschaulicht u.a. die Variabilität der Messwerte.
  5. Vom Boxplot kann man das arithmetische Mittel ablesen.
  6. Die Box eines Boxplots zeigt die mittleren 25% der Verteilung.
  7. An der Box eines Boxplots lässt sich der Abstand der 3 Quartile zueinander erkennen.
  8. Der obere Whisker eines Boxplots geht immer exakt bis zu dem Wert, der sich folgendermaßen ergibt: \(Q3 + 1.5\cdot IQR\).
  9. Ausreißer werden in Boxplots nicht berücksichtigt.

Lösung

  1. Bei einer linkssteilen Häufigkeitsverteilung ist der Mittelwert kleiner als der Modus.
    FALSCH. Bei der linkssteilen Häufigkeitsverteilung ist der Modus kleiner als der Mittelwert.

  2. Bei einer linksschiefen Häufigkeitsverteilung ist der Modus größer als der Median und größer als der Mittelwert.
    RICHTIG.

  3. Bei einer symmetrischen Häufigkeitsverteilung sind Mittelwert, Median und Modalwert in etwa gleich groß.
    RICHTIG.

  4. Der Boxplot veranschaulicht u.a. die Variabilität der Messwerte.
    RICHTIG. Wie wir in der Aufgabe 3c) schon gesehen haben, können wir von der Box des Boxplots den Interquartilbereich ablesen, welcher ein Maß für Variabilität ist.

  5. Vom Boxplot kann man das arithmetische Mittel ablesen.
    FALSCH. Vom Boxplot kann der Median abgelesen werden.

  6. Die Box eines Boxplots zeigt die mittleren 25% der Verteilung.
    FALSCH. Die Box eines Boxplots zeigt die mittleren 50% der Verteilung.

  7. An der Box eines Boxplots lässt sich der Abstand der 3 Quartile zueinander erkennen.
    RICHTIG. Wir können vom Boxplot den Median (zweites Quartil) und das erste und dritte Quartil ablesen. Dadurch erkennen wir auch die Abstände dieser drei Quartile zueinander.

  8. Der obere Whisker eines Boxplots geht immer exakt bis zu dem Wert, der sich folgendermaßen ergibt: \(Q3 + 1.5\cdot IQR\).
    FALSCH. Das kann der Fall sein, muss aber nicht. Wenn der höchste Wert in der Verteilung unter diesem Wert liegt, wird der Whisker nur bis zu diesem höchsten Wert in der Verteilung gezeichnet.

  9. Ausreißer werden in Boxplots nicht berücksichtigt.
    FALSCH. Ausreißer werden in Boxplots als einzelne Punkte angegeben.


(6) Histogramme

Beschreibe die folgenden Histogramme hinsichtlich Symmetrie, Schiefe und Modalität der Verteilung.


Lösung

Diese Verteilung ist asymmetrisch, linkssteil (rechtsschief) und unimodal.



Lösung

Diese Verteilung ist symmetrisch und unimodal.



Lösung

Diese Verteilung ist bimodal und symmetrisch. Allerdings können auch Verteilungen mit zwei Peaks, die nicht die genau gleiche Ausprägung haben, als bimodal beschrieben werden. Dies ist besonders bei kontinuierlichen Daten sinnvoll, da bestimmte Werte selten zwei Mal vorkommen und die Daten sowieso gruppiert werden.


(7) Zusatz: Beschreibung von Grafiken

Gib für die folgenden Grafiken jeweils an:
1. Art der Variable(n) (Skalenniveau, qualitativ vs. quantitativ, diskret vs. stetig, ggf. dichotom vs. polytom)
2. Art der Grafik
3. Symmetrie und Schiefe, Breite und Modalität der Verteilung.


Lösung

In der Grafik wird die Notenverteilung der Testklausur mit der der „richtigen“ Klausur verglichen.
Es handelt sich um zwei Polygone; diese Darstellungsform erfordert mindestens intervallskalierte Daten. Da dieses konkrete Polygon Häufigkeiten abbildet, sind die Daten (\(y\)-Achse) absolutskaliert.
Die \(y\)-Achse bildet Häufigkeiten ab (diskrete quantitative Werte).
Die \(x\)-Achse bildet Noten(punkte) ab (diskrete quantitative Variable).
Die Verteilung ist rechtssteil und unimodal, weder extrem breit- noch schmalgipflig.



Lösung

In der Grafik werden verschiedene Dosismengen bezüglich der „length“ (sollte Zahnlänge bei Mäusen sein) verglichen.
Es handelt sich um drei Boxplots; diese Darstellungsform erfordert (mindestens) ordinalskalierte Daten (Median & IQR!).
Die \(y\)-Achse bildet Länge ab (vermutlich stetige, in jedem Fall quantitative Variable).
Die \(x\)-Achse bildet Dosismengen ab (polytomisierte Variable, eigentlich metrisch). (Diese Variable ist polytomisiert (und nicht polytom), da Dosismengen bei einer genug präzisen Messung eigentlich eine stetige Variable darstellen. In diesem Fall sind aber nur drei Ausprägungen relevant. Diese Variable wäre polytom, wenn es nur diese Ausprägungen in der Natur geben würde.)
Die Verteilung bei 0.5 mg und 2 mg ist relativ symmetrisch. Die Verteilung bei 1 mg ist eher linkssteil (da der Median sich eher in der unteren Hälfte befinden und die Werte in der unteren Hälfte häufiger vorkommen als in der oberen Hälfte). Modalität & Wölbung sind hierüber schwer sichtbar.



Lösung

In der Grafik wird die Nutzungsdauer bei verschiedenen Mobilgeräten verglichen.
Es handelt sich um ein Kreisdiagramm; diese Darstellungsform erfordert nominal- (oder ordinalskalierte) Daten.

Die Winkelgröße bildet die Zeitdauer ab (stetige quantitative Werte).
Die Farben bilden die verschiedenen Geräte ab (polytome Variable).
Die Verteilung ist unimodal (Gipfel: Smartphone-Apps), über Symmetrie lässt sich hier nichts sagen.


Hinweis: diese Grafik zeigt die Körpergröße.


Lösung

In der Grafik wird die Körpergröße bei Basketballer_innen und Kanut_innen verglichen.
Es handelt sich um ein Stängel-Blatt-Diagramm; diese Darstellungsform erfordert mindestens intervallskalierte Daten.

Die äußeren Spalten bilden die Sportart ab (polytome Variable).
Die Zeilen bilden Körpergröße ab (diskretisierte quantitative Variable).
Zusätzlich zu sehen ist die Häufigkeit für jedes Intervall (= Zeile) über die Anzahl der Werte.
Die Verteilungen sind unimodal und relativ symmetrisch bzw. etwas rechtssteil bei Kanut_innen und bei diesen auch schmalgipfliger.



Lösung

In der Grafik wird die Altersverteilung von Männern zwischen verschiedenen Ländern verglichen.
Es handelt sich um ein Stapel-Balkendiagramm; diese Darstellungsform erfordert ordinal- oder nominalskalierte Daten.

Die \(x\)-Achse bildet die Bevölkerungsgröße ab (diskrete quantitative Werte).
Die \(y\)-Achse bildet die Länder ab (polytome Variable).
Die Farben bilden die verschiedenen Altersgruppen ab (diskretisierte Variable).
Die Verteilung ist unimodal, über Symmetrie lässt sich nur bezüglich der Altersgruppen, nicht bezüglich der Länder (nominalskaliert!) etwas sagen.



Lösung

In der Grafik wird die Altersverteilung von Frauen bei der ersten Heirat dargestellt.
Es handelt sich um ein Histogramm; diese Darstellungsform erfordert mindestens intervallskalierte Daten.

Die \(x\)-Achse bildet das Alter ab (stetige quantitative Variable). Die \(y\)-Achse bildet die Häufigkeit ab (diskrete quantitative Variable). Die Verteilung ist bimodal und eher breitgipflig.