FAQ

Was mache ich mit fehlenden Werten in meinem Datensatz?

Du hast fehlende Werte (sog. Missings) in deinem Datensatz und weißt nicht, wie du damit umgehen sollst? In diesem Abschnitt bekommst du eine kurze Antwort darauf.

Wenn dieser Abschnitt dir nicht ausreicht, oder du mehr zu fehlenden Daten wissen möchtest, schau dir unser Kapitel dazu an.

Hinweis: Wenn du Variablen, die Missings enthalten, für eine Analyse nutzt, denke immer daran, dass sich damit auch die Stichprobengröße \(N\) für diese spezifische Auswertung ändert.

Erkennt R deine Missings?

Generell werden Missings in verschiedenen Anwendungen (z.B. Unipark, SPSS) häufig anders kodiert als in R. In R werden fehlende Werte mit NA gekennzeichnet. Wenn das in deinem Datensatz nicht (einheitlich) so ist, musst du die Missings erst auf NA kodieren, damit R diese auch als Missings erkennt.

Wenn du nicht weißt, ob die Missings in deinem Datensatz auch anders kodiert sein könnten, kannst du das mit einer Häufigkeitstabelle der einzelnen Ausprägung der Spalten (d.h. Variablen) überprüfen. Dazu musst du nur wissen, welche möglichen Ausprägungen es geben kann (z.B. wenn du eine Intervallskala von 1-5 hast dann sollte es nur diese Werte geben), um Abweichungen davon festzustellen.

table(daten$Var_3, useNA='ifany')

Wenn die Missings z.B. mit 99 kodiert sind, können wir sie folgendermaßen auf NA setzen:

daten[daten == 99] <- NA

Anstatt daten gibst du den Namen deines Datensatzes ein.

Wie können Funktionen mit Missings umgehen?

Bei vielen Funktionen muss man festlegen, wie diese mit Missings umgehen sollen. Exemplarisch schauen wir uns das einmal an zwei Funktionen an.

Wenn du wissen möchtest, wie du in anderen Funktionen mit Missings umgehen kannst, schau dir entweder die R-Dokumentation dazu an (unteres rechtes Panel bei Help oder alternativ z.B. ?mean) oder suche im Internet. Hier findest du unser Kapitel, indem erklärt wird, wie die R-Dokumentation aufgebaut ist und wie du Suchmaschinen nutzen kannst.

Bei der Berechnung des Mittelwerts eines Vektors kann man Missings rausschmeißen, indem man das Argument na.rm nutzt:
mean(daten, na.rm=TRUE)

Bei der Regressionsrechnung ist voreingestellt (“defaulted”), dass Personen mit mindestens einem Missing auf irgendeiner Variable aus der Rechnung ausgeschlossen werden (“listwise deletion”; manchmal auch “casewise deletion” genannt). Andere Optionen kann man mit dem Argument na.action festlegen. Um zu sehen, welche anderen Optionen es gibt, schaue in der Hilfe nach z.B. mit ?lm.