Daten einlesen
Letzte Änderung am 11. Januar 2021
In diesem Abschnitt finden wir verschiedene Dateien, die wir zur Übung in R einlesen können. Wie wir dabei vorgehen (d.h. welchen Weg wir nutzen) bleibt ganz uns überlassen. Wenn wir möchten, können wir die Tipps nutzen, um die Aufgaben zu lösen. Zur Überprüfung finden wir mögliche Lösungswege und die eingelesenen Daten.
Wenn wir Hilfe beim Einlesen von Daten brauchen, können wir uns das ausführliche Kapitel dazu anschauen.
Wenn wir Probleme beim Installieren oder Laden von Paketen haben, können wir unseren FAQ-Eintrag dazu anschauen.
Lade dir von openpsychometrics.org die zip-Datei NPI runter. Entpacke diese und lese data.csv in R ein.
Der Datensatz besteht aus 11243 Zeilen und 44 Spalten.
Man kan die Datei z.B. mit read.csv("Dateipfad")
oder mit read_csv("Dateipfad")
(aus dem Paket readr) korrekt einlesen.
Hier siehst du, wie die ersten 6 Zeilen der insgesamt 44 Spalten der Datei.
score | Q1 | Q2 | Q3 | Q4 | Q5 | Q6 | Q7 | Q8 | Q9 | Q10 | Q11 | Q12 | Q13 | Q14 | Q15 | Q16 | Q17 | Q18 | Q19 | Q20 | Q21 | Q22 | Q23 | Q24 | Q25 | Q26 | Q27 | Q28 | Q29 | Q30 | Q31 | Q32 | Q33 | Q34 | Q35 | Q36 | Q37 | Q38 | Q39 | Q40 | elapse | gender | age |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
18 | 2 | 2 | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 1 | 1 | 2 | 1 | 1 | 1 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 1 | 2 | 2 | 2 | 1 | 2 | 1 | 1 | 1 | 2 | 2 | 2 | 1 | 2 | 211 | 1 | 50 |
6 | 2 | 2 | 2 | 1 | 2 | 2 | 1 | 2 | 1 | 1 | 2 | 2 | 2 | 1 | 2 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 2 | 2 | 1 | 2 | 2 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 2 | 2 | 1 | 149 | 1 | 40 |
27 | 1 | 2 | 2 | 1 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 1 | 1 | 2 | 2 | 2 | 2 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 168 | 1 | 28 |
29 | 1 | 1 | 2 | 2 | 2 | 1 | 2 | 1 | 1 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 1 | 2 | 1 | 1 | 1 | 2 | 1 | 2 | 1 | 2 | 2 | 1 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 1 | 230 | 1 | 37 |
6 | 1 | 2 | 1 | 1 | 1 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 1 | 2 | 2 | 1 | 2 | 1 | 2 | 2 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 2 | 0 | 1 | 389 | 1 | 50 |
19 | 1 | 2 | 2 | 1 | 2 | 1 | 1 | 1 | 2 | 2 | 1 | 1 | 1 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 1 | 1 | 1 | 2 | 1 | 1 | 2 | 1 | 2 | 1 | 1 | 2 | 2 | 2 | 2 | 361 | 1 | 27 |
Lade dir von openpsychometrics.org die zip-Datei 16PF runter. Entpacke diese und lese data.csv in R ein.
Der Datensatz besteht aus 49159 Zeilen und 169 Spalten.
Die einzelnen Zellen (d.h. Elemente der Tabelle) sind durch Leerzeichen (white space) getrennt.
Die Information, wie die Zellen getrennt sind (siehe Tipp 2) übergibt man dem Argument sep
.
Man kan die Datei z.B. mit read.csv("Dateipfad", sep="")
oder mit read_table2("Dateipfad")
(aus dem Paket readr) korrekt einlesen.
Hier siehst du die ersten 6 Zeilen der ersten 50 Spalten der Datei.
A1 | A2 | A3 | A4 | A5 | A6 | A7 | A8 | A9 | A10 | B1 | B2 | B3 | B4 | B5 | B6 | B7 | B8 | B9 | B10 | B11 | B12 | B13 | C1 | C2 | C3 | C4 | C5 | C6 | C7 | C8 | C9 | C10 | D1 | D2 | D3 | D4 | D5 | D6 | D7 | D8 | D9 | D10 | E1 | E2 | E3 | E4 | E5 | E6 | E7 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 4 | 2 | 3 | 3 | 2 | 3 | 4 | 4 | 3 | 4 | 4 | 5 | 4 | 5 | 4 | 5 | 4 | 1 | 2 | 1 | 1 | 1 | 4 | 5 | 4 | 4 | 2 | 4 | 4 | 3 | 3 | 2 | 4 | 3 | 5 | 5 | 4 | 4 | 3 | 2 | 4 | 3 | 1 | 1 | 4 | 3 | 4 | 5 | 1 |
4 | 3 | 4 | 3 | 4 | 4 | 4 | 4 | 2 | 2 | 4 | 4 | 4 | 4 | 5 | 4 | 3 | 2 | 3 | 2 | 4 | 1 | 1 | 1 | 2 | 3 | 3 | 2 | 5 | 4 | 4 | 3 | 3 | 4 | 2 | 4 | 4 | 4 | 5 | 4 | 2 | 3 | 1 | 1 | 2 | 4 | 1 | 4 | 2 | 2 |
3 | 4 | 4 | 4 | 4 | 4 | 4 | 3 | 2 | 2 | 4 | 4 | 5 | 5 | 4 | 4 | 4 | 4 | 2 | 2 | 2 | 2 | 2 | 2 | 4 | 4 | 3 | 3 | 3 | 4 | 2 | 3 | 0 | 3 | 3 | 2 | 2 | 3 | 4 | 3 | 1 | 3 | 3 | 1 | 1 | 3 | 1 | 4 | 2 | 3 |
4 | 5 | 4 | 4 | 4 | 3 | 3 | 2 | 2 | 2 | 4 | 2 | 4 | 5 | 4 | 5 | 4 | 4 | 3 | 3 | 3 | 2 | 4 | 3 | 2 | 3 | 4 | 3 | 3 | 2 | 2 | 3 | 4 | 3 | 2 | 3 | 4 | 2 | 3 | 3 | 3 | 4 | 3 | 3 | 2 | 4 | 1 | 4 | 4 | 1 |
4 | 0 | 4 | 4 | 4 | 3 | 5 | 1 | 2 | 4 | 2 | 4 | 4 | 5 | 5 | 4 | 4 | 5 | 4 | 1 | 5 | 1 | 2 | 2 | 4 | 3 | 3 | 4 | 4 | 4 | 4 | 3 | 2 | 5 | 4 | 3 | 4 | 5 | 4 | 1 | 1 | 1 | 3 | 1 | 1 | 3 | 1 | 4 | 2 | 4 |
3 | 5 | 4 | 4 | 4 | 5 | 5 | 1 | 1 | 4 | 4 | 1 | 4 | 5 | 3 | 4 | 3 | 3 | 2 | 2 | 1 | 2 | 2 | 2 | 3 | 4 | 2 | 4 | 2 | 2 | 4 | 3 | 1 | 4 | 4 | 5 | 5 | 4 | 3 | 2 | 2 | 2 | 3 | 3 | 4 | 3 | 2 | 4 | 3 | 2 |
Lade dir die Datei ges7.sav von metheval.uni-jena.de herunter und lese diese in R ein.
Die Endung .sav
kennzeichnet SPSS-Dateien. Um diese einzulesen benötigt man zusätzliche Pakete, weil es in base R keine Funktion dafür gibt.
Der Datensatz besteht aus 503 Zeilen und 1650 Spalten.
Man kan die Datei z.B. mit read.spss("Dateipfad", to.data.frame = TRUE)
(aus dem Paket foreign) oder mit read_sav("Dateipfad")
(aus dem Paket haven) korrekt einlesen.
Hier siehst du die ersten 6 Zeilen der ersten 50 Spalten der Datei.
CODE | T1SEX | T1AGE | T1KNR | T1MZP | T1TIME | T1DAY | T1MON | T1SB | T1ST01 | T1ST02 | T1ST03 | T1ST04 | T1ST05 | T1ST06 | T1ST07 | T1ST08 | T1ST09 | T1ST10 | T1ST11 | T1ST12 | T1ST13 | T1ST14 | T1ST15 | T1ST16 | T1ST17 | T1ST18 | T1ST19 | T1ST20 | T1ST21 | T1ST22 | T1ST23 | T1ST24 | T1ST25 | T1ST26 | T1ST27 | T1ST28 | T1ST29 | T1ST30 | T1ST31 | T1ST32 | T1ST33 | T1ST34 | T1ST35 | T1ST36 | T1ST37 | T1ST38 | T1ST39 | T1ST40 | T1ST41 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
aa02 | 2 | 22 | 1 | 1 | 23 | NA | NA | 1 | 4 | 3 | 1 | 3 | 4 | 4 | 1 | 1 | 4 | 1 | 1 | 1 | 1 | 3 | 2 | 3 | 4 | 4 | 2 | 1 | 2 | 3 | 3 | 3 | 2 | 4 | 4 | 1 | 2 | 4 | 3 | 1 | 5 | 1 | 4 | 1 | 3 | 1 | 1 | 1 | 1 |
aa19 | 1 | 35 | 1 | 1 | 11 | 8 | 5 | 2 | 3 | 3 | 4 | 5 | 2 | 3 | 3 | 4 | 2 | 5 | 5 | 5 | 3 | 2 | 4 | 3 | 2 | 3 | 4 | 5 | 4 | 2 | 1 | 1 | 5 | 2 | 4 | 4 | 3 | 2 | 4 | 5 | 5 | 4 | 1 | 4 | 1 | 5 | 3 | 3 | 4 |
ab17 | 1 | 58 | 1 | 1 | 21 | NA | NA | 1 | 1 | 3 | 4 | 2 | 1 | 2 | 4 | 1 | 1 | 3 | 2 | 4 | 1 | 3 | 3 | 1 | 1 | 3 | 5 | 1 | 4 | 1 | 1 | 3 | 3 | 1 | 2 | 1 | 2 | 4 | 4 | 2 | 1 | 1 | 4 | 1 | 4 | 2 | 2 | 4 | 3 |
ac03 | 2 | 53 | 1 | 1 | 19 | 15 | 5 | 1 | 5 | 4 | 3 | 1 | 3 | 1 | 3 | 1 | 4 | 2 | 1 | 4 | 1 | 5 | 2 | 1 | 4 | 2 | 1 | 1 | 4 | 3 | 3 | 1 | 1 | 3 | 1 | 1 | 1 | 4 | 5 | 1 | 1 | 1 | 3 | 1 | 3 | 3 | 1 | 4 | 3 |
ac09 | 1 | 25 | 1 | 1 | 22 | 3 | 5 | 1 | 5 | 5 | 1 | 1 | 5 | 5 | 1 | 1 | 5 | 1 | 1 | 1 | 1 | 5 | 1 | 1 | 5 | 3 | 1 | 1 | 1 | 5 | 5 | 1 | 1 | 5 | 1 | 1 | 1 | 5 | 3 | 1 | 1 | 1 | 4 | 1 | 5 | 4 | 1 | 4 | 4 |
ad03 | 2 | 23 | 1 | 1 | 16 | 10 | 4 | 1 | 3 | 3 | 2 | 1 | 3 | 3 | 4 | 1 | 4 | 1 | 1 | 1 | 1 | 4 | 1 | 1 | 4 | 3 | 1 | 1 | 1 | 3 | 3 | 1 | 2 | 2 | 2 | 1 | 3 | 2 | 1 | 2 | 1 | 2 | 2 | 1 | 2 | 2 | 3 | 3 | 2 |
Lade dir die Bahnsteigdaten (RNI) von data.deutschebahn.com herunter und lese diese in R ein.
Die Endung .xlsx
kennzeichnet Excel-Dateien. Um diese einzulesen benötigt man zusätzliche Pakete, weil es in base R keine Funktion dafür gibt.
Der Datensatz besteht aus 345 Zeilen und 4 Spalten.
Man kan die Datei z.B. mit read_xlsx("Dateipfad")
(aus dem Paket readxl) oder mit read.xlsx("Dateipfad")
(aus dem Paket openxlsx) korrekt einlesen.
Hier siehst du die ersten 6 Zeilen der insgesamt 4 Spalten der Datei.
bf_nr | Bahnsteig_Nr | Bahnsteig_Hoehe_cm | Nettobahnsteiglaenge_m |
---|---|---|---|
8263 | 1 | 38 | 115 |
8263 | 2 | 38 | 115 |
2616 | 1 | 38 | 115 |
6618 | 1 | 38 | 113 |
6618 | 2 | 38 | 123 |
33 | 1 | 38 | 115 |
Um eine möglichst exakte Replikation der Funktionen zu gewährleisten gibt es im folgenden relevante Angaben zum System (R-Version, Betriebssystem, geladene Pakete mit Angaben zur Version), mit welchem diese Seite erstellt wurde.
R version 4.0.3 (2020-10-10)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04.1 LTS
Matrix products: default
BLAS: /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0
locale:
[1] LC_CTYPE=de_DE.UTF-8 LC_NUMERIC=C
[3] LC_TIME=de_DE.UTF-8 LC_COLLATE=de_DE.UTF-8
[5] LC_MONETARY=de_DE.UTF-8 LC_MESSAGES=de_DE.UTF-8
[7] LC_PAPER=de_DE.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=de_DE.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets methods
[7] base
other attached packages:
[1] readxl_1.3.1 foreign_0.8-79 kableExtra_1.3.1
loaded via a namespace (and not attached):
[1] Rcpp_1.0.5 rstudioapi_0.13 knitr_1.30
[4] xml2_1.3.2 magrittr_2.0.1 downlit_0.2.1
[7] rvest_0.3.6 munsell_0.5.0 colorspace_2.0-0
[10] viridisLite_0.3.0 R6_2.5.0 rlang_0.4.10
[13] stringr_1.4.0 httr_1.4.2 highr_0.8
[16] tools_4.0.3 webshot_0.5.2 xfun_0.20
[19] ellipsis_0.3.1 htmltools_0.5.0 yaml_2.2.1
[22] digest_0.6.27 tibble_3.0.4 lifecycle_0.2.0
[25] crayon_1.3.4 vctrs_0.3.6 distill_1.1
[28] glue_1.4.2 evaluate_0.14 rmarkdown_2.6
[31] stringi_1.5.3 pillar_1.4.7 cellranger_1.1.0
[34] compiler_4.0.3 scales_1.1.1 pkgconfig_2.0.3
Für Informationen zur Interpretation dieses Outputs schaut auch den Abschnitt Replizierbarkeit von Analysen des Kapitels zu Paketen an.