Übung

Daten einlesen
Letzte Änderung am 11. Januar 2021


In diesem Abschnitt finden wir verschiedene Dateien, die wir zur Übung in R einlesen können. Wie wir dabei vorgehen (d.h. welchen Weg wir nutzen) bleibt ganz uns überlassen. Wenn wir möchten, können wir die Tipps nutzen, um die Aufgaben zu lösen. Zur Überprüfung finden wir mögliche Lösungswege und die eingelesenen Daten.

Wenn wir Hilfe beim Einlesen von Daten brauchen, können wir uns das ausführliche Kapitel dazu anschauen.

Wenn wir Probleme beim Installieren oder Laden von Paketen haben, können wir unseren FAQ-Eintrag dazu anschauen.


Übung 1: .csv

Lade dir von openpsychometrics.org die zip-Datei NPI runter. Entpacke diese und lese data.csv in R ein.

Tipp 1

Der Datensatz besteht aus 11243 Zeilen und 44 Spalten.

Lösung

Man kan die Datei z.B. mit read.csv("Dateipfad") oder mit read_csv("Dateipfad") (aus dem Paket readr) korrekt einlesen.

Hier siehst du, wie die ersten 6 Zeilen der insgesamt 44 Spalten der Datei.

score Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11 Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21 Q22 Q23 Q24 Q25 Q26 Q27 Q28 Q29 Q30 Q31 Q32 Q33 Q34 Q35 Q36 Q37 Q38 Q39 Q40 elapse gender age
18 2 2 2 2 1 2 1 2 2 2 1 1 2 1 1 1 2 1 1 1 1 1 1 2 2 2 1 2 2 2 1 2 1 1 1 2 2 2 1 2 211 1 50
6 2 2 2 1 2 2 1 2 1 1 2 2 2 1 2 2 1 1 2 1 2 2 1 2 2 2 2 1 2 2 2 1 2 2 1 2 2 2 2 1 149 1 40
27 1 2 2 1 2 1 2 1 2 2 2 1 1 1 1 1 2 2 1 1 2 2 2 2 1 2 1 1 2 1 2 2 1 1 2 1 1 2 1 2 168 1 28
29 1 1 2 2 2 1 2 1 1 2 1 1 1 1 1 1 2 2 1 2 1 1 1 2 1 2 1 2 2 1 1 2 1 1 2 1 2 2 1 1 230 1 37
6 1 2 1 1 1 2 1 2 1 2 2 2 2 2 1 1 1 1 1 1 1 2 1 2 2 1 2 1 2 2 2 1 2 2 1 2 2 2 0 1 389 1 50
19 1 2 2 1 2 1 1 1 2 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 2 1 2 1 1 2 2 2 2 361 1 27



Übung 2: .csv

Lade dir von openpsychometrics.org die zip-Datei 16PF runter. Entpacke diese und lese data.csv in R ein.

Tipp 1

Der Datensatz besteht aus 49159 Zeilen und 169 Spalten.


Tipp 2

Die einzelnen Zellen (d.h. Elemente der Tabelle) sind durch Leerzeichen (white space) getrennt.


Tipp 3

Die Information, wie die Zellen getrennt sind (siehe Tipp 2) übergibt man dem Argument sep.

Lösung

Man kan die Datei z.B. mit read.csv("Dateipfad", sep="") oder mit read_table2("Dateipfad") (aus dem Paket readr) korrekt einlesen.

Hier siehst du die ersten 6 Zeilen der ersten 50 Spalten der Datei.

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 B1 B2 B3 B4 B5 B6 B7 B8 B9 B10 B11 B12 B13 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 E1 E2 E3 E4 E5 E6 E7
1 4 2 3 3 2 3 4 4 3 4 4 5 4 5 4 5 4 1 2 1 1 1 4 5 4 4 2 4 4 3 3 2 4 3 5 5 4 4 3 2 4 3 1 1 4 3 4 5 1
4 3 4 3 4 4 4 4 2 2 4 4 4 4 5 4 3 2 3 2 4 1 1 1 2 3 3 2 5 4 4 3 3 4 2 4 4 4 5 4 2 3 1 1 2 4 1 4 2 2
3 4 4 4 4 4 4 3 2 2 4 4 5 5 4 4 4 4 2 2 2 2 2 2 4 4 3 3 3 4 2 3 0 3 3 2 2 3 4 3 1 3 3 1 1 3 1 4 2 3
4 5 4 4 4 3 3 2 2 2 4 2 4 5 4 5 4 4 3 3 3 2 4 3 2 3 4 3 3 2 2 3 4 3 2 3 4 2 3 3 3 4 3 3 2 4 1 4 4 1
4 0 4 4 4 3 5 1 2 4 2 4 4 5 5 4 4 5 4 1 5 1 2 2 4 3 3 4 4 4 4 3 2 5 4 3 4 5 4 1 1 1 3 1 1 3 1 4 2 4
3 5 4 4 4 5 5 1 1 4 4 1 4 5 3 4 3 3 2 2 1 2 2 2 3 4 2 4 2 2 4 3 1 4 4 5 5 4 3 2 2 2 3 3 4 3 2 4 3 2



Übung 3: .sav

Lade dir die Datei ges7.sav von metheval.uni-jena.de herunter und lese diese in R ein.

Tipp 1

Die Endung .sav kennzeichnet SPSS-Dateien. Um diese einzulesen benötigt man zusätzliche Pakete, weil es in base R keine Funktion dafür gibt.


Tipp 2

Der Datensatz besteht aus 503 Zeilen und 1650 Spalten.

Lösung

Man kan die Datei z.B. mit read.spss("Dateipfad", to.data.frame = TRUE) (aus dem Paket foreign) oder mit read_sav("Dateipfad") (aus dem Paket haven) korrekt einlesen.

Hier siehst du die ersten 6 Zeilen der ersten 50 Spalten der Datei.

CODE T1SEX T1AGE T1KNR T1MZP T1TIME T1DAY T1MON T1SB T1ST01 T1ST02 T1ST03 T1ST04 T1ST05 T1ST06 T1ST07 T1ST08 T1ST09 T1ST10 T1ST11 T1ST12 T1ST13 T1ST14 T1ST15 T1ST16 T1ST17 T1ST18 T1ST19 T1ST20 T1ST21 T1ST22 T1ST23 T1ST24 T1ST25 T1ST26 T1ST27 T1ST28 T1ST29 T1ST30 T1ST31 T1ST32 T1ST33 T1ST34 T1ST35 T1ST36 T1ST37 T1ST38 T1ST39 T1ST40 T1ST41
aa02 2 22 1 1 23 NA NA 1 4 3 1 3 4 4 1 1 4 1 1 1 1 3 2 3 4 4 2 1 2 3 3 3 2 4 4 1 2 4 3 1 5 1 4 1 3 1 1 1 1
aa19 1 35 1 1 11 8 5 2 3 3 4 5 2 3 3 4 2 5 5 5 3 2 4 3 2 3 4 5 4 2 1 1 5 2 4 4 3 2 4 5 5 4 1 4 1 5 3 3 4
ab17 1 58 1 1 21 NA NA 1 1 3 4 2 1 2 4 1 1 3 2 4 1 3 3 1 1 3 5 1 4 1 1 3 3 1 2 1 2 4 4 2 1 1 4 1 4 2 2 4 3
ac03 2 53 1 1 19 15 5 1 5 4 3 1 3 1 3 1 4 2 1 4 1 5 2 1 4 2 1 1 4 3 3 1 1 3 1 1 1 4 5 1 1 1 3 1 3 3 1 4 3
ac09 1 25 1 1 22 3 5 1 5 5 1 1 5 5 1 1 5 1 1 1 1 5 1 1 5 3 1 1 1 5 5 1 1 5 1 1 1 5 3 1 1 1 4 1 5 4 1 4 4
ad03 2 23 1 1 16 10 4 1 3 3 2 1 3 3 4 1 4 1 1 1 1 4 1 1 4 3 1 1 1 3 3 1 2 2 2 1 3 2 1 2 1 2 2 1 2 2 3 3 2



Übung 4: .xlsx

Lade dir die Bahnsteigdaten (RNI) von data.deutschebahn.com herunter und lese diese in R ein.

Tipp 1

Die Endung .xlsx kennzeichnet Excel-Dateien. Um diese einzulesen benötigt man zusätzliche Pakete, weil es in base R keine Funktion dafür gibt.


Tipp 2

Der Datensatz besteht aus 345 Zeilen und 4 Spalten.

Lösung

Man kan die Datei z.B. mit read_xlsx("Dateipfad") (aus dem Paket readxl) oder mit read.xlsx("Dateipfad") (aus dem Paket openxlsx) korrekt einlesen.

Hier siehst du die ersten 6 Zeilen der insgesamt 4 Spalten der Datei.

bf_nr Bahnsteig_Nr Bahnsteig_Hoehe_cm Nettobahnsteiglaenge_m
8263 1 38 115
8263 2 38 115
2616 1 38 115
6618 1 38 113
6618 2 38 123
33 1 38 115



Um eine möglichst exakte Replikation der Funktionen zu gewährleisten gibt es im folgenden relevante Angaben zum System (R-Version, Betriebssystem, geladene Pakete mit Angaben zur Version), mit welchem diese Seite erstellt wurde.

R version 4.0.3 (2020-10-10)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Ubuntu 20.04.1 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0

locale:
 [1] LC_CTYPE=de_DE.UTF-8       LC_NUMERIC=C              
 [3] LC_TIME=de_DE.UTF-8        LC_COLLATE=de_DE.UTF-8    
 [5] LC_MONETARY=de_DE.UTF-8    LC_MESSAGES=de_DE.UTF-8   
 [7] LC_PAPER=de_DE.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C            
[11] LC_MEASUREMENT=de_DE.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods  
[7] base     

other attached packages:
[1] readxl_1.3.1     foreign_0.8-79   kableExtra_1.3.1

loaded via a namespace (and not attached):
 [1] Rcpp_1.0.5        rstudioapi_0.13   knitr_1.30       
 [4] xml2_1.3.2        magrittr_2.0.1    downlit_0.2.1    
 [7] rvest_0.3.6       munsell_0.5.0     colorspace_2.0-0 
[10] viridisLite_0.3.0 R6_2.5.0          rlang_0.4.10     
[13] stringr_1.4.0     httr_1.4.2        highr_0.8        
[16] tools_4.0.3       webshot_0.5.2     xfun_0.20        
[19] ellipsis_0.3.1    htmltools_0.5.0   yaml_2.2.1       
[22] digest_0.6.27     tibble_3.0.4      lifecycle_0.2.0  
[25] crayon_1.3.4      vctrs_0.3.6       distill_1.1      
[28] glue_1.4.2        evaluate_0.14     rmarkdown_2.6    
[31] stringi_1.5.3     pillar_1.4.7      cellranger_1.1.0 
[34] compiler_4.0.3    scales_1.1.1      pkgconfig_2.0.3  

Für Informationen zur Interpretation dieses Outputs schaut auch den Abschnitt Replizierbarkeit von Analysen des Kapitels zu Paketen an.

jump-to-top

feedback-r-lernplattform