Inleiding Programmeren + R

File inlezen

» Start

Gegevens inlezen uit een file, en bewaren in een dataframe


Omdat dataframes nog het meeste weg hebben van een spreadsheet is het de meest voor de hand liggende manier om gegevens in R in te lezen uit een file, zoals bijv een Excel spreadsheet.


Verzamel je gegevens en sla ze op in een Excel spreadsheet. Gebruik de eerste regel van dat spreadsheet om de namen van de variabelen in op te slaan. Let op dat je hele woorden gebruikt als naam. Alle waarnemingen staan op de volgende regels van dat spreadsheet:


gegevens.gif


Save je spreadsheet in text format (bijv 'gegevens.txt'). Het is het handigst als je die file opslaat in de working directory van R. Met het commando dir kun je controleren welke files in je working directory aanwezig zijn:

> dir()

[1] "R Console.txt"   "cohort"   "gegevens.txt"  "gegevens.xls"  "gm.r"         

Type nu de volgende opdracht op de commandoregel van R:

dataset<-read.table("gegevens.txt", header=TRUE)

Je kunt ook het volledige pad naar de file gebruiken:

dataset<-read.table("C:\\directory\\subdirectory\\gegevens.txt", header=T)

Let op de dubbele backslash ( \\ ) die hier gebruikt wordt om de namen van de directories te scheiden. Een enkele backslash wordt in R gebruikt als escape karakter, bijvoorbeeld om  het commando voor nieuwe regel, "\n", of tab, "\t", aan te duiden.

Let ook op het argument TRUE (of eenvoudigweg T) wat er op duidt dat de eerste regel van de in te lezen datamatrix de namen van de variabelen bevat.


De data zullen door de functie read.table worden ingelezen als dataframe met de naam dataset. Je kunt zelf controleren of de variabele dataset bestaat door het commando ls in te gebruiken:

> ls()

Je ziet een lijst van objecten die op dit moment in het geheugen van R aanwezig zijn. 


De functie dim vertelt je uit hoeveel rijen en kolommen het dataframe met de naam dataset bestaat:

> dim(dataset)

[1] 66 6

Met het commando names kun je de namen van de variabelen in het dataframe te weten komen:

> names(dataset)

[1] "lichaam"  "arm"      "pols"     "geslacht" "hand"     "ogen"    

Vervolgens zorg je er met het commando attach voor dat die variabelen ook onder die namen te gebruiken zijn in verdere analyses en bewerkingen:

> attach(dataset)

Je kunt een samenvatting van de inhoud van dataset maken door het commando summary te gebruiken:

> summary(dataset)