Zastosowanie pakietu R w statystyce medycznej

LABORATORIUM 3

Instalacja bibliotek

W j�zyku R dodatkowe biblioteki mo�na zainstalowac bezpo�rednio w terminalu przy pomocy komendy install.packages("nazwa_biblioteki"), np.

install.packages("fields")
install.packages("Hmisc")

Wbudowane zbiory danych

Po�r�d zbioru podstawowych bibliotek R znajduje si� pakiet datasets, kt�ry zawiera kilkadziesi�t gotowych do wykorzystania zbior�w danych. Komenda data() zwraca list� tych zbior�w, natomiast wczytanie do pami�ci konkretnych danych odbywa si� poprzez przekazanie nazwy zbioru jako argument funkcji data("nazwa_zbioru").

# Wypisanie zbior�w z pakietu datasets
data()

# Wczytanie zbioru
data("ChickWeight")

# Wypisanie wszystkich zbior�w �e wszystkich dost�pnych pakiet�w
data(package = .packages(all.available = TRUE))

Wczytywanie danych

Wczytywanie danych z konsoli

Za pomoc� funkcji scan() mo�na w pakiecie R wczytywa� dane bezpo�rednio z konsoli. Kolejne elementy oddzielamy spacjami lub klawiszem Enter. Wprowadzanie ko�czymy wci�ni�ciem klawisza Enter w nowej linii. mo�na r�wnie� przekierowa� tak wpisywany strumie� danych do zmiennej.

# Przyk�ad 3.1

> scan()
1: 5 3
3: 7 8 9 10
7: 
Read 6 items
[1]  5  3  7  8  9 10
> x <- scan()
1: 6 3 9 10 23 -9
7: 
Read 6 items
> x
[1]  6  3  9 10 23 -9

Obs�ugiwane jest tak�e wprowadzanie innych typ�w zmiennych poprzez podanie opcji scan(what="...")

# Przyk�ad 3.2

> x <- scan(what="character")
1: a b c g 
5: cos
6: 
Read 5 items
> x
[1] "a"   "b"   "c"   "g"   "cos"

Wczytywanie danych z pliku

Jedn� z najcz�sciej wykorzystywanych funkcji do wczytywania danych z pliku jest read.table(), tworz�ca z wczytanego zbioru ramk� danych. Oznacza to, �e w pliku ka�da linia powinna zawiera� tyle samo p�l, a poza tym ka�da kolumna musi zawiera� ten sam typ danych.

# plik "ramka1.dat"

1 "Patient 1" 2 0.5
20 "Patient 10" 10 0.11111
30 "No name" 1 0.99

# Przyk�ad 3.3

df <- read.table("data/ramka1.dat")
df

##   V1         V2 V3      V4
## 1  1  Patient 1  2 0.50000
## 2 20 Patient 10 10 0.11111
## 3 30    No name  1 0.99000

W przypadku, gdy chcemy nada� nazwy poszczeg�lnym kolumnom ramki, podajemy opcj� read.table(col.names="..."). Spacje w nazwach zostan� zast�pione kropkami.

# Przyk�ad 3.4

df <- read.table("data/ramka1.dat", col.names=c("id", "name", "degree", "clust coeff"))
df

##   id       name degree clust.coeff
## 1  1  Patient 1      2     0.50000
## 2 20 Patient 10     10     0.11111
## 3 30    No name      1     0.99000

df$name

## [1] Patient 1  Patient 10 No name   
## Levels: No name Patient 1 Patient 10

Inn� opcja jest podanie nazw kolumn w samym pliku - je�li w pierwszym wierszu jest o jedno pole mniej ni� w kolejnym, funkcja automatycznie potraktuje pierwsz� lini� jako nazwy kolumn, natomiast pierwsz� kolumn� jako nazwy wierszy. Je�li w pliku podane s� nazwy kolumn, ale nie ma podanych nazw wierszy (czyli pierwszy wiersz zawiera t� sam� liczb� p�l), to nale�y u�y� opcji header=TRUE wewn�trz funkcji read.table(...).

# plik "ramka2.dat"

name degree cluster
1 "Patient 1" 2 0.5
20 "Patient 10" 10 0.11111
30 "No name" 1 0.99

# plik "ramka3.dat"
name age weight
"Kowalski" 38 94.3
"Nowak" 25 67.5
"Malinowski" 49 84.7

# Przyk�ad 3.5

df2 <- read.table("data/ramka2.dat"); df2

##          name degree cluster
## 1   Patient 1      2 0.50000
## 20 Patient 10     10 0.11111
## 30    No name      1 0.99000

colnames(df2)

## [1] "name"    "degree"  "cluster"

rownames(df2)

## [1] "1"  "20" "30"

df3 <- read.table("data/ramka3.dat", header = TRUE); df3

##         name age weight
## 1   Kowalski  38   94.3
## 2      Nowak  25   67.5
## 3 Malinowski  49   84.7

Warto tu zaznaczy�, �e read.table() wczytuje domy�lnie (niestety) �a�cuchy znak�w jako typ wyliczeniowy (factor).

# Przyk�ad 3.6

df$name

## [1] Patient 1  Patient 10 No name   
## Levels: No name Patient 1 Patient 10

typeof(df$name)

## [1] "integer"

Aby temu zaradzi�, nale�y u�y� opcji stringsAsFactors = FALSE. Ponadto, w przypadku gdy znamy adres url pliku, zamiast go pobiera� i wczytywa� lokalnie, mo�na po prostu poda� jego lokalizacj�:

# Przyk�ad 3.7

df2 <- read.table("http://www.if.pw.edu.pl/~paluch/MSR/data/ramka2.dat", stringsAsFactors = FALSE)
df2$name

## [1] "Patient 1"  "Patient 10" "No name"

typeof(df2$name)

## [1] "character"

Wczytywanie z bazy danych

Obs�ug� bazy danych MySQL zajmuje si� biblioteka RMySQL, kt�r� wczytujemy komend� library(RMySQL). Dysponuj�c poni�sz� tabel� w bazie:

# tabela table_test

+----+------------------+--------+
| id | name             | salary |
+----+------------------+--------+
|  1 | Jan Kowalski     |   1500 |
|  2 | Karol Wisniewski |   4000 |
|  3 | Karol Wielki     |   4000 |
+----+------------------+--------+

wykorzystujemy funkcj� dbConnect() do po��czenia si� z baz�, a nastepni� dbSendQuery() do wys�ania zapytania. Wreszcie za pomoc� komendy fetch() pobieramy rezulaty zapytania do zmiennej typu data frame. Wyczyszczenie rezultat�w odbywa si� komend� dbClearResult(), a zamkni�cie po��czenia z baz� danych dbDisconnect().

# Przyk�ad 3.8

library(RMySQL)

## Loading required package: DBI

user <- "test"; pass <- "CSARuser"
con <- dbConnect(MySQL(), host="194.29.174.45", user=user, password=pass, dbname="CSAR")
q <- dbSendQuery(con, "SELECT * FROM table_test;")
data <- fetch(q)
data

##   id             name salary
## 1  1     Jan Kowalski   1500
## 2  2 Karol Wisniewski   4000
## 3  3     Karol Wielki   4000

is.data.frame(data)

## [1] TRUE

dbClearResult(q)

## [1] TRUE

q <- dbSendQuery(con, "SELECT * FROM table_test WHERE salary > 1500;")
data1 <- fetch(q)
data1

##   id             name salary
## 1  2 Karol Wisniewski   4000
## 2  3     Karol Wielki   4000

dbDisconnect(con)

## Warning: Closing open result sets

## [1] TRUE

Zapisywanie danych

W przypadku macierzy oraz ramek danych odpowiednim sposobem zapisu danych jest u�ycie funkcji write.table(). W przypadku, gdy dane maj� by� "czyste" (bez nazw kolumn i wierszy), u�ywamy opcji write.table(col.names=F, row.names=F).

# Przyk�ad 3.9

dff <- data.frame(x=1:3, names=c("Aaaa", "Bbbb", "Ccc"))
dff

##   x names
## 1 1  Aaaa
## 2 2  Bbbb
## 3 3   Ccc

write.table(dff, "test4.dat")
A <- matrix(1:10, 2, 5)
write.table(A, "test5.dat")
write.table(A, "test6.dat", row.names=F, col.names=F)

Istnieje wreszcie najbardziej bezpo�rednia metoda, polegaj�ca na zapisaniu zmiennej do pliku poprzez instrukcj� save(). W ten spos�b nie trzeba si� zastanawia� nad formatem zapisu.

# Przyk�ad 3.10

save(dff, file="df")
ls()

##  [1] "A"     "con"   "data"  "data1" "df"    "df2"   "df3"   "dff"  
##  [9] "pass"  "q"     "user"

rm(dff)
ls()

##  [1] "A"     "con"   "data"  "data1" "df"    "df2"   "df3"   "pass" 
##  [9] "q"     "user"

dff

## Error in eval(expr, envir, enclos): object 'dff' not found

load("df")
dff

##   x names
## 1 1  Aaaa
## 2 2  Bbbb
## 3 3   Ccc

Regresja liniowa

W wielu przypadkach interesuje nas wykonanie analizy regresji opracowywanych danych. W pakiecie R s�u�y do tego funkcja lm(), przy czym specyficzny jest spos�b wprowadzania formu�y - w R wykorzystuje si� symbol tyldy ~ do pokazania zale�no�ci pomi�dzy zmiennymi (np. y ~ x oznacza zale�no�� pomi�dzy x i y. Poni�ej generujemy zaburzon� losowo zale�no�� liniow�:

# Przyk�ad 3.11

x <- 1:20
y <- 2*x-2 + runif(length(x), -3, 3)
x

##  [1]  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20

##  [1]  1.8192515  0.2375289  5.7683671  6.5007705  5.7581109 11.5472238
##  [7] 11.4347324 14.9502152 15.9868067 18.5926516 19.4592244 22.6583204
## [13] 26.4927403 28.4735556 25.4979993 31.2777868 32.9944871 34.2511302
## [19] 38.3612121 36.7394060

plot(x, y)

Wykonujemy regresj� liniow� i wynik procedury zapisujemy do zmiennej xy.lm. Po wywo�aniu funkcji summary() otrzymamy wszystkie interesuj�ce nas warto�ci dotycz�ce regresji. Bezpo�rednie odwo�anie do wsp�czynnik�w otrzymujemy poprzez pole coefficients, przy czym coefficients[1] to punkt przeci�cia, a coefficients[2], to wsp�czynnik kierunkowy. Mo�emy nast�pnie zapisa� wsp�czynniki i wykre�li� prost� dopasowania.

# Przyk�ad 3.12

xy.lm <- lm(y ~ x)
summary(xy.lm)

## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.0347 -0.9477  0.1909  1.2705  2.0012 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -1.77612    0.72463  -2.451   0.0247 *  
## x            2.02059    0.06049  33.403   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.56 on 18 degrees of freedom
## Multiple R-squared:  0.9841, Adjusted R-squared:  0.9832 
## F-statistic:  1116 on 1 and 18 DF,  p-value: < 2.2e-16

xy.lm$coefficients

## (Intercept)           x 
##   -1.776115    2.020590

b <- xy.lm$coefficients[1]
a <- xy.lm$coefficients[2]
plot(x, y, pch=19)
lines(x, a*x+b, col="red", lwd=3)

Podobn� procedur� mo�na przeprowadzi� dla przetransformowanych zmiennych. Tutaj jest to zrandomiznowana zale�no�� \(y \sim x^{-2}\)

# Przyk�ad 3.13

x <- c(1,2,5,10,20,50,100,200,500,1000)
y <- (x*(1+runif(length(x),-0.9,0.9)))^(-2)
plot(x, y, log="xy")

xy.lm <- lm(log(y) ~ log(x))
summary(xy.lm)

## 
## Call:
## lm(formula = log(y) ~ log(x))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.4895 -1.1963 -0.6035  0.9406  3.0430 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.2821     0.9799   1.308    0.227    
## log(x)       -2.2317     0.2389  -9.342 1.41e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.672 on 8 degrees of freedom
## Multiple R-squared:  0.916,  Adjusted R-squared:  0.9055 
## F-statistic: 87.28 on 1 and 8 DF,  p-value: 1.407e-05

b <- exp(xy.lm$coefficients[1])
a <- xy.lm$coefficients[2]
plot(x, y, pch=19, log="xy")
lines(x, b*x^a, col="red", lwd=3)

Binowanie danych

W wielu przypadkach konieczne lub po��dane jest dokonanie "binowania" danych, czyli podzielenia osi X na przedzia�y, a nast�pnie wyliczenia warto�ci �rednich w tych przedzia�ach. W R mo�na do tego wykorzysta� funkcj� stats.bin() z biblioteki fields.

# Przyk�ad 3.14

x <- 1:100
y <- x + runif(length(x), -20, 20)

library(fields)
stats.bin(x, y)

## $centers
##  [1]  5 15 25 35 45 55 65 75 85 95
## 
## $breaks
##  [1]   0  10  20  30  40  50  60  70  80  90 100
## 
## $stats
##                        1         2         3        4        5        6
## N              10.000000 10.000000 10.000000 10.00000 10.00000 10.00000
## mean            6.326604 13.120527 23.586485 29.04415 41.91543 58.92546
## Std.Dev.        8.717828  7.661717 11.593177 12.37924 11.58576 12.28617
## min            -5.813408  4.570535  6.726506 14.70920 24.22519 46.78778
## Q1              1.510255  5.828519 15.902061 20.96305 36.02693 49.77282
## median          3.885198 12.771574 25.228769 27.92984 39.15062 53.98639
## Q3             11.431417 20.626427 29.607007 31.51168 47.77494 69.20096
## max            21.144786 22.214020 44.520810 53.33758 61.72505 79.13718
## missing values  0.000000  0.000000  0.000000  0.00000  0.00000  0.00000
##                       7        8          9        10
## N              10.00000 10.00000  10.000000  10.00000
## mean           65.48497 71.79921  84.331933  94.11269
## Std.Dev.       10.73156 12.46582   8.741132  13.69385
## min            51.16072 53.34288  73.477091  72.46845
## Q1             56.07058 61.54615  77.616545  86.56396
## median         66.84778 70.70682  84.911308  96.72417
## Q3             69.91567 83.98114  88.397075 105.13925
## max            81.92220 85.94273 100.363484 112.04342
## missing values  0.00000  0.00000   0.000000   0.00000

xy.sb <- stats.bin(x, y)
plot(x, y)
with(xy.sb, points(centers, stats[2,], col="red", pch=19, cex=1.5))

Aby mo�na by�o wykona� "przyzwoity" wykres z dopasowaniem liniowym, nale�a�oby umie�ci� na nim tak�e s�upki b��d�w - mo�na to wykona� za pomoc� funkcji errbar() z biblioteki Hmisc.

# Przyk�ad 3.15

library(Hmisc)
x.sb <- xy.sb$centers
y.sb <- xy.sb$stats[2,]
e.sb <- xy.sb$stats[3,]
N.sb <- xy.sb$stats[1,]
xy.lm <- lm(y.sb ~ x.sb)
a.xy <- xy.lm$coefficients[2]
b.xy <- xy.lm$coefficients[1]
errbar(x.sb, y.sb, y.sb+e.sb/sqrt(N.sb), y.sb-e.sb/sqrt(N.sb))
points(x, y, col="gray", pch=19)
lines(x, a.xy*x+b.xy, col="red", lwd=3, lty=3)

W powy�szym przyk�adzie funkcja errbar() jest wywo�ana zamiast funkcji plot(). Mo�liwe jest jednak dodanie s�upk�w b��d�w jako kolejnej warstwy do utworzonego wykresu na takiej samej zasadzie jak u�ywamy funkcji points() i lines(). Trzeba pami�ta� wtedy o parametrze add = TRUE wewn�trz funkcji errbar(). Kolor s�upk�w b��d�w mo�na zmieni� parametrem errbar.col.

# Przyk�ad 3.16

plot(x, y, col="gray", pch=19, xlab = "x", ylab = "f(x)", main = "Binowanie i regresja liniowa")
errbar(x.sb, y.sb, y.sb+e.sb/sqrt(N.sb), y.sb-e.sb/sqrt(N.sb), col="blue", errbar.col="blue", lwd=1.25, add=TRUE)
lines(x, a.xy*x+b.xy, col="red", lwd=3, lty=3)

Dystrybuanta empiryczna

Jednym z pierwszych wykonywanych wykres�w w analizie danych jest por�wnanie danych (a dok�adniej ich rozk�adu) z jakim� konkretnym rozk�adem teoretycznym. Najcz�ciej jest to dystrybuanta - szybkim sposobem na otrzymanie tego skumulowanego rozk�adu dla danych (czyli dystrybuanty empirycznej) jest wywo�anie funkcji ecdf(), a dok�adniej przeci��onej funkcji plot() na takim obiekcie.

# Przyk�ad 3.17

x <- c(1,1,1,2,5,6,3,7,8,10)
plot(ecdf(x))

Przy okazji warto zobaczy�, jak taka dystrybunata zachowuje si� w przypadku wylosowanych danych o r�nym rozmiarze pr�bki. W poni�szym kodzie wykorzystamy funkcj� par() - s�u�y ona do przekazywania dodatkowych parametr�w do funkcji plot(). W tym przypadku stworzymy ramk� 2x2 (mfrow = c(2,2)), kt�ra da nam szans� wstawienia kolejnych paneli na rysunek.

# Przyk�ad 3.18

get.x <- function(x) {
  return(seq(min(x), max(x), length.out = 100))
}

make.plots <- function(N) {
  x <- rnorm(N, 0, 1)
  plot(ecdf(x), main = N)
  xx <- get.x(x)
  lines(xx, pnorm(xx, 0, 1), col = "red", lwd = 2)  
}

par(mfrow = c(2,2))

N <- c(10, 50, 100, 500)

sapply(N, make.plots)

## [[1]]
## NULL
## 
## [[2]]
## NULL
## 
## [[3]]
## NULL
## 
## [[4]]
## NULL

Zadanie punktowane

Wczytaj do pami�ci zbi�r danych ChickWeight i zapoznaj si� z nim, a nast�pnie stw�rz ramk� danych zawieraj�c� wy�acznie te rekordy, dla kt�rych warto�� zmiennej Diet wynosi 1. Wykonaj wykres wagi kur od d�ugo�ci ich �ycia. Zbinuj dane i umie�� na wykresie w postaci czerwonych punkt�w ze s�upkami b��d�w odpowiadaj�cymi niepewno�ci standardowej (standard error). Dla zbinowanych danych wykonaj regresj� liniow� i wykre�l prost� najlepszego dopasowania w kolorze niebieskim. Zapisz do pliku tekstowego ramk� danych zawieraj�c� trzy kolumny: wsp�rz�dne x i y punkt�w oraz niepewno�� standardow�.

##     x        y   std.err
##  1  0 41.40000 0.2224268
##  2  2 47.25000 0.9566251
##  3  4 56.47368 0.9470435
##  4  6 66.78947 1.7796428
##  5  8 79.68421 3.1604765
##  6 10 93.05263 5.1716013