Zastosowanie pakietu R w statystyce medycznej

LABORATORIUM 1

Podstawy

Terminal

Sesj� R uruchamiamy w terminalu wpisuj�c komend� R.
Zamkni�cie sesji nast�puje po wpis�niu komendy quit() lub q().
Wykonanie komendy nast�puje po wci�ni�ciu klawisza Enter.
Kilka komend w jednej linii nale�y rozdzieli� �rednikami.

2*pi;cos(1)

## [1] 6.283185

## [1] 0.5403023

Istniej� a� trzy sposoby przypisania: =, <-, <<-
- <- ma najwy�szy priorytet i jest standardowym operatorem przypisania w R
- <<- mo�e byc wykorzystany w ciele funkcji je�li chcemy wewnatrz funkcji nadac warto�� zmiennej globalnej
- = s�u�y do podawania parametr�w funkcji

a <- 5
2 -> b
a;b

## [1] 5

## [1] 2

b = a <- 10
a;b

## [1] 10

## [1] 10

inkrementuj <- function(x){
  x <<- x+1
}
x <- 1
inkrementuj(x)
x

## [1] 2

rnorm(n=3,mean=2,sd=0.5)

## [1] 3.158013 2.044482 2.094134

Aby uruchomi� skrypt w trybie tekstowym nale�y wywo�a� komend� source() ze sciezk� do skryptu.

RStudio

Komentarz w skrypcie rozpoczyna si� znakiem #.
Aby uruchomi� skrypt otwarty w RStudio nale�y wcisn�c przycisk Source.
Mo�na uruchomi� wybrany fragment kodu ze skryptu zaznaczaj�c go i wciskaj�c kombinacje klawiszy Ctrl+Enter lub przycisk Run.
Funkcje print() i cat() s�u�� do wypisywania warto�ci zmiennych na ekran.

x <- 2
y <- x+1
z <- x^2

cat("y =",y,"\n")

## y = 3

print(z)

## [1] 4

Typy danych

Atomowe

Typ liczbowy `numeric`

Liczby rzeczywiste s� domy�lnym typem liczbowym w R.

a <- 10
a; typeof(a)

## [1] 10

## [1] "double"

Aby zapisa� liczb� calkowit� nale�y na ko�cu liczby doda� liter� L.

b <- 10L
typeof(b)

## [1] "integer"

typeof(b+1)

## [1] "double"

typeof(b+1L)

## [1] "integer"

Liczb� zespolon� zapisuje si� z u�yciem formatu a+bi.

d <- 2+3i
d; typeof(d)

## [1] 2+3i

## [1] "complex"

sqrt(-1)

## Warning in sqrt(-1): NaNs produced

## [1] NaN

sqrt(-1+0i)

## [1] 0+1i

Dozwolona jest notacja naukowa.

a <- 2.3e3
a

## [1] 2300

Specjalnymi warto�ciami s� NaN ("nie liczba") oraz nieskonczono�ci Inf, -Inf

1/0; exp(-Inf); 0 * Inf

## [1] Inf

## [1] 0

## [1] NaN

Typ znakowy `character`

Napisy (�ancuchy znak�w) rozpoczynaj� si� i koncz� znakiem ' lub ".

napis <- "Ala ma kota"
napis

## [1] "Ala ma kota"

napis <- 'Pakiet R'
napis; typeof(napis)

## [1] "Pakiet R"

## [1] "character"

Do �aczenia napis�w s�u�y funkcja paste()

slowo1 <- "I"
slowo2 <- "like"
slowo3 <- "trains"
paste(slowo1,slowo2,slowo3,sep=" ")

## [1] "I like trains"

Zmienna znakowa character NIE jest wektorem znak�w.

Typ logiczny `boolean`

Reprezentuje logiczn� prawd� (TRUE lub T) i fa�sz (FALSE lub F).
W wyra�eniu arytmetycznym jest automatycznie konwertowany na liczby 1 i 0.

1 == 7

## [1] FALSE

z <- 1 == 1
z; typeof(z)

## [1] TRUE

## [1] "logical"

y <- (1 == 1) + 1
y; typeof(y)

## [1] 2

## [1] "double"

Struktury danych

Wektor

Uporz�dkowany zbi�r obiekt�w tego samego typu (wyj�tek NA - brak warto�ci).
Podstawowy typ w j�zyku R: operacje wykonywane na wektorach s� najbardziej efektywne.
Funkcja c() tworzy wektor z pojedynczych element�w tego samego typu.

v <- c(-1,2,5)
v

## [1] -1  2  5

Ci�gi arytmetyczne mo�na �atwo generowa� funkcj� seq() lub zwyczajnym dwukropkiem.

u <- 1:10
u

##  [1]  1  2  3  4  5  6  7  8  9 10

w <- seq(-10,10,2)
w

##  [1] -10  -8  -6  -4  -2   0   2   4   6   8  10

Funkcja rep() s�u�y do generowania wektor�w z powt�rzeniami.

x <- rep(TRUE, 5)
x

## [1] TRUE TRUE TRUE TRUE TRUE

y <- rep(c(1,2,3),3)
y

## [1] 1 2 3 1 2 3 1 2 3

z <- rep(c(1,2,3), each=3)
z

## [1] 1 1 1 2 2 2 3 3 3

Typ wyliczeniowy (factor)

Przydatny do przechowywania wektor�w warto�ci wystepuj�cych na kilku poziomach.
S�u�y do reprezentacji danych kategorycznych i jako�ciowych.
Konstruktor factor().
Funkcja levels() wypisuje poziomy

wyksztalcenie <- factor(c("podstawowe", "wyzs�e", "srednie", "srednie", "wyzs�e"))
wyksztalcenie

## [1] podstawowe wyzs�e     srednie    srednie    wyzs�e    
## Levels: podstawowe srednie wyzs�e

levels(wyksztalcenie)

## [1] "podstawowe" "srednie"    "wyzs�e"

Zajmuje mniej pami�ci ni� odpowiadaj�cy mu typ znakowy - przechowywany jest jako kolejne liczby naturalne, ale nie mo�na na nich wykonywa� operacji arytmetycznych.

typeof(wyksztalcenie)

## [1] "integer"

wyksztalcenie+1

## Warning in Ops.factor(wyksztalcenie, 1): '+' not meaningful for factors

## [1] NA NA NA NA NA

Lista

Uprz�dkowany zbi�r obiekt�w (np. wektor�w), kt�re mog� by� r�znych typ�w i dowolnej d�ugo�ci.
Konstruktor list().

L <- list(inty = 1:10, x = 2.71, tekst = c("a", "b", "c"), log = rep(T, 5))
L

## $inty
##  [1]  1  2  3  4  5  6  7  8  9 10
## 
## $x
## [1] 2.71
## 
## $tekst
## [1] "a" "b" "c"
## 
## $log
## [1] TRUE TRUE TRUE TRUE TRUE

Macierz

Konstruktorem macierzy 2D jest matrix().

A <- matrix(0, 2, 3); A

##      [,1] [,2] [,3]
## [1,]    0    0    0
## [2,]    0    0    0

A <- matrix(1:8, 4, 2); A

##      [,1] [,2]
## [1,]    1    5
## [2,]    2    6
## [3,]    3    7
## [4,]    4    8

A <- matrix(c("a", "b", "c", "d"),2 , 2); A

##      [,1] [,2]
## [1,] "a"  "c" 
## [2,] "b"  "d"

Macierz jest domy�lnie wype�niana kolumnowo, ale mo�na to zmienic ustawiaj�c warto�� parametru byrow=TRUE.

A <- matrix(1:8, 4, 2, byrow = TRUE); A

##      [,1] [,2]
## [1,]    1    2
## [2,]    3    4
## [3,]    5    6
## [4,]    7    8

W przypadku wielowymiarowych macierzy (D > 2) korzystamy z konstruktora array()

A <- array(1:27, dim = c(3,3,3)); A

## , , 1
## 
##      [,1] [,2] [,3]
## [1,]    1    4    7
## [2,]    2    5    8
## [3,]    3    6    9
## 
## , , 2
## 
##      [,1] [,2] [,3]
## [1,]   10   13   16
## [2,]   11   14   17
## [3,]   12   15   18
## 
## , , 3
## 
##      [,1] [,2] [,3]
## [1,]   19   22   25
## [2,]   20   23   26
## [3,]   21   24   27

Ramka danych (data frame)

lista wektor�w o tej samej d�ugo�ci,
elementy w ka�dej kolumnie s� tego samego typu,
elementy w r�nych kolumnach mog� by� r�nych typ�w,
bardzo cz�sto wykorzystywana jako podstawowy typ w r�znych pakietach R (np. ggplot2),
konstruktor data.frame()

ramka <- data.frame(liczby = 5:1, logiczne = T); ramka

##   liczby logiczne
## 1      5     TRUE
## 2      4     TRUE
## 3      3     TRUE
## 4      2     TRUE
## 5      1     TRUE

Indeksowanie w R

W j�zyku R wszystkie struktury danych (wektory, macierze, listy itp.) indeksuje si� od liczby 1 (a nie zero jak w C, C++ czy Javie).
Mo�liwe jest wypisywanie poszczeg�lnych element�w wektora korzystaj�c z funkcji c() lub dwukropka.
Poprzedzenie indeksu znakiem minus oznacza, �e nie chcemy wypisywa� element�w wektora pod tym indeksem.

w <- 11:20
w[1:5]

## [1] 11 12 13 14 15

w[-1]

## [1] 12 13 14 15 16 17 18 19 20

w[c(1:4,8)]

## [1] 11 12 13 14 18

w[c(-2,-5)]

## [1] 11 13 14 16 17 18 19 20

W przypadku macierzy powy�sze metody trzeba odnie�� do wszystkich wymiar�w macierzy posluguj�c si� przecinkiem.

M <- matrix(1:9, 3, 3)
M

##      [,1] [,2] [,3]
## [1,]    1    4    7
## [2,]    2    5    8
## [3,]    3    6    9

# Pierwszy wiersz
M[1,]

## [1] 1 4 7

# Pierwsza kolumna
M[,1]

## [1] 1 2 3

# Dwa pierwsze wiers�e
M[1:2,]

##      [,1] [,2] [,3]
## [1,]    1    4    7
## [2,]    2    5    8

# Bez trzeciej kolumny
M[,-3]

##      [,1] [,2]
## [1,]    1    4
## [2,]    2    5
## [3,]    3    6

# Bez drugiego wiersza i drugiej kolumny
M[-2,-2]

##      [,1] [,2]
## [1,]    1    7
## [2,]    3    9

Listy mo�na indeksowac dwojako - zar�wno za pomoc� indeks�w numerycznych podawanych w nawiasach kwadratowych jak i za pomoc� nazw poszczeg�lnych zmiennych przy u�yciu operatora $ tzn. nazwa_listy$nazwa_zmiennej. Warto pami�ta�, �e pojedynczy nawias kwadratowy daje jedynie przeci�cie listy (tzn. wynik jest list�) i aby otrzyma� ten sam wynik, co w przypadku operatora $, nale�y u�y� nawiasu podw�jnego [[...]].

L <- list(inty = 1:10, x = 2.71, tekst = c("a", "b", "c"), log = rep(T, 5))
L$inty

##  [1]  1  2  3  4  5  6  7  8  9 10

L[1]

## $inty
##  [1]  1  2  3  4  5  6  7  8  9 10

L[[1]]

##  [1]  1  2  3  4  5  6  7  8  9 10

Ramki danych indeksuje si� tak samo jak listy - mo�emy u�ywa� zar�wno indeksowania tak, jak w macierzy albo za pomoc� nazw poszczeg�lnych kolumn.

ramka <- data.frame(liczby = 5:1, logiczne = T)
ramka

##   liczby logiczne
## 1      5     TRUE
## 2      4     TRUE
## 3      3     TRUE
## 4      2     TRUE
## 5      1     TRUE

# Pierws�e trzy wiers�e
ramka[1:3,]

##   liczby logiczne
## 1      5     TRUE
## 2      4     TRUE
## 3      3     TRUE

# Druga kolumna
ramka[,2]

## [1] TRUE TRUE TRUE TRUE TRUE

# Pierwsza kolumna
ramka$liczby

## [1] 5 4 3 2 1

Mo�liwe jest r�wnie� indeksowanie wyniku indeksowania.

w[6:10][1:2]

## [1] 16 17

L[[3]][2:3]

## [1] "b" "c"

ramka$liczby[1:3]

## [1] 5 4 3

Operacje na wektorach i macierzach

Zdefiniujmy nast�puj�ce wektory w, u i macierze A, B:

w <- c(1,2)
v <- c(3,4)
A <- matrix(1:4, 2, 2)
B <- matrix(4:1, 2, 2)
w; v; A; B

## [1] 1 2

## [1] 3 4

##      [,1] [,2]
## [1,]    1    3
## [2,]    2    4

##      [,1] [,2]
## [1,]    4    2
## [2,]    3    1

W pakiecie R, podobnie zreszt� jak w innych j�zykach skryptowych (np. Matlab), wiekszo�� funkcji jest przeci��ona �e wzgledu na operacje wykonywane na wektorach i macierzach. Innymi s�owy, operacje takie s� wykonywane po kolejnych elementach wektora (lub macierzy) i zwracane jako podobny obiekt.

Mo�emy wykonywa� nast�puj�ce operacje na wektorach

dodawanie wektor�w, np. w + v,
dodawanie liczby do wektora, np. w + 5,
mo�enie wektora przez liczb�, np. 2 * w,
obliczanie funkcji wyk�adniczej, np. exp(w),
iloczyn skalarny wektor�w w %*% v.

w + v

## [1] 4 6

5 + w

## [1] 6 7

2 * w

## [1] 2 4

sin(w)

## [1] 0.8414710 0.9092974

w %*% v

##      [,1]
## [1,]   11

Podobna sytuacja dotyczy macierzy. Dodatkowo mamy do dyspozycji inne, bardzo przydatne funkcje obs�ugi macierzy:

dodawanie macierzy A + B,
dodawanie liczby do macierzy 1 + A,
mo�enie macierzy przez liczb� 2 * A,
transpozycja macierzy t(A),
wyznacznik macierzy det(A),
iloczyn macierzy A %*% B,
warto�ci i wektory wlasne macierzy eigen(A).

A + B

##      [,1] [,2]
## [1,]    5    5
## [2,]    5    5

1 + A

##      [,1] [,2]
## [1,]    2    4
## [2,]    3    5

2 * A

##      [,1] [,2]
## [1,]    2    6
## [2,]    4    8

t(A)

##      [,1] [,2]
## [1,]    1    2
## [2,]    3    4

det(A)

## [1] -2

A %*% B

##      [,1] [,2]
## [1,]   13    5
## [2,]   20    8

eigen(A)

## eigen() decomposition
## $values
## [1]  5.3722813 -0.3722813
## 
## $vectors
##            [,1]       [,2]
## [1,] -0.5657675 -0.9093767
## [2,] -0.8245648  0.4159736

Wybrane podstawowe funkcje

Nast�puj�ce funkcje s� bardzo przydatne podczas przetwarzania danych w formacie wektorowym:

liczba element�w wektora (dlugo��)

x <- c(2,-1,0,3,-5)
length(x)

## [1] 5

�rednia element�w wektora

mean(x)

## [1] -0.2

odchylenie standardowe element�w wektora

sd(x)

## [1] 3.114482

odwr�cenie kolejno�ci element�w wektora

rev(x)

## [1] -5  3  0 -1  2

suma wszystkich element�w wektora

sum(x)

## [1] -1

suma skumulowana wektora

cumsum(x)

## [1]  2  1  1  4 -1

iloczyn element�w wektora

prod(x)

## [1] 0

skumulowany iloczyn element�w wektora

cumprod(x)

## [1]  2 -2  0  0  0

warto�� minimalnego elementu wektora

min(x)

## [1] -5

indeks minimalnego elementu wektora

which.min(x)

## [1] 5

warto�� maksymalnego elementu wektora

max(x)

## [1] 3

indeks maksymalnego elementu wektora

which.max(x)

## [1] 4

funkcja porz�dkujaca elementy rosn�co lub (przy zastosowaniu opcji decreasing=TRUE) malej�co

sort(x)

## [1] -5 -1  0  2  3

sort(x, decreasing = TRUE)

## [1]  3  2  0 -1 -5

Dodanie opcji index=TRUE powoduje stworzenie listy, kt�rej pierwszym elementem x jest posortowany wektor, drugim za� ix indeksy oryginalnych danych w posortowanym wektorze

sort(x, index=TRUE)

## $x
## [1] -5 -1  0  2  3
## 
## $ix
## [1] 5 2 3 1 4

Nale�y przy tym zwr�cic uwag�, czy w wektorze nie wystepuj� elementy NA (brak warto�ci) - wtedy funkcje nie zwr�c� oczekiwanego wyniku, chyba �e zostanie zastosowana opcja na.rm=TRUE.

y <- c(1, NA, 2, 5, 7)
sum(y)

## [1] NA

mean(y)

## [1] NA

sum(y, na.rm = TRUE)

## [1] 15

mean(y, na.rm = TRUE)

## [1] 3.75

Funkcja which() podaje indeksy element�w spe�niaj�cych okre�lony warunek.

which(y > 2)

## [1] 4 5

which(y == 2)

## [1] 3

Wywolanie komendy which(y == NA) wy�wietli komunikat b��du. Aby znale�� indeksy element�w NA lub NaN i +/-Inf nale�y skorzystac z funkcji is.na(), is.nan(), is.finite() oraz is.infinite() wewn�trz funkcji which().

z <- c(0/0, NA, 1/0, -1/0, 10, 15); z

## [1]  NaN   NA  Inf -Inf   10   15

is.na(z)

## [1]  TRUE  TRUE FALSE FALSE FALSE FALSE

is.nan(z)

## [1]  TRUE FALSE FALSE FALSE FALSE FALSE

is.infinite(z)

## [1] FALSE FALSE  TRUE  TRUE FALSE FALSE

which(is.na(z))

## [1] 1 2

which(is.nan(z))

## [1] 1

which(is.infinite(z))

## [1] 3 4

Instrukcje sterujace

Petle FOR i WHILE

x <- 1:10
for(i in x) print(i)

## [1] 1
## [1] 2
## [1] 3
## [1] 4
## [1] 5
## [1] 6
## [1] 7
## [1] 8
## [1] 9
## [1] 10

x <- 1
while(x < 5) {
  print(x)
  x <- x + 1
}

## [1] 1
## [1] 2
## [1] 3
## [1] 4

Instrukcja warunkowa IF... ELSE...

x <- 5
if(x < 5) print(x) else print(x ^ 2)

## [1] 25

Warunek musi mie� d�ugo�� r�wn� 1, inaczej instrukcja warunkowa zostanie wykonana tylko dla pierwszego elementu.

x <- 1:10
if(x %% 3) {
  print("Nie dzieli si� przez 3")
} else {
  print("Dzieli si� przez 3")
}

## Warning in if (x%%3) {: the condition has length > 1 and only the first
## element will be used

## [1] "Nie dzieli si� przez 3"

Instrukcja warunkowa IFELSE(...,...,...)

W przypadku, gdy mamy mo�liwo�� pracy na wektorze warto�ci, wygodnie jest korzysta� z funkcji ifelse(), kt�ra sprawdza warunek dla ka�dego elementu wektora i zwraca r�wnie� wektor.

x <- 1:10
ifelse(x %% 3, "Nie dzieli si� przez 3", "Dzieli si� przez 3")

##  [1] "Nie dzieli si� przez 3" "Nie dzieli si� przez 3"
##  [3] "Dzieli si� przez 3"     "Nie dzieli si� przez 3"
##  [5] "Nie dzieli si� przez 3" "Dzieli si� przez 3"    
##  [7] "Nie dzieli si� przez 3" "Nie dzieli si� przez 3"
##  [9] "Dzieli si� przez 3"     "Nie dzieli si� przez 3"

ZADANIE: W jaki inny spos�b, bez u�ycia instrukcji ifelse() ani innych p�tli, maj�c wy�ej zdefiniowany wektor x wypisa� liczby podzielne przez 3?

Skrypty

Skrypty w j�zyku R uruchamiane s� komend� source("nazwa_pilku") lub, je�li jest to aktualnie otwarty program w oknie, kombinacj� klawiszy Ctrl+Shift+S. Oczywi�cie, w przypadku u�ywania w�asnych funkcji, nale�y je zdefiniowac przed g��wn� cz�sci� skryptu, czyli po prostu na g�rze. W odr�nieniu od linii komend, wypisanie na ekran trzeba ubra� w odpowiedni� funkcj� print() lub cat().

# PLIK test.R

# Funkcja 
f <- function(x, y) {
  x <- 2*x
  y <<- 2*y
}

# G��wna cz�� skryptu

x <- 2
y <- 2

print(x)
print(y)
x

f(2,2)

cat("x =",x,"\n")
cat("y =",y,"\n")

# Wykonanie skryptu: source("test.R")

Wlasne funkcje

Schemat tworzenia funkcji jest nast�puj�cy

nazwa_funkcji <- function(x, y, ...) {
  ...
  ...
  return(warto��)
}

Warto zaznaczy�, �e funkcja mo�e przyjmowac oraz zwraca� nie tylko skalary, ale r�wnie� wektory. Przyk�adem mo�e byc funkcja realizuj�ca "tabliczk� mno�enia" dla dowolnych dwoch wektor�w.

tabliczka_mno�enia <- function(zakres1, zakres2) {
  return(zakres1 %o% zakres2)
}
tabliczka_mno�enia(1:10,1:10)

##       [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
##  [1,]    1    2    3    4    5    6    7    8    9    10
##  [2,]    2    4    6    8   10   12   14   16   18    20
##  [3,]    3    6    9   12   15   18   21   24   27    30
##  [4,]    4    8   12   16   20   24   28   32   36    40
##  [5,]    5   10   15   20   25   30   35   40   45    50
##  [6,]    6   12   18   24   30   36   42   48   54    60
##  [7,]    7   14   21   28   35   42   49   56   63    70
##  [8,]    8   16   24   32   40   48   56   64   72    80
##  [9,]    9   18   27   36   45   54   63   72   81    90
## [10,]   10   20   30   40   50   60   70   80   90   100

Instrukcja return() nie jest obligatoryjna - za warto�� funkcji przyjmowana jest warto�� wyznaczona w ostatniej jej linii.

dodaj <- function(x, y) {
  x*y
  cos(x)
  x+y
}
dodaj(2,5)

## [1] 7

Wszystkie warto�ci przekazane do funkcji s� widoczne i zmieniane lokalnie. W przypadku potrzeby zmiany warto�ci zmiennej tak, aby by�a widoczna globalnie nale�y u�y� operatora przypisania <<-

f <- function(x, y) {
  x <- x * 2
  y <<- y * 2
}
x <- 2
y <- 2
f(2,2)
x; y

## [1] 2

## [1] 4

ZADANIE: Napisz funkcj� cross.prod(x,y), kt�ra b�dzie wykonywa�a iloczyn wektorowy dw�ch wektor�w.