Zastosowanie pakietu R w statystyce medycznej

LABORATORIUM 2

Proste funkcje obs�ugi macierzy
Funkcja APPLY
Funkcja SAPPLY
Funkcje anonimowe
Tworzenie wykres�w
Tworzenie histogram�w
Losowanie warto�ci
- Funkcja SAMPLE
- Rozk�ady prawdopodobie�stw
Zadanie punktowane

Funkcje obslugi macierzy

Cz�� funkcji poznanych wcze�niej przy obs�udze wektor�w mo�na zastosowa� tak�e do macierzy, przy czym w przypadku which.min() oraz which.max() konieczne jest u�ycie dodatkowo funkcji arrayInd() do okre�lenia indeks�w macierzy - w przeciwnym wypadku otrzymamy tylko indeks "wektorowy".

# Przyk�ad 3.1
A <- matrix(1:16, 4, 4)
A

##      [,1] [,2] [,3] [,4]
## [1,]    1    5    9   13
## [2,]    2    6   10   14
## [3,]    3    7   11   15
## [4,]    4    8   12   16

sum(A)

## [1] 136

mean(A)

## [1] 8.5

sd(A)

## [1] 4.760952

min(A)

## [1] 1

max(A)

## [1] 16

which.min(A)

## [1] 1

which.max(A)

## [1] 16

arrayInd(which.min(A), dim(A))

##      [,1] [,2]
## [1,]    1    1

arrayInd(which.max(A), dim(A))

##      [,1] [,2]
## [1,]    4    4

Funkcja APPLY

Aby wyznaczy� brzegowe warto�ci dla macierzy (np. sum�, �redni� etc) wykorzystuje si� funkcje apply(macierz,liczba,funkcja), przy czym liczba okre�la, czy odnosimy si� do wiersza (1) czy kolumny (2).

# Przyk�ad 3.2
apply(A, 1, sum)

## [1] 28 32 36 40

apply(A, 2, sum)

## [1] 10 26 42 58

apply(A, 1, mean)

## [1]  7  8  9 10

apply(A, 2, sd)

## [1] 1.290994 1.290994 1.290994 1.290994

Zamiast wbudowanych funkcji mo�na tak�e wykorzystac w�asne funkcje

# Przyk�ad 3.3

# Wlasna funkcja
f <- function(x) {
  sum(x^2)
}

apply(A, 1, f)

## [1] 276 336 404 480

apply(A, 2, f)

## [1]  30 174 446 846

Funkcja SAPPLY

Jak ju� zosta�o wcze�niej wspomniane, w R nale�y unika� stosowania p�tli. Paradygmat jest nast�puj�cy: wsz�dzie, gdzie si� da, nale�y wykorzystywa� wektory (lub listy, macierze, ramki danych) i na tych strukturach dokonywa� okre�lonych operacji, dostaj�c na wyj�ciu zn�w wektor etc. W najprostszym przypadku oznacza to po prostu u�ycie znanej funkcji (np. sin()) do wszystkich element�w wektora:

# Przyk�ad 3.4

x <- 10
sin(x)

## [1] -0.5440211

Powy�szy przyk�ad mo�na r�wnie� zapisac za pomoc� funkcji sapply, kt�ra jako argumenty przyjmuje wektor oraz funkcje, kt�ra zostanie zastosowana element po elemencie:

# Przyk�ad 3.5

x <- 10
sapply(x, sin)

## [1] -0.5440211

Oczywi�cie, w tym konkretnym przypadku wygodniej jest u�y� opcji z Przyk�adu 3.4. Gdy jednak sami chcemy skonstruowac funkcje, musimy uciec si� do sapply, w przeciwnym wypadku R b�dzie chcia� wykona� nasz� funkcj� tylko dla pierwszego elementu .

# Przyk�ad 3.6a
# W�asna funkcja
g <- function(x) {
  
  y <- sum(1:x)
  if(y > 2 * x) return(x)
  else return(0)
  
}

# Glowny kod
x <- 1:10

# Bezpo�rednie u�ycie g do wektora
g(x)

## Warning in 1:x: numerical expression has 10 elements: only the first used

## Warning in if (y > 2 * x) return(x) else return(0): the condition has
## length > 1 and only the first element will be used

## [1] 0

# U�ycie sapply
sapply(x, g)

##  [1]  0  0  0  4  5  6  7  8  9 10

Jeszcze lepiej jest u�y� funkcji sapply wewn�trz swojej w�asnej funkcji

# Przyk�ad 3.6b
# Wlasna funkcja
g <- function(x) {
  
  y <- sapply(x, function(k) sum(1:k))
  ifelse(y > 2 * x, x, 0)
}

# Glowny kod
x <- 1:10

# Bezposrednie u�ycie g do wektora
g(x)

##  [1]  0  0  0  4  5  6  7  8  9 10

Funkcje anonimowe

Podobnie jak w innych j�zykach skryptowych istnieje mo�liwo�� tworzenia funkcji anonimowych. S� to najcz�ciej kr�tkie wyra�enia, nie tylko arytmetyczne, bez nazwy (st�d anonimowe), kt�re istniej� ulotnie - po wykonaniu operacji zostaj� usuni�te z pami�ci.

# Przyk�ad 3.7
a <- 1:10
sapply(a, function(x) x^2 - 2)

##  [1] -1  2  7 14 23 34 47 62 79 98

Za pomoc� funkcji anonimowych oraz zagnie�d�onych funkcji sapply mo�na tworzyc alternatyw� dla podw�jnych p�tli.

# Przyk�ad 3.8

a <- 1:10
sapply(a, function(x) {sapply(rev(a), function(y) x * y)})

##       [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
##  [1,]   10   20   30   40   50   60   70   80   90   100
##  [2,]    9   18   27   36   45   54   63   72   81    90
##  [3,]    8   16   24   32   40   48   56   64   72    80
##  [4,]    7   14   21   28   35   42   49   56   63    70
##  [5,]    6   12   18   24   30   36   42   48   54    60
##  [6,]    5   10   15   20   25   30   35   40   45    50
##  [7,]    4    8   12   16   20   24   28   32   36    40
##  [8,]    3    6    9   12   15   18   21   24   27    30
##  [9,]    2    4    6    8   10   12   14   16   18    20
## [10,]    1    2    3    4    5    6    7    8    9    10

Tworzenie wykres�w

Standardowa funkcja wykorzystywana do tworzenia wykres�w jest plot(x,y), gdzie x i y sa odpowiednio wektorami liczb.

# Przyk�ad 3.9
x <- 1:10
plot(x, x^2)

Funkcja plot() ma poka�ny zestaw r�nych opcji, przy czym najcz�ciej wykorzystywane to xlab="..." (tytu� osi X), ylab="..." (tytu� osi Y), main="..." (tytu� wykresu), col="..." (kolor punkt�w), pch=... (kszta�t punkt�w), cex="..." (rozmiar punkt�w), font=... (typ czcionki osi: 1 - normalna, 2 - pogrubiona, 3 - kursywa, 4 - pogrubiona kursywa). W przypadku nazw osi mo�na wykorzystywa� funkcje expression(), kt�ra koduje wyra�enia matematyczne i litery greckie (np. ^ to indeks gorny, [..] - indeks dolny, itd.).

# Przyk�ad 3.10
x <- 1:10
plot(x, x^2, xlab = "x", ylab = expression(f(xi)==x^2), col = "red", pch = 19, font = 2, font.lab = 4, main = "Wykres funkcji f(x)", font.main = 3, cex = 2)

W przypadku potrzeby zapisania wykresu do pliku nale�y skorzysta� z jednej z komend png(), jpeg() czy tiff(), a nast�pnie zamkn�� strumie� komend� dev.off().

# Przyk�ad 3.11

png("fig2.png")
plot(x, x^2, xlab = "x", ylab = expression(f(xi)==x^2), col = "red", pch = 19, font = 2, font.lab = 4, main = "Wykres funkcji f(x)", font.main = 3, cex = 2)
dev.off()

## png 
##   2

Do umieszczenia legendy na wykresie s�u�y funkcja legend(), kt�rej najwa�niejszymi argumentami s�:

x - wsp�rz�dna lewej kraw�dzi legendy na wykresie lub jedno z predediniowanych s��w-kluczy: top,bottom,left,right,center,topleft,topright,bottomleft,bottomright,
y - wsp�rz�dna g�rnej kraw�dzi legendy (domy�lnie NULL, u�ywa si� jej w parze ze wsp�rz�dn� lewej kraw�dzi legendy),
legend - wektor nazw poszczeg�lnych element�w legendy,
pch - wektor z numerami symboli wy�wietlaj�cych si� przy nazwach poszczeg�lnych element�w legendy,
col - wektor z kolorami symboli (obramowania),
pt.bg - wektor z kolorami te� symboli.

# Przyk�ad 3.12
x <- 1:10
plot(x, x^2, xlab = "x", ylab = expression(f(x)), col = "red", bg="red", pch = 21, cex = 2)
points(x, x^1.5, col="blue", bg="blue", pch=22, cex=2)
legend("topleft", legend=c(expression(x^1.5),expression(x^2)), pch = c(22,19), col = c("blue","red"), pt.bg=c("blue","red"))

Tworzenie histogram�w

Najprostsz� metod� tworzenia histogramu (w formie tekstowej) jest wykorzystanie funkcji tabulate(). Efektem jej dzia�ania jest zliczenie warto�ci ca�kowitych zawartych w wektorze. W przypadku liczb rzeczywistych dokonywane jest zaokr�glenie w d�.

# Przyk�ad 3.13

y <- c(0,0,1,2,3,1,2,3,4)
tabulate(y)

## [1] 2 2 2 1

y <- c(0,0,1.1,1.9,2.1,2,3)
tabulate(y)

## [1] 2 2 1

W przypadku histogramu 2D mo�na pos�uzy� si� funkcj� table(), kt�ra stworzy dwuwymiarow� tablic� wsp�wyst�powania warto�ci.

# Przyk�ad 3.14

df <- data.frame(x=c(1,1,2,2,3,4,5), y=c(2,2,3,1,5,5,5))
df

##   x y
## 1 1 2
## 2 1 2
## 3 2 3
## 4 2 1
## 5 3 5
## 6 4 5
## 7 5 5

table(df)

##    y
## x   1 2 3 5
##   1 0 2 0 0
##   2 1 0 1 0
##   3 0 0 0 1
##   4 0 0 0 1
##   5 0 0 0 1

Jednak klasyczna funkcja odpowiedzialna za tworzenie histogram�w jest hist(). Samo jej wywo�anie daje efekt narysowania histogramu o zadanej liczbie przedzia��w (bin�w).

# Przyk�ad 3.15
x <- c(1,1,1,2,2,4,10)
hist(x)

W pewnym sensie nawet wa�niejsz� rzecz� od samego wykresu jest zawarto�� zmiennej, do kt�rej zostanie zapisany jego wynik. Otrzymamy z niej informacje nie tylko o liczbie zlicze� (counts), ale tak�e o granicach bin�w (breaks), ich �rodkach (mids) jak r�wnie� funkcji g�stosci (density).

# Przyk�ad 3.16
x <- c(1,1,1,2,2,4,10)
h <- hist(x)

## $breaks
## [1]  0  2  4  6  8 10
## 
## $counts
## [1] 5 1 0 0 1
## 
## $density
## [1] 0.35714286 0.07142857 0.00000000 0.00000000 0.07142857
## 
## $mids
## [1] 1 3 5 7 9
## 
## $xname
## [1] "x"
## 
## $equidist
## [1] TRUE
## 
## attr(,"class")
## [1] "histogram"

Losowanie warto�ci

Funkcja SAMPLE

Za pomoc� funkcji sample(x) mo�na w pakiecie R uzyska� permutacj� oryginalnego zbioru (wektora x). W przypadku podania konkretnej liczby pr�bek, mniejszej ni� rozmiar x elementy zostan� wylosowane bez zwracania. Wreszcie, podanie opcji replace=TRUE umo�liwi losowanie ze zwracaniem. Dodatkowo, podanie wektora prob daje mo�liwo�� sterowania prawdopodobie�stwem wylosowania konkretnych element�w wektora x. Funkcja nie ogranicza si� jedynie do typ�w liczbowych.

# Przyk�ad 3.17

sample(1:3, 2)

## [1] 3 1

sample(1:10, 2)

## [1] 5 6

sample(1:10)

##  [1]  8  4  6  2  5  7 10  3  1  9

sample(1:10, 4)

## [1] 10  4  9  2

sample(1:10, 20, replace=TRUE)

##  [1]  8 10  1  3  5 10  9  4  8  6  7  4  8  3  3  1  1  8  2  9

sample(1:3, 10, replace=TRUE, prob=c(0.1,0.8,0.1))

##  [1] 2 2 2 2 3 2 2 2 2 2

sample(letters[1:3], 10, replace=TRUE)

##  [1] "b" "b" "c" "a" "b" "c" "b" "b" "b" "b"

sample(c(0.1, 0.2, 0.3), 10, replace=TRUE)

##  [1] 0.3 0.1 0.2 0.1 0.3 0.3 0.3 0.2 0.2 0.3

Rozk�ady prawdopodobie�stw

W pakiecie R jest zaimplementowany ca�y zestaw standardowych rozk�ad�w prawdopodobie�stw (rozk�ad Gaussa, dwumianowy etc), do kt�rych odwo�ujemy si� w ten sam sposob r|p|d|qnazwa(), gdzie w miejsce nazwa nale�y wstawi� nazw� odpowiedniego rozk�adu prawdopodobie�stwa (np. norm, unif, exp, binom), a pierwsza litera oznacza typ funkcji:

r - losowanie z rozk�adu (np. runif(5) - losowanie pi�ciu liczb z rozk�adu jednostajnego),
p - dystrybuant� (np. pnorm(2, 0, 1.5) - warto�� dystrybuanty dla rozk�adu normalnego o �redniej 0 i odchyleniu 1.5 w punkcie 2),
d - g�sto�� prawdopodobie�stwa (np. dexp(2, 0.1) - g�sto�� prawdopodobie�stwa dla rozk�adu wyk�adniczego o parameterze 0.1 w punkcie 2),
q - kwantyl (np. qnorm(0.95, 0, 1) zwr�ci kwantyl rz�du 0.95 z rozk�adu normalnego o �redniej 0 i odchyleniu standardowym 1).

# Przyk�ad 3.18

x <- seq(-2, 2, .1)
plot(x, dnorm(x, 0, 0.5), ylim = c(0,1.5), pch = 19)
points(x, dnorm(x, 0, 1), pch = 19, col = "blue")
points(x, dnorm(x, 0, 0.3), pch = 19, col = "green", t = "o")
lines(x, pnorm(x, 0, 0.3), col = "red", lwd = 2)

# Przyk�ad 3.19

runif(10)

##  [1] 0.6607871 0.7717536 0.7353429 0.5211421 0.3531406 0.9384612 0.9312509
##  [8] 0.6434158 0.3916183 0.7073876

runif(10, 5, 10)

##  [1] 8.269966 6.724866 5.963732 7.468810 8.479985 6.939653 7.321587
##  [8] 8.478122 6.719646 9.895461

Zadanie punktowane

Wylosuj \(n\) liczb z rozk�adu normalnego o �redniej \(m\) i odchyleniu standardowym \(s\) (\(n\),\(m\),\(s\) powinny by� zmiennymi kt�rych warto�� b�dzie mo�na zmienia� w skrypcie). Nast�pnie wykonaj histrogram z tych danych i umie�� na wykresie empiryczn� g�sto�� prawdopodobie�stwa w postaci punkt�w (t� g�sto�� mo�na wyci�gn�� z obiektu histogram. Dodaj drug� seri� do wykresu (czerwona linia), kt�ra b�dzie przedstawia� teoretyczn� g�sto�� prawdopodobie�stwa. Podpisz osie i dodaj legend� tak jak na rysunku poni�ej.