Zastosowanie pakietu R w statystyce medycznej

LABORATORIUM 7

Przed rozpocz�ciem zaj�� nale�y zainstalowa� pakiet car.

install.packages("car")

Dopasowywanie parametr�w rozk�ad�w

Za pomoc� funkcji fitdistr() (biblioteka MASS) mo�liwa jest estymacja nieznanych parametr�w rozk�ad�w, przy czym posta� rozk�adu musi by� uprzednio znana - mo�e to by� albo jeden z wbudowanych rozk�ad�w albo te� nasza w�asna funkcja.

# Przyk�ad 7.1
library(MASS)

df <- data.frame(x = rnorm(200), y = rexp(200, 0.1))
df.fit1 <- fitdistr(df$x, "normal")
df.fit1

##       mean          sd    
##   0.02948909   1.00557069 
##  (0.07110459) (0.05027853)

df.fit2 <- fitdistr(df$y, "exponential")
df.fit2

##       rate    
##   0.096335765 
##  (0.006811967)

Obiekt, kt�ry powstaje po dopasowaniu ma nast�puj�ce istotne pola: estimate, sd oraz vcov. Pierwsze dwa podaj� odpowiednio oszacowanie parametr�w rozk�adu oraz odchylenie standardowe, ostatnia to macierz wariancji-kowariancji.

# Przyk�ad 7.2

df.fit1$estimate

##       mean         sd 
## 0.02948909 1.00557069

df.fit1$sd

##       mean         sd 
## 0.07110459 0.05027853

df.fit1$vcov

##             mean          sd
## mean 0.005055862 0.000000000
## sd   0.000000000 0.002527931

Rzecz jasna, nic nie stoi na przeszkodzie, aby sprawdzi� hipotez�, czy dane faktycznie mog� pochodzi� z rozk�ad�w o wyestymowanych parametrach.

# Przyk�ad 7.3

# Testowanie rozk�adu normalnego
mu <- df.fit1$estimate[1]
sigma <- df.fit1$estimate[2]
ks.test(df$x, "pnorm", mu, sigma)

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  df$x
## D = 0.038598, p-value = 0.9269
## alternative hypothesis: two-sided

# Testowanie rozkladu wykladniczego
rate <- df.fit2$estimate
ks.test(df$y, "pexp", rate)

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  df$y
## D = 0.037039, p-value = 0.9467
## alternative hypothesis: two-sided

# Rysowanie
library(ggplot2)

## Registered S3 methods overwritten by 'ggplot2':
##   method         from 
##   [.quosures     rlang
##   c.quosures     rlang
##   print.quosures rlang

ggplot(df) +  geom_histogram(aes(x = x,..density..), fill="blue", colour="black", alpha=0.4) + 
stat_function(fun = dnorm, args = list(mean = mu, sd = sigma), colour="red", size=1.5)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(df) + geom_histogram(aes(x = y,..density..), fill="blue", colour="black", alpha=0.4) + 
stat_function(fun = dexp, args = list(rate = rate), colour="red", size=1.5)

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Jednoczynnikowa analiza wariancji

Rozwa�amy pojedyncz� zmienn� numeryczn� lub porz�dkow� i chcieliby�my si� dowiedzie�, czy przeci�tna warto�� tej zmiennej ulega zmianom w r�nych grupach. Jednoczynnikowa analiza wariancji (ANOVA) pozwalaj�ca rozdzieli� ca�kowit� zmienno�� danych na t�, kt�ra mo�e by� przypisana r�nicom mi�dzy osobnikami z r�nych grup (zmienno�� mi�dzygrupowa), oraz losowe zmiany mi�dzy osobnikami wewn�trz ka�dej grupy (zmienno�� wewn�trzgrupowa).

\(s^2 = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij}-\overline{x})^2 = \sum_{i=1}^k \sum_{j=1}^{n_i} (x_{ij}-\overline{x_i})^2 + \sum_{i=1}^k n_i (\overline{x_i}-\overline{x})^2 = s_{wew}^2 + s_{pom}^2\)

Je�li �rednie grupowe s� takie same (hipoteza zerowa \(H_0\)) to wariancja mi�dzygrupowa b�dzie zbli�ona do wariancji wewn�trzgrupowej.
Je�eli jednak istniej� r�nice mi�dzy grupami (hipoteza alternatywna \(H_1\)), wtedy wariancja mi�dzygrupowa b�dzie wi�ksza ni� wariancja wewn�trzgrupowa. Test oparty jest na stosunku tych dw�ch wariancji.

# Przyk�ad 7.4
plants <- PlantGrowth #30 obserwacji dotycz�cych zbior�w (w kg) podzielone na trzy grupy (kontrolna i dwie grupy specjalnego traktowania)

# Wizualizacja przy pomocy wykres�w skrzynkowych (boxplot)
boxplot(weight~group, plants, ylab="weight", col=c("red","green","blue"))

# Obliczmy �rednie i wariancje w ka�dej grupie
grupy <- levels(plants$group)
srednie <- sapply(grupy, function(g) mean(plants$weight[plants$group==g]));srednie

##  ctrl  trt1  trt2 
## 5.032 4.661 5.526

plants$mu <- rep(srednie, each=10)
plants$s <- (plants$weight-plants$mu)^2
s.wew <- sum(plants$s); s.wew

## [1] 10.49209

# Obliczmy ca�kowit� �redni� i wariancj� mi�dzygrupow�
k <- 3
n <- rep(10,k)
N <- sum(n)
mu.tot <- mean(plants$weight)
s.pom <- sum(n*(srednie-mu.tot)^2); s.pom

## [1] 3.76634

# Obliczmy stosunek wariancji mi�dzygrupowej do wariancji wewn�trzgrupowej
s.wew <- s.wew/(N-k)
s.pom <- s.pom/(k-1)
s.pom/s.wew

## [1] 4.846088

# Wykonujemy jednoczynnikow� analiz� wariancji przy pomocy funkcji aov()
plants.aov <- aov(weight~group, plants)
summary(plants.aov)

##             Df Sum Sq Mean Sq F value Pr(>F)  
## group        2  3.766  1.8832   4.846 0.0159 *
## Residuals   27 10.492  0.3886                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

P-warto�� wynosi 0.0159, co oznacza, �e na poziomie istotno�ci \(\alpha = 0.05\) mo�na odrzuci� hipotez� zerow� o tym, �e �rednie w grupach s� takie same. Aby si� dowiedzie�, w kt�rej grupie �rednia jest inna mo�na wykona� test Tukey HSD (Tukey Honest Significant Differences), jako argument podaj�c wynik testu ANOVA.

TukeyHSD(plants.aov)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = weight ~ group, data = plants)
## 
## $group
##             diff        lwr       upr     p adj
## trt1-ctrl -0.371 -1.0622161 0.3202161 0.3908711
## trt2-ctrl  0.494 -0.1972161 1.1852161 0.1979960
## trt2-trt1  0.865  0.1737839 1.5562161 0.0120064

Za�o�enia stoj�ce za analiz� wariancji

W badanej populacji zmienna w ka�dej grupie ma rozk�ad normalny.
Wariancje we wszystkich grupach s� takie same.

R�wno�� wariancji wielu grup mo�na sprawdzi� testem Levene'a lub Bartletta. Test Levene'a jest mniej wra�liwy na odchylenia od rozk�adu normalnego. Wykorzystamy funkcj� leveneTest() z pakietu car (nale�y go uprzednio zainstalowa�). Hipoteza zerowa testu Levene'a m�wi, �e wariancje poszczeg�lnych grup nie r�ni� si� istotnie od siebie.

# Przyk�ad 7.5
library(car)
leveneTest(weight ~ group, plants)

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  1.1192 0.3412
##       27

Test Welcha

W sytuacji, gdy nie jest spe�niony warunek r�wno�ci wariancji mi�dzy r�nymi grupami, mo�emy pos�u�y� si� testem Welcha, kt�ry w pakiecie R jest realizowany przez funkcj� oneway.test(). Alternatywnie, mo�na wykona� test T-Studenta parami przy u�yciu funkcji pairwise.t.test()

# Przyk�ad 7.6
oneway.test(weight ~ group, plants)

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  weight and group
## F = 5.181, num df = 2.000, denom df = 17.128, p-value = 0.01739

pairwise.t.test(plants$weight, plants$group)

## 
##  Pairwise comparisons using t tests with pooled SD 
## 
## data:  plants$weight and plants$group 
## 
##      ctrl  trt1 
## trt1 0.194 -    
## trt2 0.175 0.013
## 
## P value adjustment method: holm

Test Kruskala-Wallisa

Nieparametryczn� alternatyw� jednoczynnikowej analizy wariancji jest test Kruskalla-Wallisa, kt�ry jest rozszerzeniem testu sumy rang Wilcoxona. Test ten nie zak�ada r�wno�ci wariancji ani normalno�ci rozk�ad�w. Hipotez� zerow� \(H_0\) jest r�wno�� dystrybuant rozk�ad�w w por�wnywanych populacjach.

# Przyk�ad 7.7
kruskal.test(weight ~ group, plants)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  weight by group
## Kruskal-Wallis chi-squared = 7.9882, df = 2, p-value = 0.01842

Zadanie punktowane

Wczytaj zbi�r danych iris z biblioteki datasets i zapoznaj si� z nim. Nast�pnie sprawd� (wykonuj�c testy normalno�ci i r�wno�ci wariancji mi�dzygrupowej), kt�ra cecha kwiat�w spe�nia najlepiej za�o�enia jednoczynnikowej analizy wariancji. Dla tej cechy wykonaj ANOVA, skomentuj wynik analizy i wykonaj wykres pude�kowy.

##              Df Sum Sq Mean Sq F value Pr(>F)    
## Species       2  11.35   5.672   49.16 <2e-16 ***
## Residuals   147  16.96   0.115                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1