Zastosowanie pakietu R w statystyce medycznej

LABORATORIUM 8

Wielokrotna regresja liniowa

Czasami interesuje nas efekt wp�ywu kilku zmiennych wyja�niaj�cych \(X_i\) (predyktor�w) na zmienn� wynikow� \(Y\). Je�eli uwa�amy, �e zmienne te mog� by� wewn�trznie powi�zane, nie powinni�my osobno obserwowa� wp�ywu na \(Y\) zmieniaj�cych si� warto�ci pojedynczego \(X\) lecz jednocze�nie wzi�� pod uwag� warto�ci pozosta�ych \(X\)-�w. Funkcja lm z pakietu R dzia�a r�wnie� w takim przypadku.

# Przyk�ad 8.1
n  <- 100
x1 <- rnorm(n, 175, 7)
x2 <- rnorm(n, 30, 8)
x3 <- abs(rnorm(n, 60, 30))
y1 <- 0.2*x1 - 0.3*x2 - 0.4*x3 + 10 + rnorm(n, 0, 5)
y2 <- -0.3*x2 + 0.2*x3 + rnorm(n, 10, 2)
data <- data.frame(x1, x2, x3, y1, y2)
y.lm <- lm(cbind(y1, y2) ~ x1 + x2 + x3, data=data)
summary(y.lm)

## Response y1 :
## 
## Call:
## lm(formula = y1 ~ x1 + x2 + x3, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.0325  -3.4906  -0.4393   3.5103  12.2894 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.52101   13.25460   0.190 0.849555    
## x1           0.26061    0.07285   3.578 0.000546 ***
## x2          -0.34687    0.06375  -5.441 4.05e-07 ***
## x3          -0.43144    0.01917 -22.502  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.026 on 96 degrees of freedom
## Multiple R-squared:  0.8594, Adjusted R-squared:  0.855 
## F-statistic: 195.6 on 3 and 96 DF,  p-value: < 2.2e-16
## 
## 
## Response y2 :
## 
## Call:
## lm(formula = y2 ~ x1 + x2 + x3, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.4987 -1.5225  0.3341  1.5403  5.3096 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.171548   5.597555   1.460    0.148    
## x1           0.007990   0.030763   0.260    0.796    
## x2          -0.260577   0.026923  -9.679  7.3e-16 ***
## x3           0.193215   0.008097  23.862  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.123 on 96 degrees of freedom
## Multiple R-squared:  0.8707, Adjusted R-squared:  0.8667 
## F-statistic: 215.5 on 3 and 96 DF,  p-value: < 2.2e-16

Regresja logistyczna

Regresja logistyczna jest podobna do regresji liniowej, jednak�e w tym przypadku zmienna wynikowa \(Y\) ma posta� binarn�. Ze wzgl�du na fakt, �e regresja liniowa zak�ada normalno�� zmiennej wynikowej, musimy dokona� pewnej transformacji zwanej logistyczn� (lub logitow�). Zamiast przewidywa� tylko jedn� z dw�ch kategorii (np. "chory"=1, "zdrowy"=0), rozwa�amy prawdopodobie�stwo \(p\) tego, �e osobnik zosta� zakwalifikowany do jednej z dw�ch kategorii. Po takiej transformacji zmienn� wynikow� \(Z\) jest tzw. logit, czyli logarytm naturalny szansy wyst�pienia wydarzenia:

\(Z = \ln(\frac{p}{1-p}) = a + b_1x_1 + b_2x_2+\dots+b_nx_n\).

W pakiecie R regresj� logistyczn� mo�na wykona� przy pomocy og�lniejszej funkcji glm (Generalized Linear Models). Przy wywo�aniu funkcji nale�y poda� parametr family = binomial a zmienn� wynikow� mo�na przekaza� na jeden z trzech sposob�w:

jako zmienna typu factor okre�laj�ca sukces,
jako wektor numeryczny z warto�ciowami mi�dzy 0 i 1, b�d�cy proporcj� sukces�w (wtedy nale�y poda� w parametrze weights ca�kowit� liczb� przypadk�w),
jako macierz dwukolumnowa liczb ca�kowitych; pierwsza kolumna jest liczb� sukces�w a druga liczb� pora�ek.

Rozpatrzmy zbi�r danych Titanic z pakietu datasets. W zbiorze tym znajduje si� 4-wymiarowa tablica zawieraj�ca informacje o 2201 pasa�erach feralnego rejsu.

# Przyk�ad 8.2
titanic <- Titanic; titanic

## , , Age = Child, Survived = No
## 
##       Sex
## Class  Male Female
##   1st     0      0
##   2nd     0      0
##   3rd    35     17
##   Crew    0      0
## 
## , , Age = Adult, Survived = No
## 
##       Sex
## Class  Male Female
##   1st   118      4
##   2nd   154     13
##   3rd   387     89
##   Crew  670      3
## 
## , , Age = Child, Survived = Yes
## 
##       Sex
## Class  Male Female
##   1st     5      1
##   2nd    11     13
##   3rd    13     14
##   Crew    0      0
## 
## , , Age = Adult, Survived = Yes
## 
##       Sex
## Class  Male Female
##   1st    57    140
##   2nd    14     80
##   3rd    75     76
##   Crew  192     20

# Liczba os�b, kt�rzy prze�yli z podzia�em na klas�, p�e� i wiek
titanic.df <- as.data.frame(titanic[,,,"Yes"])
titanic.df

##    Class    Sex   Age Freq
## 1    1st   Male Child    5
## 2    2nd   Male Child   11
## 3    3rd   Male Child   13
## 4   Crew   Male Child    0
## 5    1st Female Child    1
## 6    2nd Female Child   13
## 7    3rd Female Child   14
## 8   Crew Female Child    0
## 9    1st   Male Adult   57
## 10   2nd   Male Adult   14
## 11   3rd   Male Adult   75
## 12  Crew   Male Adult  192
## 13   1st Female Adult  140
## 14   2nd Female Adult   80
## 15   3rd Female Adult   76
## 16  Crew Female Adult   20

# Dodanie kolumny, z liczb� os�b, kt�re nie prze�y�y i zmiana nazwy czwartej kolumny
titanic.df$Died <- as.data.frame(titanic[,,,"No"])$Freq
names(titanic.df)[4] <- "Survived"
titanic.df

##    Class    Sex   Age Survived Died
## 1    1st   Male Child        5    0
## 2    2nd   Male Child       11    0
## 3    3rd   Male Child       13   35
## 4   Crew   Male Child        0    0
## 5    1st Female Child        1    0
## 6    2nd Female Child       13    0
## 7    3rd Female Child       14   17
## 8   Crew Female Child        0    0
## 9    1st   Male Adult       57  118
## 10   2nd   Male Adult       14  154
## 11   3rd   Male Adult       75  387
## 12  Crew   Male Adult      192  670
## 13   1st Female Adult      140    4
## 14   2nd Female Adult       80   13
## 15   3rd Female Adult       76   89
## 16  Crew Female Adult       20    3

# Wykonanie regresji logistycznej
titanic.lr <- glm(cbind(Survived,Died)~Class+Sex+Age, data=titanic.df, family=binomial(link = "logit"))
summary(titanic.lr)

## 
## Call:
## glm(formula = cbind(Survived, Died) ~ Class + Sex + Age, family = binomial(link = "logit"), 
##     data = titanic.df)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -4.1356  -0.7004   0.3039   2.2401   4.3833  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)   0.6853     0.2730   2.510   0.0121 *  
## Class2nd     -1.0181     0.1960  -5.194 2.05e-07 ***
## Class3rd     -1.7778     0.1716 -10.362  < 2e-16 ***
## ClassCrew    -0.8577     0.1573  -5.451 5.00e-08 ***
## SexFemale     2.4201     0.1404  17.236  < 2e-16 ***
## AgeAdult     -1.0615     0.2440  -4.350 1.36e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 671.96  on 13  degrees of freedom
## Residual deviance: 112.57  on  8  degrees of freedom
## AIC: 171.19
## 
## Number of Fisher Scoring iterations: 5

Z analizy wynika, �e wszystkie zmienne s� statystycznie istotne. Wyniki wskazuj�, �e kobiety na statku mia�y 11.25 raza wi�ksz� szans� (exp(2.4201)=11.25), a pasa�erowie trzeciej klasy 5.92 razy mniejsz� szans� na prze�ycie. Co wi�cej, w modelu regresji logistycznej nast�puje efekt multiplikacji, co oznacza, �e m�czy�ni z trzeciej klasy mieli 66.5 raza mniejsz� szans� na prze�ycie od pozosta�ych pasa�er�w.

Aby wykorzysta� otrzymany model do przewidywania nale�y u�y� funkcji predict

# Przyk�ad 8.3
test <- data.frame(Class=c("1st","2nd","3rd"), Age=rep("Adult",3), Sex=rep("Male",3))
predict(titanic.lr, newdata = test, type = "link")

##          1          2          3 
## -0.3762229 -1.3943179 -2.1539851

predict(titanic.lr, newdata = test, type = "response")

##         1         2         3 
## 0.4070382 0.1987193 0.1039594

Regresja Poissona

W przypadku gdy zmienna wynikowa jest cz�sto�ci� wyst�pienia jakiego� zdarzenia (lub po prostu liczb� wyst�pie� w jakim� okresie) mo�emy pos�u�y� si� regresj� Poissona w celu znalezienia jej zale�no�ci od zmiennych wyja�niaj�cych \(x_i\). Przyk�adem mo�e by� cz�stotliwo�� napad�w padaczkowych w zale�no�ci od r�nych czynnik�w (przej�cie okre�lonych chor�b, dieta, przyjmowanie okre�lonych lek�w). Model regresji Poissona przybiera podobn� form� do modelu regresji logistycznej:

\(\ln(r) = a + b_1x_1 + b_2x_2+\dots+b_nx_n\),

gdzie \(r\) jest oczekiwan� cz�sto�ci� lub liczb� zlicze� wyst�pie� dla osobnik�w z okre�lonym zestawem warto�ci \(x_1,\dots,x_n\), a \(b_1,\dots,b_n\) s� szukanymi wsp�czynnikami regresji. Eksponenta poszczeg�lnych wsp�czynnik�w s� oszacowanymi cz�sto�ciami wzgl�dnymi powi�zanymi z odpowiednimi zmiennymi.

W pakiecie R regresj� Poissona mo�na wykona� przy pomocy funkcji glm (Generalized Linear Models) z parametrem family = poisson. Jako przyk�ad rozwa�my zbi�r danych warpbreaks zawieraj�cy informacje o liczbie p�kni�� osnowy na krosno w zale�no�ci od rodzaju we�ny i napi�cia.

# Przyk�ad 8.4
warp <- warpbreaks
warp

##    breaks wool tension
## 1      26    A       L
## 2      30    A       L
## 3      54    A       L
## 4      25    A       L
## 5      70    A       L
## 6      52    A       L
## 7      51    A       L
## 8      26    A       L
## 9      67    A       L
## 10     18    A       M
## 11     21    A       M
## 12     29    A       M
## 13     17    A       M
## 14     12    A       M
## 15     18    A       M
## 16     35    A       M
## 17     30    A       M
## 18     36    A       M
## 19     36    A       H
## 20     21    A       H
## 21     24    A       H
## 22     18    A       H
## 23     10    A       H
## 24     43    A       H
## 25     28    A       H
## 26     15    A       H
## 27     26    A       H
## 28     27    B       L
## 29     14    B       L
## 30     29    B       L
## 31     19    B       L
## 32     29    B       L
## 33     31    B       L
## 34     41    B       L
## 35     20    B       L
## 36     44    B       L
## 37     42    B       M
## 38     26    B       M
## 39     19    B       M
## 40     16    B       M
## 41     39    B       M
## 42     28    B       M
## 43     21    B       M
## 44     39    B       M
## 45     29    B       M
## 46     20    B       H
## 47     21    B       H
## 48     24    B       H
## 49     17    B       H
## 50     13    B       H
## 51     15    B       H
## 52     15    B       H
## 53     16    B       H
## 54     28    B       H

# Regresja Poissona
warp.pr <- glm(breaks~wool+tension, data=warp, family = poisson(link = "log"))
summary(warp.pr)

## 
## Call:
## glm(formula = breaks ~ wool + tension, family = poisson(link = "log"), 
##     data = warp)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -3.6871  -1.6503  -0.4269   1.1902   4.2616  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  3.69196    0.04541  81.302  < 2e-16 ***
## woolB       -0.20599    0.05157  -3.994 6.49e-05 ***
## tensionM    -0.32132    0.06027  -5.332 9.73e-08 ***
## tensionH    -0.51849    0.06396  -8.107 5.21e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for poisson family taken to be 1)
## 
##     Null deviance: 297.37  on 53  degrees of freedom
## Residual deviance: 210.39  on 50  degrees of freedom
## AIC: 493.06
## 
## Number of Fisher Scoring iterations: 4

Powy�sze wyniki wskazuj� na to, �e we�na typu B powoduje wzgl�dnie 0.814 (exp(-0.206)=0.814) raza mniej uszkodze� osnowy ni� we�na typu A. Innymi s�owy zmiana we�ny z A na B sprawi, �e liczba uszkodze� spadnie o 18.6%. Sprawd�my jak� skuteczno�� predykcyjn� ma zbudowany przez nas model. W tym celu podzielimy dane na dwa zbiory: zbi�r treningowy i testowy

# Przyk�ad 8.5
# Predykcja dla nowych danych
warp.tr <- warpbreaks[1:44,]
warp.te <- warpbreaks[45:54,]
warp.pr <- glm(breaks~wool+tension, data=warp.tr, family = poisson(link = "log"))
warp.predict <- predict(warp.pr, newdata=warp.te[,-1], type="response")
warp.error <- mean(abs(warp.te[,1]-warp.predict))
warp.error

## [1] 4.305155

Zadanie punktowane

Wczytaj zbiory danych Pima.tr i Pima.te z biblioteki MASS i zapoznaj si� z nim. Dla zbioru Pima.tr wykonaj model regresji logistycznej i okre�l kt�re cechy s� statystycznie istotne przy okre�laniu cukrzycy. Nast�pnie sprawd� skuteczno�� predykcyjn� modelu przy u�yciu zbioru Pima.te. Niech metoda predict zwraca prawdopodobie�stwo bycia chorym na cukrzyce, kt�re nast�pnie przy pomocy funkcji ifelse nale�y zamieni� na odpowied� binarn� (chory=1, zdrowy=0). Jako pr�g prawdopodobie�stwa powy�ej kt�rego uznajemy osobnika za chorego przyj�� 0.5. Oblicz skuteczno�� modelu wed�ug poni�szego wzoru.

pima.accuracy <- 1-mean(abs(pima.true-pima.result))
pima.accuracy

## [1] 0.8012048