Zastosowanie pakietu R w statystyce medycznej

LABORATORIUM 5

Hipotezy statystyczne

Hipoteza statystyczna to przypuszczenie dotycz�ce nieznanego rozk�adu badanej cechy, kt�rego prawdziwo�� chcemy przetestowac na podstawie pr�by.

Hipoteza parametryczna to hipoteza, kt�ra dotyczy jedynie parametr�w nieznanego rozk�adu. Pozosta�e hipotezy nazywamy nieparametrycznymi.

Hipoteza prosta to taka hipoteza, kt�ra jednoznacznie okre�la rozk�ad badanej cechy. Hipoteza z�o�ona okre�la ca�� klas� rozk�ad�w.

W praktyce rozwa�amy dwie hipotezy: hipotez� zerow� \(H_0\) (kt�ra zazwyczaj zak�ada brak wyst�powania zjawiska w populacji, brak odst�pstw od normy) oraz hipotez� alternatywn� \(H_1\) (kt�ra zachodzi gdy hipoteza zerowa nie jest prawdziwa). Hipoteza alternatywna odnosi si� bezpo�rednio do teorii, kt�r� chcemy zbada�.

Testowanie hipotez

Testowanie hipotez obejmuje cztery etapy:

Sformuowanie hipotezy zerowej i alternatywnej. Je�li odrzucimy \(H_0\) to przyjmujemy \(H_1\).
Pobranie odpowiedniej pr�by do testu \(X_1,X_2,X_3,\dots,X_n\).
Obliczenie statystyki testowej czyli funkcji pr�by \(\delta(X_1,X_2,X_3,\dots,X_n)\) i/lub p-warto�ci.
Sprawdzenie czy warto�� statystyki testowej le�y w zbiorze krytycznym \(W\) dla danego testu lub czy p-warto�� jest mniejsza lub r�wna od przyj�tego poziomu istotno�ci \(\alpha\). Odrzucamy \(H_0\) je�li \(\delta(X_1,X_2,X_3,\dots,X_n) \in W\) lub \(\text{p-warto��} \leq \alpha\). W przeciwnym wypadku m�wimy, �e nie ma podstaw do odrzucenia hipotezy zerowej.

B��dy w testowaniu hipotez

Wnioskujac o calej populacji na podstawie pr�by mo�emy popelni� jeden z dwoch b��d�w:

B��d I rodzaju polega na odrzuceniu hipotezy zerowej \(H_0\) w sytuacji gdy jest ona prawdziwa.
B��d II rodzaju polega na przyj�ciu hipotezy zerowej \(H_0\) w sytuacji gdy jest ona fa�szywa.

	Odrzuc \(H_0\)	Nie odrzucaj \(H_0\)
\(H_0\) prawdziwa	B��d I rodzaju	Brak b��du
\(H_0\) fa�szywa	Brak b��du	B��d II rodzaju

Niestety, dla ustalonej statystyki testowej je�li zmniejszamy prawdopodobie�stwo b��du I rodzaju \(P_1\) (np. przyjmuj�c \(H_0\) przy s�abych dowodach jej s�uszno�ci) to ro�nie prawdopodobie�stwo b��du II rodzaju \(P_2\).

W praktyce ustalamy z g�ry maksymaln� warto�� dla prawdopodobie�stwa b��du I rodzaju. Warto�� t� nazywamy poziomem istotno�ci testu i oznaczamy symbolem \(\alpha\) (zwykle przyjmuje si� \(\alpha=0.05\), \(\alpha=0.005\), \(\alpha=0.001\), czasami \(\alpha=0.1\)).

Moc testu \(\beta\) jest to prawdopodobie�stwo odrzucenia hipotezy zerowej gdy jest ona fa�szywa, a zatem \(\beta = 1 - P_2\). Im wi�ksza jest moc testu tym lepiej. Czynniki wp�ywaj�ce na moc:

Wielko�� pr�by. Moc ro�nie z wielkosci� pr�by.
Zmienno�� obserwacji. Moc wzrasta, gdy zmienno�� obserwacji maleje.
Wielko�� badanego efektu. Moc testu jest wi�ksza dla wi�kszych efektow.
Poziom istotno�ci \(\alpha\). Moc testu ro�nie razem z poziomem istotno�ci (gdy \(P_1\) wzrasta, to \(P_2\) maleje).

Statystyka testowa, zbi�r krytyczny i p-warto��

Spos�b w jaki liczymy statystyk� testowa i wyznaczamy zbi�r krytyczny \(W\) zale�y od konkretnego testu statystycznego. Warto jednak zapami�ta�, �e warto�� statystyki testowej jest funkcj� pr�by i nie zale�y od poziomu istotno�ci \(\alpha\), w przeciwie�stwie do zbioru krytycznego \(W\), kt�rego granice s� wyznaczane jako kwantyle rz�du \(1-\alpha\) odpowiednich rozk�ad�w prawdopodbie�stw, i kt�ry nie zale�y od danych z pr�by.

Wzory pozwalaj�ce obliczy� warto�� statystyki testowej oraz granice zbioru krytycznego. (Dokument pochodzi �e strony internetowej dr hab. Anny Dembi�skiej z Wydzia�u MiNI PW https://www.mini.pw.edu.pl/~dembinsk.)

Najtrudniejszym do zrozumienia konceptem jest p-warto��. Definicja m�wi, �e jest to najmniejsza warto�� poziomu istotno�ci przy kt�rej dla danej warto�ci statystyki testowej odrzucamy hipotez� zerowa \(H_0\). Wynika z tego, �e p-warto�� zale�y od warto�ci statystyki testowej (czyli zale�y od pr�by).

P-warto�� jest prawdopodobie�stwem otrzymania wynik�w z pr�by lub wynik�w bardziej skrajnych, je�eli hipoteza zerowa jest prawdziwa. Innymi s�owy, p-warto�� jest prawdopodobie�stwem tego, �e zaobserwowane w danych zjawisko mog�o wystapic przypadkowo i �e w calej populacji takie zjawisko wcale nie wyst�puje.

Przyk�ady

W pakiecie R (biblioteka podstawowa stats) zaimplementowanych jest wiele funkcji u�atwiaj�cych testowanie hipotez statystycznych, m.in. t.test() i power.t.test() (hipotezy dotycz�ce warto�ci sredniej rozk�adu normalnego, a dla duzej pr�by dowolnego), prop.test(), binom.test() i power.prop.test() (hipotezy dotycz�ce rozk�adu dwupunktowego), var.test() (hipotezy dotycz�ce r�wnosci dw�ch wariancji). Poni�ej jest om�wionych kilka przyk�adow u�ycia tych funkcji (przyk�ady pochodz� z wyk�adu Wst�p do Wnioskowania Statystycznego prowadzonego przez dr hab. Ann� Dembi�ska z Wydzia�u MiNI PW https://www.mini.pw.edu.pl/~dembinsk).

Przyk�ad 5.1

Czas montowania b�bna w pralce jest zmienn� losow� o rozk�adzie normalnym z odchyleniem standardowym r�wnym p� minuty. Norma techniczna przewiduje na t� czynno�� 6 minut. W�r�d za�ogi panuje jednak przekonanie, �e ten normatywny czas jest zbyt kr�tki. Zmierzono czas montowania b�bna przez 6 losowo wybranych robotnik�w i otrzymano nast�puj�ce wyniki (w minutach): 6.2, 7.1, 6.3, 5.9, 5.5, 7.0. Na poziomie istotno�ci 0.05 stwiedzi�, czy przekonanie za�ogi jest s�uszne.

# H0: mu=6, H1: mu>6, Model I - nieznana �rednia, znana wariancja
alfa <- 0.05
sd <- 0.5
mu <- 6
# Proba
x <- c(6.2,7.1,6.3,5.9,5.5,7.0)
n <- length(x)
# Zbior krytyczny W=< qnorm(1-alfa); +Inf>
w <- qnorm(1-alfa,0,1); w

## [1] 1.644854

# Statystyka testowa
U <- sqrt(n)*(mean(x)-mu)/sd; U

## [1] 1.632993

# Statystyka testowa nie wpada do zbioru krytycznego. Nie ma podstaw do odrzucenia H0

Przyk�ad 5.2

Dzia� kontroli jako�ci w zak�adach chemicznych chce oszacowa� �redni� wag� proszku do prania sprzedawanego w pude�kach o nominalnej wadze 3 kg. Pobrano w tym celu pr�bk� losow� 7 pude�ek i otrzymano wyniki (w kg): 2.93, 2.97, 3.05, 2.91, 3.02, 2.87, 2.92. Wiadomo, �e rozk�ad wagi pude�ka proszku do prania jest normalny.

Czy na poziomie istotno�ci 0.05 mo�na twierdzi�, �e faktyczna �rednia waga pude�ka proszku do prania jest mniejsza ni� 3 kg?

# H0: mu=3, H1: mu<3, Model II - nieznana �rednia i wariancja
alfa <- 0.05
mu <- 3
# Proba
x <- c(2.93,2.97,3.05,2.91,3.02,2.87,2.92)
n <- length(x)
# Pakiet R ma wbudowany test T-Studenta dla modelu II
wynik <- t.test(x, alternative = "less", mu=mu); wynik

## 
##  One Sample t-test
## 
## data:  x
## t = -1.9502, df = 6, p-value = 0.04952
## alternative hypothesis: true mean is less than 3
## 95 percent confidence interval:
##     -Inf 2.99983
## sample estimates:
## mean of x 
##  2.952857

wynik$p.value > alfa # P-warto�� jest mniejsza ni� poziom istotno�ci. Odrzucamy zatem H0.

## [1] FALSE

Zak�adaj�c, �e rzeczywista �rednia waga proszku do prania wynosi 2.9 kg, wyznaczy� prawdpodobienstwo, �e przeprowadzaj�c test na poziomie istotno�ci 0.05 i na podstawie 7 obserwacji, b��dnie uznamy, �e �rednia waga proszku jest zgodna z podan� na pude�ku.

# Pakiet R ma wbudowan� funkcje do obliczenia mocy testu T-Stuenta
mu1 <- 2.9
moc <- power.t.test(n, delta=mu-mu1, sd=sd(x), sig.level = alfa, type="one.sample", alternative = "one.sided"); moc

## 
##      One-sample t test power calculation 
## 
##               n = 7
##           delta = 0.1
##              sd = 0.06395683
##       sig.level = 0.05
##           power = 0.9758999
##     alternative = one.sided

1 - moc$power # Szukane prawdopodobie�stwo wynosi:

## [1] 0.02410011

Jak liczn� pr�bk� trzeba by pobra�, by przeprowadzony test (na poziomie istotno�ci 0.05), w sytuacji, gdy rzeczywista �rednia waga pude�ka proszku do prania wynosi 2.9 kg, odrzuca� hipotez�, �e �rednia waga proszku jest zgodna z podan� na pude�ku, z prawdopodobie�stwem nie mniejszym ni� 0.9?

moc <- power.t.test(delta=mu-mu1, sd=sd(x), sig.level = alfa, type="one.sample", alternative = "one.sided", power = 0.9); moc

## 
##      One-sample t test power calculation 
## 
##               n = 5.186366
##           delta = 0.1
##              sd = 0.06395683
##       sig.level = 0.05
##           power = 0.9
##     alternative = one.sided

ceiling(moc$n) # Szukana liczba pr�bek wynosi:

## [1] 6

Przyk�ad 5.3

Ogrodnik ma 5000 nasion bia�ych i czerwonych tulipanow. Chcia�by wiedzie� jaki procent owych nasion to nasiona tulipan�w bia�ych. Nasiona te przeznaczone s� do sprzedazy, wi�c nie mo�e ich wszystkich wysia� i sprawdzi�, ile z nich zakwitnie na bia�o. Wybra� zatem losowo 100 nasion, posia� je i okaza�o si�, �e 13 z nich ma bia�e kwiaty.

Czy na poziomie istotno�ci 0.01 ogrodnik mo�e stwierdzic, �e nasiona bia�ych tulipanow stanowi� 10% wszystkich nasion?

# H0: p=0.1, H1: p!=0.1, Model IV - zmienna losowa ma rozk�ad dwupunktowy P(bialy)=p, P(czerwony)=1-p=q
alfa <- 0.01
p <- 0.1
n <- 100
b <- 13
wynik <- prop.test(x=b, n=n, p=p, alternative = "two.sided"); wynik

## 
##  1-sample proportions test with continuity correction
## 
## data:  b out of n, null probability p
## X-squared = 0.69444, df = 1, p-value = 0.4047
## alternative hypothesis: true p is not equal to 0.1
## 95 percent confidence interval:
##  0.07376794 0.21560134
## sample estimates:
##    p 
## 0.13

wynik$p.value > alfa # P-warto�� jest wi�ksza ni� poziom istotno�ci. Nie ma podstaw do odrzucenia H0.

## [1] TRUE

Czy zmieni si� odpowied� w punkcie (a) je�li ogrodnik posieje jedynie 10 nasion i 2 z nich wykie�kuj� na bia�o?

# Poniewaz b=2<5 to nie mo�na stosowac przyblizenia rozkladem normalnym. Uzyjemy funkcji binom.test, kt�ra daje dokladne wyniki dla rozk�adu dwupunktowego.
b <- 2
n <- 10
wynik <- binom.test(x=b,n=n,p=p, alternative = "two.sided"); wynik

## 
##  Exact binomial test
## 
## data:  b and n
## number of successes = 2, number of trials = 10, p-value = 0.2639
## alternative hypothesis: true probability of success is not equal to 0.1
## 95 percent confidence interval:
##  0.02521073 0.55609546
## sample estimates:
## probability of success 
##                    0.2

wynik$p.value > alfa # P-warto�� jest wi�ksza ni� poziom istotno�ci. Nie ma podstaw do odrzucenia H0.

## [1] TRUE

Przyk�ad 5.4

20 sposrod 100 losowo wybranych student�w studi�w zaocznych i 40 sposrod 120 losowo wybranych student�w studi�w dziennych zda�o egzamin ze Statystyki w pierwszym terminie.

Czy na podstawie powy�szych danych mo�emy stwierdzic, na poziomie istotno�ci 0.01, �e studenci studi�w zaocznych gorzej przygotowuj� si� do egzaminu ze Statystyki ni� studenci dzienni?

# H0: pz = pd, H1: pz < pd
alfa <- 0.01
x <- c(20,40)
n <- c(100,120)
delta <- 0 # Hipoteza zerowa
wynik <- prop.test(x=x, n=n, alternative = "less"); wynik

## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  x out of n
## X-squared = 4.2398, df = 1, p-value = 0.01974
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.00000000 -0.02752747
## sample estimates:
##    prop 1    prop 2 
## 0.2000000 0.3333333

wynik$p.value > alfa # P-warto�� jest wi�ksza ni� poziom istotno�ci. Nie ma podstaw do odrzucenia H0.

## [1] TRUE

Przypuszczamy, �e zdawalno�� egzaminu ze Statystyki w pierwszym terminie wynosi dla student�w dziennych 0.3 a zaocznych 0.2. Ilu student�w dziennych i zaocznych trzeba by wylosowa� do pr�by by jednostronny test por�wnuj�cy proporcje z poziomem istotno�ci 0.01 mia� moc 0.75?

moc <- power.prop.test(p1 = 0.2, p2 = 0.3, sig.level = alfa, power = 0.75, alternative = "one.sided"); moc

## 
##      Two-sample comparison of proportions power calculation 
## 
##               n = 336.6738
##              p1 = 0.2
##              p2 = 0.3
##       sig.level = 0.01
##           power = 0.75
##     alternative = one.sided
## 
## NOTE: n is number in *each* group

2*ceiling(moc$n) # Szukana liczba student�w wynosi:

## [1] 674

Przyk�ad 5.5

Losow� grup� 5 os�b poddano 6-tygodniowej diecie odchudzaj�cej. Uzyskano nast�puj�ce wyniki (waga przed i po kuracji [w kg]):

Przed kuracj�	Po kuracji
88	75
86	76
82	83
64	65
59	58

Mo�na zalo�y�, �e rozk�ad ��czny wagi przed i po kuracji jest normalny.

Czy powy�sze wyniki potwierdzaj� skuteczno�� diety na poziomie istotno�ci 0.05?

# H0: mu0 = mu1, H1: mu0 > mu1
alfa <- 0.05
x0 <- c(88,86,82,64,59)
x1 <- c(75,76,83,65,58)
wynik <- t.test(x=x0, y=x1, paired = TRUE, alternative = "greater"); wynik

## 
##  Paired t-test
## 
## data:  x0 and x1
## t = 1.4866, df = 4, p-value = 0.1057
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -1.90969      Inf
## sample estimates:
## mean of the differences 
##                     4.4

wynik$p.value > alfa # P-warto�� jest wi�ksza ni� poziom istotno�ci. Nie ma podstaw do odrzucenia H0.

## [1] TRUE

Przypuszczamy, �e �rednia r�nica wagi sprzed i po kuracji wynosi 4 kg. Jakie jest prawdopodobie�stwo, �e test z punktu (a) potwierdzi skuteczno�� diety?

n <- length(x0)
delta <- 4
moc <- power.t.test(n=n, delta=delta, sd=sd(x0-x1), sig.level=alfa, type="paired", alternative="one.sided"); moc

## 
##      Paired t test power calculation 
## 
##               n = 5
##           delta = 4
##              sd = 6.618157
##       sig.level = 0.05
##           power = 0.3024461
##     alternative = one.sided
## 
## NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs

moc$power # Szukane prawdopodobie�stwo wynosi zaledwie:

## [1] 0.3024461

Przypuszczamy, �e �rednia r�nica wagi sprzed i po kuracji wynosi 4 kg. Ile os�b trzeba by losowo wybra� do eksperymentu by test jednostronny o poziomie istotno�ci 0.05 z prawdopodobienstwem 0.8 potwierdza� skuteczno�� diety?

moc <- power.t.test(power=0.8, delta=delta, sd=sd(x0-x1), sig.level=alfa, type="paired", alternative="one.sided"); moc

## 
##      Paired t test power calculation 
## 
##               n = 18.35582
##           delta = 4
##              sd = 6.618157
##       sig.level = 0.05
##           power = 0.8
##     alternative = one.sided
## 
## NOTE: n is number of *pairs*, sd is std.dev. of *differences* within pairs

ceiling(moc$n) # Liczba os�b, kt�re nalezy wybra� do eksperymentu:

## [1] 19

Przyk�ad 5.6

Dokonano 10 pomiar�w tego samego napi�cia pr�du przy u�yciu dw�ch r�nych woltomierzy. Dla pierwszego woltomierza otrzymano nast�puj�ce wyniki:

v1 <- c(1.2,1.0,1.1,1.4,1.1,1.2,1.0,0.9,1.1,1.2)

a dla drugiego:

v2 <- c(1.3,1.1,1.4,0.9,1.4,1.2,1.3,1.0,1.2,1.3)

Mo�na za�o�y�, �e pomiary napi�cia na badanych woltomierzach maj� rozk�ady normalne.

Na poziomie istotno�ci 0.01 zweryfikowa� hipotez� o jednakowych wynikach pomiaru napi�cia przez oba woltomierze.

# Nie wiemy czy wariancje s� rowne czy nie, zatem w pierwszej kolejno�ci przeprowadzimy test r�wno�ci wariancji
# H0: var1 = var2, H1: var1 != var2, przeprowadzimy test F z alfa=0.1
var.wynik <- var.test(x=v1, y=v2, alternative = "two.sided")
var.wynik$p.value

## [1] 0.6135592

# P-warto�� jest wi�ksza ni� poziom istotno�ci, a zatem nie ma podstaw do odrzucenia H0. Zakladamy zatem, �e wariancje s� rowne. Przetestujemy rownosc srednich.
# H0: mu1 = mu2, H1: mu1 != mu2
alfa <- 0.01
wynik <- t.test(x=v1, y=v2, alternative = "two.sided", mu=0, paired = FALSE, var.equal = TRUE); wynik

## 
##  Two Sample t-test
## 
## data:  v1 and v2
## t = -1.3097, df = 18, p-value = 0.2068
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.23437206  0.05437206
## sample estimates:
## mean of x mean of y 
##      1.12      1.21

wynik$p.value > alfa # P-warto�� jest wi�ksza ni� poziom istotno�ci. Nie ma podstaw do odrzucenia H0.

## [1] TRUE

Przypuszczamy, �e �rednia r�nica pomiar�w na obu woltomierzach to 0.1. Ile pomiar�w na ka�dym woltomierzu nale�y wykona� by moc dwustronnego testu o poziomie istotno�ci 0.01 wynosila nie mniej ni� 0.8.

n1 <- length(v1)
n2 <- length(v2)
s1 <- sd(v1)^2
s2 <- sd(v2)^2
sd <- sqrt(((n1-1)*s1+(n2-1)*s2)/(n1+n2-2))
moc <- power.t.test(delta = 0.1, power = 0.8, sig.level = alfa, alternative = "two.sided", type = "two.sample", sd=sd); moc

## 
##      Two-sample t test power calculation 
## 
##               n = 56.83143
##           delta = 0.1
##              sd = 0.1536591
##       sig.level = 0.01
##           power = 0.8
##     alternative = two.sided
## 
## NOTE: n is number in *each* group

ceiling(moc$n) # Szukana liczba pomiar�w wynosi

## [1] 57

Zadanie punktowane

W kolumnie WeightInitial w pliku http://www.if.pw.edu.pl/~paluch/MSR/data/goats.txt zapisano wag� (w kg) losowo wybranych m�odych k�z hodowanych w Australii. Wiadomo, �e rozk�ad badanej cechy jest normalny.

Na poziomie istotno�ci 0.05 przetestowa� hipotez�, �e �rednia waga m�odych k�z hodowanych w Australii przekracza 23 kg.

## [1] 0.393602

Zak�adaj�c, �e rzeczywista �rednia waga m�odych k�z hodowanych w Australii wynosi 24 kg, wyznaczy� prawdopodobie�stwo, �e przeprowadzaj�c test na poziomie istotno�ci 0.05 i na podstawie 40 obserwacji, b��dnie uznamy, �e �rednia waga takich k�z nie przekracza 23 kg.

## [1] 0.4460559

Za��my, �e rzeczywista �rednia waga m�odych k�z hodowanych w Australii wynosi 24 kg. Ile trzeba by zebra� pomiar�w wag takich k�z, by test (przeprowadzony na poziomie istotno�ci 0.05) wykrywal, z prawdopodobie�stwem nie mniejszym ni� 0.8, �e �rednia waga takich k�z przekracza 23 kg?

## [1] 77

Sprawdzi� na poziomie istotno�ci 0.1 czy mo�na przyj��, �e wariancja wagi m�odych k�z hodowanych w Australii wynosi 20 kg^2.

## [1] 23.75500 25.69539 54.57223

Poza wykonaniem stosownych oblicze�, w ka�dym podpunkcie wymagana jest odpowied� pe�nym zdaniem (w postaci komentarza w skrypcie).