testowanie hipotez

Transkrypt

testowanie hipotez
PS Rozdz 01
28/7/06
13:04
Page 44
17 TESTOWANIE HIPOTEZ
Cz´sto zbieramy dane w celu okreÊlenia, jak wiele mamy dowodów przeciwko okreÊlonej hipotezie o populacji. W celu
kwantyfikacji stopnia naszej pewnoÊci przeciw okreÊlonej
hipotezie stosujemy procedur´ znanà jako testowanie hipotez (lub testowanie istotnoÊci).
Rozdzia∏ ten opisuje ogólne post´powanie w testowaniu
hipotez (ramka 17.1); szczegó∏y testów dla ró˝nych typów hipotez podane sà w kolejnych rozdzia∏ach. Dla u∏atwienia,
test dla ka˝dej z hipotez opisany jest w podobnej ramce.
RAMKA 17.1 Testowanie hipotez
— ogólny przeglàd
Testowanie hipotez obejmuje pi´ç etapów:
1. Sformu∏owanie hipotez zerowej i alternatywnej, podlegajàcych badaniu.
2. Zebranie odpowiednich danych z próby obiektów.
3. Obliczenie wartoÊci statystyki testu okreÊlonej dla hipotezy zerowej.
4. Porównanie wartoÊci statystyki testu z wartoÊciami
znanego rozk∏adu prawdopodobieƒstwa.
5. Interpretacja wartoÊci p i wyników.
OTRZYMYWANIE STATYSTYKI TESTOWEJ
Po zebraniu danych, w celu wyznaczenia statystyki testu,
podstawiamy wartoÊci z naszej próby do wzoru, specyficznego dla testu, którego u˝ywamy. Statystyka ta odzwierciedla
si∏´ dowodu zawartego w danych przeciwko hipotezie zerowej — zwykle wi´ksza wartoÊç, przy zaniedbaniu jej znaku,
oznacza silniejszy dowód.
OTRZYMYWANIE WARTOÂCI P
Wszystkie statystyki testowe podlegajà znanym teoretycznym
rozk∏adom cz´stoÊci (rozdzia∏y 7 i 8). W celu uzyskania wartoÊci p, reprezentujàcego pole w obu (lub czasem w jednym)
ogonach rozk∏adu prawdopodobieƒstwa, wià˝emy wartoÊç statystyki testu otrzymanej z próby ze znanym rozk∏adem. Wi´kszoÊç pakietów komputerowych oblicza dwustronnà wartoÊç
p w sposób automatyczny. WartoÊç p jest prawdopodobieƒstwem otrzymania naszych wyników lub wyników bardziej
skrajnych, je˝eli hipoteza zerowa jest prawdziwa. Hipoteza
zerowa bardziej wià˝e si´ z interesujàcà nas populacjà ni˝
z próbà. Dlatego hipoteza zerowa jest albo prawdziwa, albo fa∏szywa i nie mo˝emy interpretowaç wartoÊci p jako prawdopodobieƒstwa, ˝e hipoteza zerowa jest prawdziwa.
U˚YCIE WARTOÂCI P
DEFINIOWANIE HIPOTEZ
ZEROWEJ I ALTERNATYWNEJ
Zwykle testujemy hipotez´ zerowà (H0), która zak∏ada brak
oddzia∏ywania w populacji (np. ró˝nica mi´dzy Êrednimi wynosi zero). Na przyk∏ad, je˝eli interesuje nas porównanie odsetka palàcych m´˝czyzn i kobiet w populacji, hipoteza zerowa ma kszta∏t:
H0: Odsetki palàcych m´˝czyzn i kobiet w populacji sà takie same.
Nast´pnie okreÊlamy hipotez´ alternatywnà (H1), która
zachodzi, gdy hipoteza zerowa nie jest prawdziwa. Hipoteza
alternatywna odnosi si´ bezpoÊrednio do teorii, którà chcemy zbadaç. Tak wi´c, w naszym przypadku mo˝emy sformu∏owaç hipotez´:
H1: Odsetki palàcych m´˝czyzn i kobiet w populacji si´
ró˝nià.
Nie okreÊliliÊmy kierunku ró˝nicy mi´dzy osobami palàcymi, tzn. nie stwierdziliÊmy, czy m´˝czyêni stanowià wi´kszy czy mniejszy odsetek w populacji ni˝ kobiety. Jest to
wi´c tzw. test dwustronny, w którym dopuszczamy ka˝dà
ewentualnoÊç. Test ten jest polecany, gdy nie jesteÊmy pewni
kierunku ró˝nicy, o ile takowa istnieje. W pewnych, bardzo
rzadkich okolicznoÊciach, mo˝emy przeprowadziç test jednostronny, w którym w H1 okreÊlamy kierunek dzia∏ania. Mo˝na go zastosowaç, gdy rozwa˝amy chorob´, na skutek której
wszyscy nie leczeni umierajà (nowy lek nie mo˝e sprawy pogorszyç), lub gdy prowadzimy badanie równowa˝noÊci czy
braku pogorszenia (patrz ostatnia cz´Êç tego rozdzia∏u).
Musimy podjàç decyzj´, jak silnych dowodów potrzebujemy
do odrzucenia hipotezy zerowej na korzyÊç hipotezy alternatywnej. Im mniejsza jest wartoÊç p, tym mamy silniejsze dowody przeciw hipotezie zerowej.
• Zazwyczaj przyjmujemy, ˝e je˝eli wartoÊç p jest mniejsza ni˝ 0,05, mamy dowód wystarczajàcy do odrzucenia hipotezy zerowej, skoro istnieje tak ma∏a szansa uzyskania takich wyników, je˝eli hipoteza zerowa by∏aby prawdziwa.
Mo˝emy wtedy odrzuciç hipotez´ zerowà i powiedzieç, ˝e
wyniki sà istotne na poziomie 5% (rycina 17.1).
• Je˝eli natomiast wartoÊç p jest równa lub wi´ksza ni˝
0,05, zazwyczaj stwierdzamy, ˝e nie mamy dowodów wystarczajàcych do odrzucenia hipotezy zerowej. Nie odrzucamy hipotezy zerowej i mówimy, ˝e wyniki nie sà istotne na poziomie 5% (rycina 17.1). Nie oznacza to, ˝e hipoteza zerowa jest
prawdziwa; po prostu nie mieliÊmy dostatecznego dowodu,
aby jà odrzuciç.
Funkcja g´stoÊci
prawdopodobieƒstwa
Prawdopodobieƒstwo
p
= 0,025
2
Prawdopodobieƒstwo
p
= 0,025
2
Statystyka testowa
WartoÊci statystyki testowej,
które dajà p > 0,05
WartoÊci statystyki testowej,
które dajà p< 0,05
Rycina 17.1. Rozk∏ad prawdopodobieƒstwa statystyki testowej ukazujàcy dwustronne prawdopodobieƒstwo, p = 0,05.
44
Testowanie hipotez
PS Rozdz 01
28/7/06
13:04
Page 45
Wybór 5% jest arbitralny. W 5% sytuacji b∏´dnie odrzucimy hipotez´ zerowà, chocia˝ jest ona prawdziwa. W sytuacjach, w których implikacje kliniczne b∏´dnego odrzucenia
hipotezy zerowej sà powa˝ne, mo˝emy ˝àdaç silniejszego dowodu przed jej odrzuceniem (np. mo˝emy si´ zdecydowaç na
odrzucenie hipotezy zerowej, je˝eli wartoÊç p jest mniejsza
ni˝ 0,01 lub 0,001). Wybrana wartoÊç odci´cia dla p (np. 0,05
lub 0,01) zwana jest poziomem istotnoÊci testu; trzeba go
wybraç przed zebraniem danych.
Opisywanie wyników jako istotnych tylko na pewnym poziomie odci´cia (np. stwierdzenie tylko, ˝e p < 0,05) mo˝e byç
mylàce. Na przyk∏ad, je˝eli p = 0,04, odrzucimy H0; je˝eli
jednak p = 0,06, nie odrzucimy jej. Czy rzeczywiÊcie sà one
ró˝ne? Dlatego polecamy podawanie dok∏adnej wartoÊci p,
otrzymywanej cz´sto w wynikach komputerowych.
TESTY NIEPARAMETRYCZNE
Testowanie hipotez oparte na znajomoÊci rozk∏adów prawdopodobieƒstwa, któremu podlegajà dane, okreÊlane jest jako
testowanie parametryczne. Cz´sto si´ zdarza, ˝e dane nie
spe∏niajà za∏o˝eƒ, które le˝à u podstaw tych metod (rozdzia∏
35). W tej sytuacji mo˝emy u˝yç testów nieparametrycznych
(czasami okreÊlanych jako testy niezale˝ne od rozk∏adów lub
metod rangowych). Testy te ogólnie zast´pujà dane poprzez
ich rangi (tj. liczby 1, 2, 3 etc. opisujàce ich pozycje w uporzàdkowanym zestawie danych) i nie wymagajà ˝adnych za∏o˝eƒ co do rozk∏adu prawdopodobieƒstwa w danych.
Testy nieparametryczne przydajà si´ szczególnie wtedy,
gdy próby sà ma∏o liczne (tak, ˝e nie ma mo˝liwoÊci oszacowania rozk∏adu danych) i/lub gdy dane sà podawane w skali
kategorialnej. Jednak˝e testy nieparametryczne generalnie
trwonià informacje; dlatego w przypadku spe∏nienia wszystkich za∏o˝eƒ niezb´dnych do u˝ycia testów parametrycznych
posiadajà one mniejszà moc (rozdzia∏ 18) wykrycia rzeczywistego efektu ni˝ odpowiednie testy parametryczne. Co wi´cej,
sà one przede wszystkim testami istotnoÊci, które nie pozwalajà na uzyskanie estymatorów interesujàcych nas efektów;
prowadzà raczej do podj´cia decyzji, a nie do oceny i zrozumienia danych.
KTÓREGO TESTU U˚Yå?
Decyzja, którego testu statystycznego nale˝y u˝yç, zale˝y od
projektu badania, typu zmiennej i rozk∏adu, jakiemu podlegajà dane z badania. Pomocà w podj´ciu decyzji mo˝e byç schemat blokowy zamieszczony na wewn´trznej stronie ok∏adki.
TESTOWANIE HIPOTEZ
A PRZEDZIA¸Y UFNOÂCI
Przedzia∏y ufnoÊci (rozdzia∏ 11) i testowanie hipotez sà ze sobà ÊciÊle powiàzane. Podstawowym celem testowania hipotez
jest podj´cie decyzji i znalezienie dok∏adnej wartoÊci p.
Przedzia∏y ufnoÊci kwantyfikujà interesujàcy nas wynik (np.
ró˝nic´ Êrednich) i pozwalajà na okreÊlenie klinicznych aplikacji wyników. Poniewa˝ jednak okreÊlajà one zakres wiarogodnych wartoÊci prawdziwego wyniku, mogà byç równie˝
u˝yte do podejmowania decyzji, aczkolwiek nie pozwalajà na
znalezienie dok∏adnej wartoÊci p. Na przyk∏ad, je˝eli hipotetyczna wartoÊç wyniku (np. zero) le˝y poza 95% przedzia∏em
ufnoÊci, wtedy uznajemy, ˝e wartoÊç hipotetyczna nie jest
wiarogodna i odrzucamy H 0. W naszym przypadku wiemy,
˝e wartoÊç p jest mniejsza ni˝ 0,05, ale nie wiemy, jaka jest
dok∏adnie.
BADANIA RÓWNOWA˚NOÂCI
I BRAKU POGORSZENIA
W wi´kszoÊci eksperymentów zrandomizowanych kontrolowanych (rozdzia∏ 14) dwóch lub wi´kszej liczby sposobów leczenia jesteÊmy zwykle zainteresowani wykazaniem wy˝szoÊci co najmniej jednego leczenia nad pozosta∏ymi. Jednak
w pewnych sytuacjach mo˝emy uwa˝aç, ˝e nowe leczenie
(np. lek) nie jest bardziej efektywne ni˝ leczenie aktualnie
stosowane, lecz posiada inne wa˝ne zalety, prawdopodobnie
w postaci zmniejszenia efektów ubocznych, wielkoÊci pigu∏ek
lub kosztów. Wtedy mo˝emy chcieç pokazaç, ˝e skutecznoÊç
nowego leczenia jest podobna (w eksperymencie równowa˝noÊci) lub nie jest znaczàco gorsza (w eksperymencie braku
pogorszenia) od skutecznoÊci aktualnego leczenia.
Podczas przeprowadzania eksperymentu równowa˝noÊci
lub testu braku pogorszenia nie stosuje si´ procedury u˝ywanej do testowania hipotezy w zwyk∏ym eksperymencie przewagi, który testuje hipotez´ zerowà zak∏adajàcà, ˝e oba sposoby leczenia sà takie same. Dzieje si´ tak dlatego, ˝e (1) wynik
nieistotny nie implikuje braku pogorszenia/równowa˝noÊci,
a (2) nawet je˝eli zostanie wykryty efekt istotny statystycznie,
mo˝e on byç niewa˝ny z klinicznego punktu widzenia. Zamiast
tego, w eksperymencie równowa˝noÊci odwracamy hipotezy
zerowà i alternatywnà tak, ˝e hipoteza zerowa wyra˝a ró˝nic´, a hipoteza alternatywna wyra˝a równowa˝noÊç.
Zamiast obliczania statystyki testowej, podchodzimy ogólnie do problemu oszacowania równowa˝noÊci lub braku pogorszenia1 poprzez sprawdzenie, czy przedzia∏ ufnoÊci dla
badanego efektu (np. ró˝nica w Êrednich pomi´dzy dwoma
badanymi grupami) le˝y ca∏kowicie lub cz´Êciowo w zdefiniowanym uprzednio zakresie równowa˝noÊci (tj. zakresie wartoÊci, okreÊlonym przez ekspertów klinicznych, który odpowiada efektowi braku istotnoÊci klinicznej). Je˝eli ca∏y
przedzia∏ ufnoÊci dla badanego efektu le˝y wewnàtrz zakresu równowa˝noÊci, wtedy wnioskujemy, ˝e dwa sposoby leczenia sà równowa˝ne; w tej sytuacji, nawet gdy górna i dolna granica przedzia∏u ufnoÊci sugerujà, ˝e istnieje przewaga
jednego sposobu leczenia nad drugim, nie jest prawdopodobne, by by∏o to wa˝ne z punktu widzenia klinicznego. W eksperymencie braku pogorszenia chcemy pokazaç, ˝e nowy
sposób leczenia nie jest istotnie gorszy od sposobu standardowego (je˝eli nowe leczenie okazuje si´ lepsze ni˝ standardowe, b´dzie to dla nas dodatkowa korzyÊç!). W tej sytuacji,
je˝eli dolna granica odpowiedniego przedzia∏u ufnoÊci nie
wypada poni˝ej dolnej granicy zakresu równowa˝noÊci, mo˝emy wnioskowaç, ˝e nowe leczenie nie jest gorsze.
Je˝eli nie zostanie inaczej zaznaczone, testy hipotez w kolejnych rozdzia∏ach sà testami przewagi. Nale˝y zwróciç uwag´, ˝e metody wyznaczania wielkoÊci próby opisane w rozdziale 36 nie stosujà si´ do eksperymentów równowa˝noÊci lub
braku pogorszenia. WielkoÊç próby niezb´dna w eksperymentach równowa˝noÊci lub braku pogorszenia 2 jest ogólnie wi´ksza ni˝ w eksperymencie porównywania przewagi, je˝eli
wszystkie czynniki wp∏ywajàce na wielkoÊç próby (tzn. poziom istotnoÊci statystycznej, moc) sà takie same.
* John B., Jarvis P., Lewis J. A., Ebbutt, A. F.:Trials to assess equivalence: the importance of rigorous methods. British Medical Journal 1996, 313, 36–39.
** Julious, S. A.: Tutorial in Biostatistics: Sample sizes for clinical
trials with Normal data. Statistics in Medicine, 2004, 23, 1921–1986.
17. Testowanie hipotez
45