Testowanie hipotez

Transkrypt

Testowanie hipotez
Statystyczne testowanie hipotez: procedura, która pozwala ocenić hipotezę na temat parametru populacji w oparciu o statystykę
próby.
Zauważyliśmy, że ceny pieczywa w Opolu są wyższe niż gdzie indziej w Polsce. Powiedzmy, że dobraliśmy próbę losową piekarni
z Opolszczyzny (N=100). Z ogólnopolskich badań wiemy, jak wyglądają ceny np. za bochenek chleba. (średnia = 2,86, odchylenie
= 0,17). Możemy więc porównać ceny ogólnopolskie z tymi z naszych badań (załóżmy, że wyszła nam średnia 3,11). Mamy do
czynienia z dużą różnicą - 25 groszy, ale czy możemy powiedzieć, że na Opolszczyźnie ceny chleba są o 25 gr wyższe opierając
się na danych z jednej jedynej próby?
Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce.
Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni.
Żeby dowiedzieć się, które z tych wyjaśnień jest bardziej prawdopodobne musimy przetestować hipotezę.
Założenia leżące u podłoża statystycznego testowania hipotez:
Próba została dobrana w sposób losowy.
Zmienna jest mierzona na poziomie ilościowym.
Nie możemy założyć, że zmienna w populacji rozkłada się w sposób normalny. Jednak, skoro wiemy, że gdy nasza próba jest
wystarczająco duża (N>50), możemy odwołać się do centralnego twierdzenia granicznego i rozkład z próby będzie w
przybliżeniu normalny.
Mamy założenia, teraz trzeba sformułować hipotezy:
Hipoteza badawcza (H1)
Twierdzenie odzwierciedlające merytoryczną hipotezę (którą stworzyliśmy na podstawie teorii). Zawsze mówi ona o
parametrach populacji.
Hipoteza zerowa (H0)
Twierdzenie o tym, że "nie ma różnicy", które przeczy hipotezie badawczej. Zawsze jest wyrażone przy pomocy parametrów
populacji.
Mówimy o średnich cenach chleba i nasza hipoteza brzmi, że w ceny chleba w Opolu są wyższe niż gdzie indziej w Polsce.
Wyrazimy naszą hipotezę symbolicznie: H1: AVY > 2,86 zł (średnia cena chleba w Opolu jest wyższa niż średnia cena chleba w
PL, która wynosi 2,86).
Ogólnie rzecz biorąc, hipotezy badawcze (H1) stwierdzają jedno z poniższych:
Nierówna określonej wartości AVY
Jest wyższa niż określona wartość AVY
Jest niższa niż określona wartość AVY
Jest możliwe, że w naszej populacji faktycznie nie ma różnicy pomiędzy cenami chleba w Opo i PL, a nasza różnica 25 groszy
wynika z układu w próbie. Niestety nie możemy zaprzeczyć wprost tej hipotezie, możemy jedynie oszacować
prawdopodobieństwo tego, czy jest ona prawdziwa, opierając się na teorii prawdopodobieństwa w statystyce inferencyjnej.
Aby oszacować to prawdopodobieństwo, trzeba: ustanowić hipotezę, która jest odwrotna do naszej hipotezy badawczej.
Hipoteza zerowa przeczy hipotezie badawczej i zwykle jest twierdzeniem o tym, że nie ma różnicy pomiędzy średnią w populacji
a jakąś określoną wartością. Nazywamy ją także hipotezą "bez różnicy".
Możemy ją wyrazić: H0: AVY = 2,86 zł
Więc zamiast bezpośrednio testować naszą hipotezę badawczą, która mówi, że jest różnica między średnią ceną chleba w Opolu
i średnią ceną chleba w Polsce, testujemy hipotezę zerową (H0), która mówi, że nie ma różnicy w cenach. Mamy nadzieję
odrzucić hipotezę zerową i tym samym udowodnić naszą hipotezę badawczą.
Testy jednostronne i dwustronne.
W testach jednostronnych hipoteza badawcza jest kierunkowa, to znaczy, twierdzi, że średnia populacji jest albo mniejsza albo
większa od jakiejś określonej wartości. Możemy wyrazić hipotezę badawczą:
H1: AVY < 2,86 zł (lewostronna - po lewej stronie wykresu)
albo
H1: AVY > 2,86 zł (prawostronna - po prawej stronie wykresu)
Hipoteza o cenach chleba jest jednostronna. Prawostronna.
Czasami przewidujemy, że jest jakaś różnica między grupami, ale nie wiemy, czy to będzie mniej czy więcej. Np. można
powiedzieć, że "ceny pieczywa w Opolu są inne niż w Polsce". Kiedy nie mamy teoretycznych podstaw, żeby ustalić kierunek
hipotezy badawczej, przeprowadzamy test dwustronny.
H1: AVY =/= 2,86 zł
W obu przypadkach ( jedno i dwu stronnej H1) hipoteza zerowa pozostaje taka sama: H0: AVY = 2,86 zł.
W takim razie zakładamy, że nasza hipoteza zerowa (AVY =/= 2,86 zł) jest prawdziwa i chcemy sprawdzić, czy dane z naszej
próby poddają w wątpliwość nasze założenie, sugerując, że mamy dowód na naszą hipotezę badawczą: AVY > 2,86.
Jakie są szanse, że wybralibyśmy losowo próbę opolskich piekarni taką, że cena za chleb jest wyższa niż 2,86 zł średnio? Możemy
je ustalić, bazując na centralnym twierdzeniu granicznym,
Założymy, że hipoteza zerowa jest prawdziwa i zobaczymy, czy dane z próby rzucają jakiś cień wątpliwości na to. Mamy: średnią
populacji AVY = 2,86 i odchylenie SDY= 0,17. Wielkość próby N = 100, a średnia próby AV = 3.11. Możemy założyć, że rozkład
prób wszystkich możliwych N=100 byłby normalny, ze średnią 2,86 i SDY = 0,17/SqR 100 = 0.017
Ponieważ rozkład z próby jest normalny, możemy użyć tabeli rozkładu normalnego z wartościami Z i ustalić
prawdopodobieństwo wylosowania próby ze średnią 3,11 lub wyższą z tej populacji:
Z = (Y-Y-)/ SY
Ponieważ pracujemy z rozkładem z próby, w którym naszym wynikiem jest średnia Y- (3,11), a odchylenie standardowe to SDY/
SqR N, musimy zmodyfikować wzór:
Z = (Y- - AVY) / (SDY / SqR N)
Przekształcanie średniej próby w wartość Z nazywamy obliczaniem statystyki testowej. Statystykę Z, którą otrzymamy, nazywamy
wartością Z (otrzymaną). (Ta wartość odpowiada nam na pytanie, jak daleko [w jednostkach SD] jest nasza próba od
hipotetycznej wartości (AV), zakładając, że hipoteza zerowa jest prawdziwa.)
W naszym przykładzie: Z = (3,11 - 2,86) / (0,17 / SqR 100) = 14,7
Wartość Z (otrzymana) to statystyka testowa obliczona przez przekształcenie statystyki próby (takiej jak średnia) w wartość Z.
Zanim ustalimy prawdopodobieństwo naszej otrzymanej wartości Z, ustalmy, czy ona jest zgodna z naszą hipotezą badawczą.
Zdefiniowaliśmy ją jako prawostronną (AVY > 2,86) i przewidzieliśmy, że będziemy szacować różnicę w prawym ogonie wykresu
rozkładu z próby. Pozytywna wartość Z potwierdza to.
Żeby ustalić prawdopodobieństwo zaobserwowania wartości Z = 14,7, zakładając, że hipoteza zerowa jest prawdziwa,
sprawdzamy jaki jest obszar na prawo (czyli powyżej) Z = 14,7. Nie ma takiego Z nawet na liście, oprzemy się na najwyższej
wartości z tabeli dla Z=4. Obszar poza Z=14,7 zawiera próby ze średnimi 3.11 i więcej. Proporcja jest mniejsza niż 0,0001. To
właśnie wartość prawdopodobieństwa otrzymania tak ekstremalnego wyniku jak ten z próby (3,11), gdyby hipoteza zerowa była
prawdziwa. Oznaczamy je symbolem P. Dla naszego przypadku P =< 0,0001.
Wartość P to prawdopodobieństwo związane z otrzymaniem wartości Z. Mierzy ono jak niezwykłe by to było otrzymać
statystykę, jaką otrzymaliśmy, gdyby hipoteza zerowa była prawdziwa. Im mniejsza jest wartość P, tym więcej mamy dowodów, że
należy odrzucić hipotezę zerową na rzecz hipotezy badawczej.
Badacze zwykle definiują z góry, jak wystarczająco nieprawdopodobne jest Z ustalając punkt graniczny, poniżej którego P
powinno spaść, żeby odrzucić hipotezę zerową. Ten punkt nazywamy ALFA i zwyczajowo ustala się na poziomie 0,05, 0,01 lub
0,01.
Powiedzmy, że decydujemy się odrzucić hipotezę zerową jeśli P =< 0,05. Taka wartość nazywana jest ALFA i definiuje ona dla nas,
jaki wynik jest wystarczająco nieprawdopodobny, żebyśmy pozwolili sobie zaryzykować i odrzucić hipotezę zerową. Alfa 0,05
oznacza, że nawet jeżeli otrzymana wartość Z jest spowodowana błędem z próby, który powoduje, że hipoteza zerowa jest
prawdziwa, to my pozwolimy sobie na 5% ryzyka i odrzucimy ją. Wartość P to faktyczne prawdopodobieństwo związane z
otrzymaną wartością Z, a ALFA to poziom prawdopodobieństwa zakładany z góry, na którym odrzuca się hipotezę zerową.
Hipoteza zerowa jest odrzucana, kiedy P<=ALFA.
Alfa to poziom prawdopodobieństwa, na którym odrzuca się hipotezę zerową. Zwyczajowo ustala się Alafa na poziomie 0,05,
0,01, 0,001.
Już wiemy, że otrzymane Z ma prawdopodobieństwo mniejsze niż 0,0001. Nasze zaobserwowane P jest więc mniejsze niż 0,05 (P
= 0,0001 < Alfa = 0,05) i odrzucamy hipotezę zerową.
Wartość 0,0001 mówi nam, że mniej niż jedna na 10 000 prób wylosowanych z tej populacji miałaby taką średnią, która byłaby
14,7 wartości Z powyżej średniej 2,86. Inaczej mówiąc: jest tylko jedna szansa na 10000, że wylosowalibyśmy akurat taką losowa
próbę gdzie Z.=> 14.7 jeśli średnia cena bochenka chleba w Opolu była równa średniej cenie w Polsce.
W przypadku testów dwustronnych mnożymy prawdopodobieństwo przez dwa (oba ogony wykresu!)
Testowanie hipotez, krok po kroku:
Założenia
Hipoteza badawcza, zerowa i ustawianie Alfa
Wybranie rozkładu z próby i statystyki testowej
Obliczenie statystyki
Interpretacja wyników
Błędy przy testowaniu hipotez
Podkreślmy: ponieważ nasze wnioskowanie jest oparte na danych z próby, nigdy nie będziemy pewni, czy hipoteza zerowa jest
prawdziwa, czy nie. W naszym przykładzie mieliśmy 0,01% (=0,0001), ze hipoteza zerowa jest właśnie prawdziwa i po prostu
popełniamy błąd odrzucając ją.
Hipoteza zerowa może być prawdziwa lub nieprawdziwa i w każdym przypadku może być odrzucona lub nieodrzucona.
Jeśli odrzucamy prawdziwą hipotezę, popełniamy tzw. błąd pierwszego rodzaju.
Jeśli nie odrzucamy nieprawdziwej hipotezy, popełniamy tzw. błąd drugiego rodzaju.
Możemy kontrolować ryzyko odrzucenia prawdziwej hipotezy manipulując wartością ALFA - ustawiając ją na 0,01 na przykład
czyli redukując ryzyko popełnienie błędu pierwszego rodzaju do 1%. Niestety, oba rodzaje błędu łączy sprzężenie zwrotne,
zmniejszając ryzyko błędu 1. rodzaju, zwiększamy ryzyko popełnienia błędu 2. rodzaju.
Statystyka t i szacowanie błędu standardowego
Statystyka Z, której używaliśmy do tej pory wymagała znajomości odchylenia standardowego w populacji i przy jego użyciu
obliczaliśmy błąd standardowy (SIGMAY/ SqR N). W większości przypadków nie znamy parametru populacji i będziemy używać
odchylenia standardowego próby (SY), żeby testować hipotezę. W takim przypadku, nie będziemy odwoływać się do rozkładu Z,
ale do rozkładu statystyki t:
t = (Y- - AVY) / (SY / SqR N)
Wartość t, którą otrzymamy będziemy nazywać statystyką (wartością) t otrzymaną.
Wartość t (otrzymana) to statystyka testowa obliczana przy testowaniu hipotezy zerowej na temat średniej populacji, kiedy
odchylenie standardowe populacji nie jest znane i szacuje się je przy użyciu odchylenia standardowego próby.
Rozkład t i stopnie swobody
Rozkład t (Studenta) to rodzina rozkładów, z których każdy jest określony przez swój stopień swobody (df ). Rozkład t jest
używany kiedy odchylenie standardowe populacji nie jest znane i błąd standardowy szacuje się przy pomocy odchylenia
standardowego w próbie.
Stopnie swobody (df ) to liczba wartości, które mają swobodę (mogą) zmieniać się w obliczanej statystyce.
Przykład: kiedy obliczamy SD dla rozkładu trzech wartości: 1, 2, 3 (AV=2). Kiedy poznamy już 2 wartości, trzecią będziemy mogli
wywnioskować, bo musi być określona, żeby suma wariancji wyniosła zero. (1 - 2 = -1; 2 - 2 = 0; 3 musi równać się 1, żeby całość
wariancji równała się zero). Dlatego, kiedy obliczamy t do testu dla jednej próby, zaczynamy z próbą o wielkości N i "tracimy"
jeden stopień swobody, żeby oszacować odchylenie standardowe w populacji: df = N - 1.
Kiedy wartość df jest niska to rozkład t jest znacznie bardziej spłaszczony niż normalny, ale kiedy wzrasta, kształt zbliża się do
normalnego i staje się niemal identyczny powyżej 120 df.
Przykład: zarobki białych kobiet
próba N=371 białych kobiet z GSS 2002, które pracowały na pełny etat; średnia zarobków: $28889, SD = $21071
wiemy z innych badań, że średnia dla wszystkich pracujących kobiet w kraju wyniosła = $24146, ale nie znamy SD populacji
chcemy ustalić, czy próba białych kobiet była reprezentatywna dla całej populacji pracujących na pełny etat kobiet w 2002
chociaż podejrzewamy, że białe amerykańskie kobiety faktycznie więcej zarabiały niż reszta, nie możemy być tego pewni dlatego użyjemy dwustronnego testu
Krok po kroku:
założenia:
próba losowa została dobrana
ponieważ N > 50, nie potrzebujemy zakładać, że zmienna w populacji rozkłada się normalnie, skorzystamy z CTG
poziom pomiaru zmiennej jest ilościowy
formułowanie hipotez:
H1: AVY =/= 24146
H0: AVY = 24146
ustalanie poziomu ALFA:
ustalmy ALFA = 0,05, co będzie oznaczało, że odrzucimy hipotezę zerową jeśli prawdopodobieństwo otrzymania naszej
statystyki (średniej 24146) będzie niższe niż lub równe 5%
wybieranie rozkładu z próby i statystyki testowej:
używamy rozkładu t i wartości t żeby przetestować hipotezę zerową (nie znamy SD populacji)
obliczamy statystykę testową
najpierw obliczamy df dla naszego testu:
df = (N - 1) = (371 - 1) = 370
obliczamy t używając wzoru:
t = (Y- - AVY) / (SY / SqR N) = (28889 - 24146) / (21071 / SqR 371) = 4,33
podejmujemy decyzje i interpretujemy wynik
przeprowadzamy test dwustronny
w tabeli rozkładu t wyszukujemy wartości dla 4,33 przy 370 stopniach swobody dla testu dwustronnego
najwyższa wartość wymieniona w tabeli to df = nieskończoność więc wybieramy wartość dla niej (na poziomie ALFA = 0,05)
i jest to: 3,291
ta wartość odpowiada poziomowi istotności 0,001 (dla testów dwustronnych)
takie prawdopodobieństwo jest mniejsze niż poziom ALFA, który założyliśmy (P < ALFA, 0,001 < 0,05) - co oznacza, że:
prawdopodobieństwo otrzymania takiej różnicy między średnimi (28889 - 24146 = 4743) dochodami kobiet z naszej
próby i z całej populacji jest niesamowicie niskie ( jedna szansa na tysiąc) jeśli hipoteza zerowa jest prawdziwa
możemy więc odrzucić hipotezę zerową i uznać hipotezę badawczą, za potwierdzoną, że w 2002 roku zarobki białych
kobiet były znacząco wyższe niż innych; różnica wynosi $4743 i jest istotna na poziomie 0,05, możemy nawet powiedzieć, że
istotność jest niższa, na poziomie 0,001
Ćwiczenie 1:
Jest wiadome, że w skali całych USA, doktorzy pracujący w publicznych zakładach opieki zdrowotnej mają średnio 13,5 roku
doświadczenia w swoich specjalnościach z odchyleniem standardowym 7,6 roku. Powiedzmy, że dyrektor jednego z takich
zakładów chce się dowiedzieć, czy jego pracownicy mają mniejsze doświadczenie niż średnia krajowa. Dobiera próbę 150 lekarzy
i okazuje się, że średnia doświadczenia wynosi jedynie 10,9 lat.
Sformułuj hipotezę badawczą oraz hipotezę zerową, żeby sprawdzić, czy lekarze w tym zakładzie mają mniejsze
doświadczenie niż średnia krajowa.
Używając ALFA = 0.01 przetestuj tę hipotezę.
Ćwiczenie 2:
Dla każdej z poniższych sytuacji zdecyduj, czy potrzebny jest jedno czy dwustronny test. Sformułuj hipotezę badawczą oraz
zerową.
Chcesz dowiedzieć się, czy średni dochód na gospodarstwo domowe dla danego stanu USA różni się od średniej krajowej. Wg
danych cenzusu dla roku 2010, średnia krajowa wynosi $50303.
Wydaje ci się, że studenci w małych uczelniach artystycznych chodzą na więcej imprez w miesiącu niż studenci w całym kraju.
Wiadomo, że w kraju studenci chodzą średnio na 3,2 imprezy miesięcznie. Średnia liczba imprez będzie obliczona z losowej
próby studentów małych uczelni artystycznych.
Ćwiczenie 3:
Jeden ze sposobów by sprawdzić jak bardzo reprezentatywne jest badanie ankietowe przeprowadzone na próbie wylosowanej z
populacji jest porównanie różnych charakterystyk próby z charakterystykami populacji. Typową zmienną, jakiej używa się do tego
celu jest wiek. W roku 2008 GSS dla populacji dorosłych Amerykanów podał średnią wieku 47,71 i odchylenie standardowe 17.35
dla tej próby (N=2013). Załóżmy, że wiemy z danych cenzusu, że średnia wieku dla wszystkich dorosłych w Stanach wynosi 37,7.
Używając tych informacji odpowiedz na pytania:
Jaka jest hipoteza badawcza, a jaka zerowa?
Oblicz wartość t i przetestuj hipotezę zerową na poziomie istotności 0,001. Czego się dowiadujesz?
Jaką podejmujesz decyzję dotyczącą hipotezy zerowej? Co to mówi o reprezentatywności próby dorosłych Amerykanów?