Testowanie hipotez
Transkrypt
Testowanie hipotez
Statystyczne testowanie hipotez: procedura, która pozwala ocenić hipotezę na temat parametru populacji w oparciu o statystykę próby. Zauważyliśmy, że ceny pieczywa w Opolu są wyższe niż gdzie indziej w Polsce. Powiedzmy, że dobraliśmy próbę losową piekarni z Opolszczyzny (N=100). Z ogólnopolskich badań wiemy, jak wyglądają ceny np. za bochenek chleba. (średnia = 2,86, odchylenie = 0,17). Możemy więc porównać ceny ogólnopolskie z tymi z naszych badań (załóżmy, że wyszła nam średnia 3,11). Mamy do czynienia z dużą różnicą - 25 groszy, ale czy możemy powiedzieć, że na Opolszczyźnie ceny chleba są o 25 gr wyższe opierając się na danych z jednej jedynej próby? Może faktycznie ceny na Opolszczyźnie są wyższe niż w Polsce. Ceny na Opolszczyźnie są podobne, a akurat trafiliśmy na próbę droższych piekarni. Żeby dowiedzieć się, które z tych wyjaśnień jest bardziej prawdopodobne musimy przetestować hipotezę. Założenia leżące u podłoża statystycznego testowania hipotez: Próba została dobrana w sposób losowy. Zmienna jest mierzona na poziomie ilościowym. Nie możemy założyć, że zmienna w populacji rozkłada się w sposób normalny. Jednak, skoro wiemy, że gdy nasza próba jest wystarczająco duża (N>50), możemy odwołać się do centralnego twierdzenia granicznego i rozkład z próby będzie w przybliżeniu normalny. Mamy założenia, teraz trzeba sformułować hipotezy: Hipoteza badawcza (H1) Twierdzenie odzwierciedlające merytoryczną hipotezę (którą stworzyliśmy na podstawie teorii). Zawsze mówi ona o parametrach populacji. Hipoteza zerowa (H0) Twierdzenie o tym, że "nie ma różnicy", które przeczy hipotezie badawczej. Zawsze jest wyrażone przy pomocy parametrów populacji. Mówimy o średnich cenach chleba i nasza hipoteza brzmi, że w ceny chleba w Opolu są wyższe niż gdzie indziej w Polsce. Wyrazimy naszą hipotezę symbolicznie: H1: AVY > 2,86 zł (średnia cena chleba w Opolu jest wyższa niż średnia cena chleba w PL, która wynosi 2,86). Ogólnie rzecz biorąc, hipotezy badawcze (H1) stwierdzają jedno z poniższych: Nierówna określonej wartości AVY Jest wyższa niż określona wartość AVY Jest niższa niż określona wartość AVY Jest możliwe, że w naszej populacji faktycznie nie ma różnicy pomiędzy cenami chleba w Opo i PL, a nasza różnica 25 groszy wynika z układu w próbie. Niestety nie możemy zaprzeczyć wprost tej hipotezie, możemy jedynie oszacować prawdopodobieństwo tego, czy jest ona prawdziwa, opierając się na teorii prawdopodobieństwa w statystyce inferencyjnej. Aby oszacować to prawdopodobieństwo, trzeba: ustanowić hipotezę, która jest odwrotna do naszej hipotezy badawczej. Hipoteza zerowa przeczy hipotezie badawczej i zwykle jest twierdzeniem o tym, że nie ma różnicy pomiędzy średnią w populacji a jakąś określoną wartością. Nazywamy ją także hipotezą "bez różnicy". Możemy ją wyrazić: H0: AVY = 2,86 zł Więc zamiast bezpośrednio testować naszą hipotezę badawczą, która mówi, że jest różnica między średnią ceną chleba w Opolu i średnią ceną chleba w Polsce, testujemy hipotezę zerową (H0), która mówi, że nie ma różnicy w cenach. Mamy nadzieję odrzucić hipotezę zerową i tym samym udowodnić naszą hipotezę badawczą. Testy jednostronne i dwustronne. W testach jednostronnych hipoteza badawcza jest kierunkowa, to znaczy, twierdzi, że średnia populacji jest albo mniejsza albo większa od jakiejś określonej wartości. Możemy wyrazić hipotezę badawczą: H1: AVY < 2,86 zł (lewostronna - po lewej stronie wykresu) albo H1: AVY > 2,86 zł (prawostronna - po prawej stronie wykresu) Hipoteza o cenach chleba jest jednostronna. Prawostronna. Czasami przewidujemy, że jest jakaś różnica między grupami, ale nie wiemy, czy to będzie mniej czy więcej. Np. można powiedzieć, że "ceny pieczywa w Opolu są inne niż w Polsce". Kiedy nie mamy teoretycznych podstaw, żeby ustalić kierunek hipotezy badawczej, przeprowadzamy test dwustronny. H1: AVY =/= 2,86 zł W obu przypadkach ( jedno i dwu stronnej H1) hipoteza zerowa pozostaje taka sama: H0: AVY = 2,86 zł. W takim razie zakładamy, że nasza hipoteza zerowa (AVY =/= 2,86 zł) jest prawdziwa i chcemy sprawdzić, czy dane z naszej próby poddają w wątpliwość nasze założenie, sugerując, że mamy dowód na naszą hipotezę badawczą: AVY > 2,86. Jakie są szanse, że wybralibyśmy losowo próbę opolskich piekarni taką, że cena za chleb jest wyższa niż 2,86 zł średnio? Możemy je ustalić, bazując na centralnym twierdzeniu granicznym, Założymy, że hipoteza zerowa jest prawdziwa i zobaczymy, czy dane z próby rzucają jakiś cień wątpliwości na to. Mamy: średnią populacji AVY = 2,86 i odchylenie SDY= 0,17. Wielkość próby N = 100, a średnia próby AV = 3.11. Możemy założyć, że rozkład prób wszystkich możliwych N=100 byłby normalny, ze średnią 2,86 i SDY = 0,17/SqR 100 = 0.017 Ponieważ rozkład z próby jest normalny, możemy użyć tabeli rozkładu normalnego z wartościami Z i ustalić prawdopodobieństwo wylosowania próby ze średnią 3,11 lub wyższą z tej populacji: Z = (Y-Y-)/ SY Ponieważ pracujemy z rozkładem z próby, w którym naszym wynikiem jest średnia Y- (3,11), a odchylenie standardowe to SDY/ SqR N, musimy zmodyfikować wzór: Z = (Y- - AVY) / (SDY / SqR N) Przekształcanie średniej próby w wartość Z nazywamy obliczaniem statystyki testowej. Statystykę Z, którą otrzymamy, nazywamy wartością Z (otrzymaną). (Ta wartość odpowiada nam na pytanie, jak daleko [w jednostkach SD] jest nasza próba od hipotetycznej wartości (AV), zakładając, że hipoteza zerowa jest prawdziwa.) W naszym przykładzie: Z = (3,11 - 2,86) / (0,17 / SqR 100) = 14,7 Wartość Z (otrzymana) to statystyka testowa obliczona przez przekształcenie statystyki próby (takiej jak średnia) w wartość Z. Zanim ustalimy prawdopodobieństwo naszej otrzymanej wartości Z, ustalmy, czy ona jest zgodna z naszą hipotezą badawczą. Zdefiniowaliśmy ją jako prawostronną (AVY > 2,86) i przewidzieliśmy, że będziemy szacować różnicę w prawym ogonie wykresu rozkładu z próby. Pozytywna wartość Z potwierdza to. Żeby ustalić prawdopodobieństwo zaobserwowania wartości Z = 14,7, zakładając, że hipoteza zerowa jest prawdziwa, sprawdzamy jaki jest obszar na prawo (czyli powyżej) Z = 14,7. Nie ma takiego Z nawet na liście, oprzemy się na najwyższej wartości z tabeli dla Z=4. Obszar poza Z=14,7 zawiera próby ze średnimi 3.11 i więcej. Proporcja jest mniejsza niż 0,0001. To właśnie wartość prawdopodobieństwa otrzymania tak ekstremalnego wyniku jak ten z próby (3,11), gdyby hipoteza zerowa była prawdziwa. Oznaczamy je symbolem P. Dla naszego przypadku P =< 0,0001. Wartość P to prawdopodobieństwo związane z otrzymaniem wartości Z. Mierzy ono jak niezwykłe by to było otrzymać statystykę, jaką otrzymaliśmy, gdyby hipoteza zerowa była prawdziwa. Im mniejsza jest wartość P, tym więcej mamy dowodów, że należy odrzucić hipotezę zerową na rzecz hipotezy badawczej. Badacze zwykle definiują z góry, jak wystarczająco nieprawdopodobne jest Z ustalając punkt graniczny, poniżej którego P powinno spaść, żeby odrzucić hipotezę zerową. Ten punkt nazywamy ALFA i zwyczajowo ustala się na poziomie 0,05, 0,01 lub 0,01. Powiedzmy, że decydujemy się odrzucić hipotezę zerową jeśli P =< 0,05. Taka wartość nazywana jest ALFA i definiuje ona dla nas, jaki wynik jest wystarczająco nieprawdopodobny, żebyśmy pozwolili sobie zaryzykować i odrzucić hipotezę zerową. Alfa 0,05 oznacza, że nawet jeżeli otrzymana wartość Z jest spowodowana błędem z próby, który powoduje, że hipoteza zerowa jest prawdziwa, to my pozwolimy sobie na 5% ryzyka i odrzucimy ją. Wartość P to faktyczne prawdopodobieństwo związane z otrzymaną wartością Z, a ALFA to poziom prawdopodobieństwa zakładany z góry, na którym odrzuca się hipotezę zerową. Hipoteza zerowa jest odrzucana, kiedy P<=ALFA. Alfa to poziom prawdopodobieństwa, na którym odrzuca się hipotezę zerową. Zwyczajowo ustala się Alafa na poziomie 0,05, 0,01, 0,001. Już wiemy, że otrzymane Z ma prawdopodobieństwo mniejsze niż 0,0001. Nasze zaobserwowane P jest więc mniejsze niż 0,05 (P = 0,0001 < Alfa = 0,05) i odrzucamy hipotezę zerową. Wartość 0,0001 mówi nam, że mniej niż jedna na 10 000 prób wylosowanych z tej populacji miałaby taką średnią, która byłaby 14,7 wartości Z powyżej średniej 2,86. Inaczej mówiąc: jest tylko jedna szansa na 10000, że wylosowalibyśmy akurat taką losowa próbę gdzie Z.=> 14.7 jeśli średnia cena bochenka chleba w Opolu była równa średniej cenie w Polsce. W przypadku testów dwustronnych mnożymy prawdopodobieństwo przez dwa (oba ogony wykresu!) Testowanie hipotez, krok po kroku: Założenia Hipoteza badawcza, zerowa i ustawianie Alfa Wybranie rozkładu z próby i statystyki testowej Obliczenie statystyki Interpretacja wyników Błędy przy testowaniu hipotez Podkreślmy: ponieważ nasze wnioskowanie jest oparte na danych z próby, nigdy nie będziemy pewni, czy hipoteza zerowa jest prawdziwa, czy nie. W naszym przykładzie mieliśmy 0,01% (=0,0001), ze hipoteza zerowa jest właśnie prawdziwa i po prostu popełniamy błąd odrzucając ją. Hipoteza zerowa może być prawdziwa lub nieprawdziwa i w każdym przypadku może być odrzucona lub nieodrzucona. Jeśli odrzucamy prawdziwą hipotezę, popełniamy tzw. błąd pierwszego rodzaju. Jeśli nie odrzucamy nieprawdziwej hipotezy, popełniamy tzw. błąd drugiego rodzaju. Możemy kontrolować ryzyko odrzucenia prawdziwej hipotezy manipulując wartością ALFA - ustawiając ją na 0,01 na przykład czyli redukując ryzyko popełnienie błędu pierwszego rodzaju do 1%. Niestety, oba rodzaje błędu łączy sprzężenie zwrotne, zmniejszając ryzyko błędu 1. rodzaju, zwiększamy ryzyko popełnienia błędu 2. rodzaju. Statystyka t i szacowanie błędu standardowego Statystyka Z, której używaliśmy do tej pory wymagała znajomości odchylenia standardowego w populacji i przy jego użyciu obliczaliśmy błąd standardowy (SIGMAY/ SqR N). W większości przypadków nie znamy parametru populacji i będziemy używać odchylenia standardowego próby (SY), żeby testować hipotezę. W takim przypadku, nie będziemy odwoływać się do rozkładu Z, ale do rozkładu statystyki t: t = (Y- - AVY) / (SY / SqR N) Wartość t, którą otrzymamy będziemy nazywać statystyką (wartością) t otrzymaną. Wartość t (otrzymana) to statystyka testowa obliczana przy testowaniu hipotezy zerowej na temat średniej populacji, kiedy odchylenie standardowe populacji nie jest znane i szacuje się je przy użyciu odchylenia standardowego próby. Rozkład t i stopnie swobody Rozkład t (Studenta) to rodzina rozkładów, z których każdy jest określony przez swój stopień swobody (df ). Rozkład t jest używany kiedy odchylenie standardowe populacji nie jest znane i błąd standardowy szacuje się przy pomocy odchylenia standardowego w próbie. Stopnie swobody (df ) to liczba wartości, które mają swobodę (mogą) zmieniać się w obliczanej statystyce. Przykład: kiedy obliczamy SD dla rozkładu trzech wartości: 1, 2, 3 (AV=2). Kiedy poznamy już 2 wartości, trzecią będziemy mogli wywnioskować, bo musi być określona, żeby suma wariancji wyniosła zero. (1 - 2 = -1; 2 - 2 = 0; 3 musi równać się 1, żeby całość wariancji równała się zero). Dlatego, kiedy obliczamy t do testu dla jednej próby, zaczynamy z próbą o wielkości N i "tracimy" jeden stopień swobody, żeby oszacować odchylenie standardowe w populacji: df = N - 1. Kiedy wartość df jest niska to rozkład t jest znacznie bardziej spłaszczony niż normalny, ale kiedy wzrasta, kształt zbliża się do normalnego i staje się niemal identyczny powyżej 120 df. Przykład: zarobki białych kobiet próba N=371 białych kobiet z GSS 2002, które pracowały na pełny etat; średnia zarobków: $28889, SD = $21071 wiemy z innych badań, że średnia dla wszystkich pracujących kobiet w kraju wyniosła = $24146, ale nie znamy SD populacji chcemy ustalić, czy próba białych kobiet była reprezentatywna dla całej populacji pracujących na pełny etat kobiet w 2002 chociaż podejrzewamy, że białe amerykańskie kobiety faktycznie więcej zarabiały niż reszta, nie możemy być tego pewni dlatego użyjemy dwustronnego testu Krok po kroku: założenia: próba losowa została dobrana ponieważ N > 50, nie potrzebujemy zakładać, że zmienna w populacji rozkłada się normalnie, skorzystamy z CTG poziom pomiaru zmiennej jest ilościowy formułowanie hipotez: H1: AVY =/= 24146 H0: AVY = 24146 ustalanie poziomu ALFA: ustalmy ALFA = 0,05, co będzie oznaczało, że odrzucimy hipotezę zerową jeśli prawdopodobieństwo otrzymania naszej statystyki (średniej 24146) będzie niższe niż lub równe 5% wybieranie rozkładu z próby i statystyki testowej: używamy rozkładu t i wartości t żeby przetestować hipotezę zerową (nie znamy SD populacji) obliczamy statystykę testową najpierw obliczamy df dla naszego testu: df = (N - 1) = (371 - 1) = 370 obliczamy t używając wzoru: t = (Y- - AVY) / (SY / SqR N) = (28889 - 24146) / (21071 / SqR 371) = 4,33 podejmujemy decyzje i interpretujemy wynik przeprowadzamy test dwustronny w tabeli rozkładu t wyszukujemy wartości dla 4,33 przy 370 stopniach swobody dla testu dwustronnego najwyższa wartość wymieniona w tabeli to df = nieskończoność więc wybieramy wartość dla niej (na poziomie ALFA = 0,05) i jest to: 3,291 ta wartość odpowiada poziomowi istotności 0,001 (dla testów dwustronnych) takie prawdopodobieństwo jest mniejsze niż poziom ALFA, który założyliśmy (P < ALFA, 0,001 < 0,05) - co oznacza, że: prawdopodobieństwo otrzymania takiej różnicy między średnimi (28889 - 24146 = 4743) dochodami kobiet z naszej próby i z całej populacji jest niesamowicie niskie ( jedna szansa na tysiąc) jeśli hipoteza zerowa jest prawdziwa możemy więc odrzucić hipotezę zerową i uznać hipotezę badawczą, za potwierdzoną, że w 2002 roku zarobki białych kobiet były znacząco wyższe niż innych; różnica wynosi $4743 i jest istotna na poziomie 0,05, możemy nawet powiedzieć, że istotność jest niższa, na poziomie 0,001 Ćwiczenie 1: Jest wiadome, że w skali całych USA, doktorzy pracujący w publicznych zakładach opieki zdrowotnej mają średnio 13,5 roku doświadczenia w swoich specjalnościach z odchyleniem standardowym 7,6 roku. Powiedzmy, że dyrektor jednego z takich zakładów chce się dowiedzieć, czy jego pracownicy mają mniejsze doświadczenie niż średnia krajowa. Dobiera próbę 150 lekarzy i okazuje się, że średnia doświadczenia wynosi jedynie 10,9 lat. Sformułuj hipotezę badawczą oraz hipotezę zerową, żeby sprawdzić, czy lekarze w tym zakładzie mają mniejsze doświadczenie niż średnia krajowa. Używając ALFA = 0.01 przetestuj tę hipotezę. Ćwiczenie 2: Dla każdej z poniższych sytuacji zdecyduj, czy potrzebny jest jedno czy dwustronny test. Sformułuj hipotezę badawczą oraz zerową. Chcesz dowiedzieć się, czy średni dochód na gospodarstwo domowe dla danego stanu USA różni się od średniej krajowej. Wg danych cenzusu dla roku 2010, średnia krajowa wynosi $50303. Wydaje ci się, że studenci w małych uczelniach artystycznych chodzą na więcej imprez w miesiącu niż studenci w całym kraju. Wiadomo, że w kraju studenci chodzą średnio na 3,2 imprezy miesięcznie. Średnia liczba imprez będzie obliczona z losowej próby studentów małych uczelni artystycznych. Ćwiczenie 3: Jeden ze sposobów by sprawdzić jak bardzo reprezentatywne jest badanie ankietowe przeprowadzone na próbie wylosowanej z populacji jest porównanie różnych charakterystyk próby z charakterystykami populacji. Typową zmienną, jakiej używa się do tego celu jest wiek. W roku 2008 GSS dla populacji dorosłych Amerykanów podał średnią wieku 47,71 i odchylenie standardowe 17.35 dla tej próby (N=2013). Załóżmy, że wiemy z danych cenzusu, że średnia wieku dla wszystkich dorosłych w Stanach wynosi 37,7. Używając tych informacji odpowiedz na pytania: Jaka jest hipoteza badawcza, a jaka zerowa? Oblicz wartość t i przetestuj hipotezę zerową na poziomie istotności 0,001. Czego się dowiadujesz? Jaką podejmujesz decyzję dotyczącą hipotezy zerowej? Co to mówi o reprezentatywności próby dorosłych Amerykanów?