dziewczyna 212
Transkrypt
dziewczyna 212
Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny? Gdy: ● badana cecha jest mierzalna (tzn. posiada rozkład ciągły); ● badana cecha posiada rozkład normalny; ● dysponujemy pojedynczym wynikiem; ● dysponujemy parametrami (μ i σ) rozkładu cechy w badanej populacji; Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? Przybliżenie rozkładu dwumianowego rozkładem normalnym. Dla prób o dużej liczebności (najlepiej n>100) rozkład dwumianowy można przybliżyć rozkładem normalnym o parametrach: P N p , gdzie: pq n n - liczebność próby p - prawdopodobieństwo sukcesu q=1− p - prawdopodobieństwo porażki Zatem: = p = pq n Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? Hipoteza H0: p = 0,5 Hipoteza HA: p ≠ 0,5 =0,5 = p 0 = p0 q0 n = 0,5⋅0,5 =0,00224 50000 Dla poziomu istotności α = 0,05 wartość krytyczna zkr = ±1,96. Zatem przedział ufności to: PU = p 0 ±1,96⋅ =0,5±1,96⋅0,00224 PU ∈〈 0,4956 ; 0,5044 〉 Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? PU = p 0 ±1,96⋅ =0,5±1,96⋅0,00224 PU ∈〈 0,4956 ; 0,5044 〉 W naszym przypadku: p= 24750 =0,495 50000 Wartość p znajduje się w obszarze krytycznym. Zatem na poziomie istotności α = 0,05 można powiedzieć, że moneta jest krzywa. Powrót do testowania monety: Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250 reszek. Czy na podstawie tego wyniku można powiedzieć, że moneta jest krzywa? Inny sposób: standaryzujemy wartość p: z= p− p 0 p0 q0 n W naszym przypadku: z= 0,495−0,5 =−2,2 0,00224 z =0,05=±1,96 Zatem odrzucamy hipotezę H0. Zadanie W pewnym liceum ogólnokształcącym doliczono się 234 dziewczyny oraz 212 chłopców. Czy można powiedzieć, że proporcja płci odbiega od stosunku 1:1? Zadanie W pewnym liceum ogólnokształcącym doliczono się 234 dziewczyny oraz 212 chłopców. Czy można powiedzieć, że proporcja płci odbiega od stosunku 1:1? p – prawdopodobieństwo sukcesu (znalezienia dziewczyny) Hipoteza H0: p = 0,5 Hipoteza HA: p ≠ 0,5 n=234212=446 234 x= p d = =0,525 446 0,5×0,5 = =0,024 446 z= x − 0,525−0,5 = =1,06 0,024 z =0,05=1,96 Proporcja pomiędzy płciami nie jest zaburzona. Pytanie: Kiedy do testowania hipotezy stosujemy przybliżenie rozkładu dwumianowego do rozkładu normalnego? Gdy: ● badana cecha jest niemierzalna i może przyjąć dwie możliwe wartości (np. płeć męska lub żeńska); ● dysponujemy pojedynczą próbą, w której określono proporcję obydwu wartości, jakie może przyjmować cecha; ● dysponujemy rozkładem teoretycznym; ● próba jest duża (przynajmniej 30, najlepiej powyżej 100). Zadanie domowe: Czy w śród studentów I roku Biotechnologii UWr jest zaburzona proporcja pomiędzy płcią żeńską i męską? Zadanie W pewnym laboratorium przygotowano dwie wersje szczepionki przeciwko patogennym szczepom E. coli atakującym kurczaki i powodującym duże straty na fermach drobiu. W tym celu przygotowano dwie grupy kurczaków w liczbie 51 i 49, które zaszczepiono odpowiednio wariantem 1 i 2 otrzymanych szczepionek. Następnie kurczaki zakażono bakteriami. W pierwszej grupie zakażenie przeżyły 44 kurczaki a w grupie drugiej 37 kurczaków. Czy istnieje istotna statystycznie różnica w skuteczności obydwu szczepionek? Test istotności różnicy frakcji. Przy założeniu, że hipoteza, tzn. H0: p 1− p 2=0 , jest prawdziwa wówczas zmienna losowa Z: Z= p1 − p 2 p 1− p p 1− p n1 n2 gdzie: n1, n 2 - liczebność prób a ,b - liczba sukcesów p 1, p 2 - prawdopodobieństwo sukcesów n 1 p 1n 2 p 2 ab a b p 1= ; p 2 = ; p= = n1 n2 n 1n 2 n 1n 2 ma rozkład asymptotycznie normalny N(0,1). Zadanie W pewnym laboratorium przygotowano dwie wersje szczepionki przeciwko patogennym szczepom E. coli atakującym kurczaki i powodującym duże straty na fermach drobiu. W tym celu przygotowano dwie grupy kurczaków w liczbie 51 i 49, które zaszczepiono odpowiednio wariantem 1 i 2 otrzymanych szczepionek. Następnie kurczaki zakażono bakteriami. W pierwszej grupie zakażenie przeżyły 44 kurczaki a w grupie drugiej 37 kurczaków. Czy istnieje istotna statystycznie różnica w skuteczności obydwu szczepionek? a 44 = =0,863 n1 51 b 37 p 2 = = =0,755 n 2 49 4437 p= =0,81 5149 p1 = zd= 0,862−0,755 =1,37 0,81⋅0,19 0,81⋅0,19 51 49 z =0,05=1,96 Zaobserwowane różnice nie są istotne statystycznie. Zadanie Testowano dwa leki przeciwko bólowi głowy. W tym celu 150 osób zgłaszających ból głowy podzielono na dwie grupy po 75 osób. Jednej grupie podano lek A, zaś drugiej grupie lek B. Po godzinie stwierdzono, że ból głowy ustąpił u 38 osób, które otrzymały lek A oraz u 56 osób, które otrzymały lek B. Czy obydwa leki różnią się skutecznością? Hipoteza H0: p 1− p 2=0 Hipoteza HA: p 1− p 2 ≠0 zd= a 38 = =0,507 n 1 75 b 56 p 2 = = =0,747 n 2 75 3856 p= =0,627 7575 p1= 0,507−0,747 −0,240 = =−3,00 0,080 0,627⋅0,373 0,627⋅0,373 75 75 z =0,05=−1,96 Odrzucamy hipotezę H0. Leki różnią się skutecznością. Lek B posiada szersze spektrum działania. Pytanie: Kiedy do testowania hipotezy stosujemy test istotności różnicy frakcji? Gdy: ● badana cecha jest niemierzalna i może przyjąć dwie możliwe wartości (np. kurczak żywy lub martwy); ● Badana cecha jest mierzalna lub policzalna i uzyskane wyniki można podzielić na dwie kategorie; ● dysponujemy dwiema próbami, w których określono proporcje obydwu wartości, jakie może przyjmować cecha; ● próby są duże (przynajmniej 30). W przypadku prawdopodobieństwa sukcesu p w pojedynczym zdarzeniu znacznie odbiegającego od 0,5 próba powinna wynosić przynajmniej 100. ● w przypadku małolicznych prób (mniej niż 30 przypadków) powinno się stosować test dokładny Fishera lub test niezależności χ2 z poprawką Jatesa. Zadanie Rzucając kostką do gry 180 razy uzyskano następujące wyniki: Liczba oczek Liczność ni 1 24 2 29 3 40 4 25 5 35 6 27 Czy kostka wyrzuca poszczególne liczby oczek z równym prawdopodobieństwem? Aby rozwiązać zadanie należy zastosować test zgodności chi-kwadrat (ch^2, χ2). Test ten służy do weryfikacji hipotezy, że obserwowana cecha w próbie (populacji) ma założony przez eksperymentatora rozkład. Statystyką testu jest wyrażenie: k gdzie: ni np i n=∑ ni k 2 d =∑ i=1 ni − npi 2 npi - wartość doświadczalna (obserwowana) w klasie i, - wartość teoretyczna (oczekiwana) w klasie i, - liczność próby, - liczba klas. Statystyka χ2 zawiera się w przedziale (0, +∞). Test chi-kwadrat jest testem jednostronnym. UWAGA: Liczność oczekiwana w każdej klasie nie może być mniejsza od 5. Jeżeli zaistnieje taki przypadek, że liczność pewnej klasy jest mniejsza od 5, to klasy sąsiednie należy połączyć tak, aby łączna częstość oczekiwana wynosiła co najmniej 5. Rozkład chi-kwadtat (χ2) Kiedy zmienna losowa X ma rozkład normalny N(μ,σ) o nieznanych parametrach μ i σ, to przy założeniu prawdziwości hipotezy H0: 2= 20 funkcja ns2/σ2 ma rozkład χ2 z df=k-1 stopniami swobody. Symbol ns2 oznacza sumę kwadratów odchyleń indywidualnych wyników od średniej x próby. df=1 df=2 df=3 df=4 df=5 Należy podkreślić, że rozkład zmiennej zależy tylko od liczby stopni swobody, a nie zależy od średniej (μ) i odchylenia (σ). Jest on niesymetryczny dla małej liczby stopni swobody, natomiast w miarę wzrostu liczby stopni swobody staje się bardzie symetryczny dążąc do rozkładu normalnego o parametrach: N 2n−1,1 Zadanie Rzucając kostką do gry 180 razy uzyskano następujące wyniki: Liczba oczek Liczność ni 1 24 2 29 3 40 4 25 5 35 Czy kostka wyrzuca poszczególne liczby oczek z równym prawdopodobieństwem? Stawiamy hipotezy: Hipoteza H0: p1= p 2 = p 3= p 4= p5 = p 6, p i =1/ 6 Hipoteza HA: p1≠ p 2 ≠ p 3≠ p 4≠ p5 ≠ p6, pi ≠1 / 6 Szukamy wartości teoretycznych npi: npi =180⋅1 / 6=30 Liczba oczek Częstości obserwowane ni Częstości teoretyczne npi 1 24 30 2 29 30 3 40 30 4 25 30 5 35 30 6 27 30 6 27 Liczba oczek Częstości obserwowane ni Częstości teoretyczne npi 1 24 30 2 29 30 3 40 30 4 25 30 5 35 30 6 27 30 Liczymy statystykę χd2: k 2 d =∑ i=1 ni − npi 2 npi 24 −30 2 29−30 2 40−302 25−302 35−30 2 27−30 2 = =6,53 30 30 30 30 30 30 2 d Wartość krytyczna χ2 dla α = 0,05 i df = 5 stopni swobody wynosi: 2=0,05=11,07 Zatem hipotezy H0 nie możemy odrzucić: kostka jest prawidłowa na poziomie istotności α = 0,05 . Zadanie W populacji wilków zamieszkujących Bieszczady występują dwa allele pewnego genu H. Częstość allelu H1 wynosi 0,7, natomiast częstość allelu H2 wynosi 0,3. Przebadano 158 osobników i stwierdzono obecność 60 homozygot H1/H1, 2 homozygoty H2/H2 oraz 96 heterozygot H1/H2. Czy zaobserwowany rozkład homo- i heterozygot odpowiada rozkładowi teoretycznemu? Rozkład teoretyczny jest dany wzorem: 2 2 p 2 p qq =1 p q=1 gdzie p i q to częstości alleli H1 i H2. Liczymy liczebności teoretyczne: H 1 / H 1 : 0,7 2⋅158=77,42 H 2 / H 2 : 0,3 2⋅158=14,22 H 1 / H 2 : 2⋅0,7⋅0,3⋅158=66,36 Rodzaj osobników Częstości obserwowane ni Częstości teoretyczne npi H1/H1 60 77,42 H 2/H2 2 14,22 H1/H2 96 66,36 Zadanie W populacji wilków zamieszkujących Bieszczady występują dwa allele pewnego genu H. Częstość allelu H1 wynosi 0,7, natomiast częstość allelu H2 wynosi 0,3. Przebadano 158 osobników i stwierdzono obecność 60 homozygot H1/H1, 2 homozygoty H2/H2 oraz 96 heterozygot H1/H2. Czy zaobserwowany rozkład homo- i heterozygot odpowiada rozkładowi teoretycznemu? Rodzaj osobników Częstości obserwowane ni Częstości teoretyczne npi H1/H1 60 77,42 H 2/H2 2 14,22 H1/H2 96 66,36 Liczymy statystykę χd2: 60−77,42 2 2−14,22 2 96−66,362 = =27,66 77,42 14,22 66,36 2 d Wartość krytyczna χ2 dla α = 0,05 i df = 2 stopni swobody wynosi: 2=0,05=5,99 Zatem hipotezę H0 odrzucamy (p-value<0,001): zaobserwowany rozkład nie jest zgodny z rozkładem teoretycznym. Pytanie: Kiedy do testowania hipotezy stosujemy test zgodności χ2? Gdy: ● badana cecha jest niemierzalna i może przyjąć więcej niż dwie możliwe wartości (np. liczba oczek na kostce do gry); ● badana cecha jest policzalna lub mierzalna, a uzyskane wyniki możemy podzielić na kilka kategorii; ● potrafimy wskazać wartości teoretyczne; Ograniczenia: ● liczebność teoretyczna każdej kategorii/grupy powinna wynosić minimum 5 obserwacji. Gdy ten warunek nie jest spełniony należy połączyć część kategorii ze sobą.