dziewczyna 212

Transkrypt

dziewczyna 212
Pytanie: Kiedy do testowania hipotezy stosujemy rozkład
normalny?
Gdy:
● badana cecha jest mierzalna (tzn. posiada rozkład ciągły);
● badana cecha posiada rozkład normalny;
● dysponujemy pojedynczym wynikiem;
● dysponujemy parametrami (μ i σ) rozkładu cechy w badanej
populacji;
Powrót do testowania monety:
Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250
reszek. Czy na podstawie tego wyniku można powiedzieć, że
moneta jest krzywa?
Przybliżenie rozkładu dwumianowego rozkładem normalnym.
Dla prób o dużej liczebności (najlepiej n>100) rozkład
dwumianowy można przybliżyć rozkładem normalnym o
parametrach:
P N  p ,
gdzie:

pq

n
n
- liczebność próby
p
- prawdopodobieństwo sukcesu
q=1− p  - prawdopodobieństwo porażki
Zatem:
= p
=

pq
n
Powrót do testowania monety:
Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250
reszek. Czy na podstawie tego wyniku można powiedzieć, że
moneta jest krzywa?
Hipoteza H0: p = 0,5
Hipoteza HA: p ≠ 0,5
=0,5
= p 0
=

p0 q0
n
=

0,5⋅0,5
=0,00224
50000
Dla poziomu istotności α = 0,05 wartość krytyczna zkr = ±1,96.
Zatem przedział ufności to:
PU = p 0 ±1,96⋅ =0,5±1,96⋅0,00224
PU ∈〈 0,4956 ; 0,5044 〉
Powrót do testowania monety:
Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250
reszek. Czy na podstawie tego wyniku można powiedzieć, że
moneta jest krzywa?
PU = p 0 ±1,96⋅ =0,5±1,96⋅0,00224
PU ∈〈 0,4956 ; 0,5044 〉
W naszym przypadku:
p=
24750
=0,495
50000
Wartość p znajduje się w obszarze krytycznym. Zatem na
poziomie istotności α = 0,05 można powiedzieć, że moneta
jest krzywa.
Powrót do testowania monety:
Rzucono monetą 50 tys. razy. Wyrzucono 24750 orłów i 25250
reszek. Czy na podstawie tego wyniku można powiedzieć, że
moneta jest krzywa?
Inny sposób: standaryzujemy wartość p:
z=
p− p 0

p0 q0
n
W naszym przypadku:
z=
0,495−0,5
=−2,2
0,00224
z =0,05=±1,96
Zatem odrzucamy hipotezę H0.
Zadanie
W pewnym liceum ogólnokształcącym doliczono się 234
dziewczyny oraz 212 chłopców. Czy można powiedzieć, że
proporcja płci odbiega od stosunku 1:1?
Zadanie
W pewnym liceum ogólnokształcącym doliczono się 234
dziewczyny oraz 212 chłopców. Czy można powiedzieć, że
proporcja płci odbiega od stosunku 1:1?
p – prawdopodobieństwo sukcesu (znalezienia dziewczyny)
Hipoteza H0: p = 0,5
Hipoteza HA: p ≠ 0,5
n=234212=446
234
x= p d =
=0,525
446
0,5×0,5
=
=0,024
446

z=
x −
0,525−0,5
=
=1,06

0,024
z =0,05=1,96
Proporcja pomiędzy płciami nie jest zaburzona.
Pytanie: Kiedy do testowania hipotezy stosujemy przybliżenie
rozkładu dwumianowego do rozkładu normalnego?
Gdy:
● badana cecha jest niemierzalna i może przyjąć dwie możliwe
wartości (np. płeć męska lub żeńska);
● dysponujemy pojedynczą próbą, w której określono proporcję
obydwu wartości, jakie może przyjmować cecha;
● dysponujemy rozkładem teoretycznym;
● próba jest duża (przynajmniej 30, najlepiej powyżej 100).
Zadanie domowe: Czy w śród studentów I roku Biotechnologii
UWr jest zaburzona proporcja pomiędzy płcią żeńską i męską?
Zadanie
W pewnym laboratorium przygotowano dwie wersje szczepionki przeciwko
patogennym szczepom E. coli atakującym kurczaki i powodującym duże straty
na fermach drobiu. W tym celu przygotowano dwie grupy kurczaków w liczbie
51 i 49, które zaszczepiono odpowiednio wariantem 1 i 2 otrzymanych
szczepionek. Następnie kurczaki zakażono bakteriami. W pierwszej grupie
zakażenie przeżyły 44 kurczaki a w grupie drugiej 37 kurczaków. Czy istnieje
istotna statystycznie różnica w skuteczności obydwu szczepionek?
Test istotności różnicy frakcji.
Przy założeniu, że hipoteza, tzn. H0: p 1− p 2=0 , jest prawdziwa
wówczas zmienna losowa Z:
Z=
p1 − p 2

p 1− p 
p 1− p

n1
n2
gdzie:
n1, n 2 - liczebność prób
a ,b
- liczba sukcesów
p 1, p 2 - prawdopodobieństwo sukcesów
n 1 p 1n 2 p 2 ab
a
b
p 1= ; p 2 = ; p=
=
n1
n2
n 1n 2
n 1n 2
ma rozkład asymptotycznie normalny N(0,1).
Zadanie
W pewnym laboratorium przygotowano dwie wersje szczepionki przeciwko patogennym
szczepom E. coli atakującym kurczaki i powodującym duże straty na fermach drobiu. W
tym celu przygotowano dwie grupy kurczaków w liczbie 51 i 49, które zaszczepiono
odpowiednio wariantem 1 i 2 otrzymanych szczepionek. Następnie kurczaki zakażono
bakteriami. W pierwszej grupie zakażenie przeżyły 44 kurczaki a w grupie drugiej 37
kurczaków. Czy istnieje istotna statystycznie różnica w skuteczności obydwu
szczepionek?
a 44
= =0,863
n1 51
b 37
p 2 = = =0,755
n 2 49
4437
p=
=0,81
5149
p1 =
zd=

0,862−0,755
=1,37
0,81⋅0,19
0,81⋅0,19

51
49
z =0,05=1,96
Zaobserwowane różnice nie są istotne statystycznie.
Zadanie
Testowano dwa leki przeciwko bólowi głowy. W tym celu 150 osób zgłaszających ból
głowy podzielono na dwie grupy po 75 osób. Jednej grupie podano lek A, zaś drugiej
grupie lek B. Po godzinie stwierdzono, że ból głowy ustąpił u 38 osób, które otrzymały lek
A oraz u 56 osób, które otrzymały lek B. Czy obydwa leki różnią się skutecznością?
Hipoteza H0: p 1− p 2=0
Hipoteza HA: p 1− p 2 ≠0
zd=

a 38
= =0,507
n 1 75
b 56
p 2 = = =0,747
n 2 75
3856
p=
=0,627
7575
p1=
0,507−0,747
−0,240
=
=−3,00
0,080
0,627⋅0,373
0,627⋅0,373

75
75
z =0,05=−1,96
Odrzucamy hipotezę H0. Leki różnią się skutecznością. Lek B
posiada szersze spektrum działania.
Pytanie: Kiedy do testowania hipotezy stosujemy test istotności
różnicy frakcji?
Gdy:
● badana cecha jest niemierzalna i może przyjąć dwie możliwe
wartości (np. kurczak żywy lub martwy);
● Badana cecha jest mierzalna lub policzalna i uzyskane wyniki
można podzielić na dwie kategorie;
● dysponujemy dwiema próbami, w których określono proporcje
obydwu wartości, jakie może przyjmować cecha;
● próby są duże (przynajmniej 30). W przypadku
prawdopodobieństwa sukcesu p w pojedynczym zdarzeniu
znacznie odbiegającego od 0,5 próba powinna wynosić
przynajmniej 100.
● w przypadku małolicznych prób (mniej niż 30 przypadków)
powinno się stosować test dokładny Fishera lub test
niezależności χ2 z poprawką Jatesa.
Zadanie
Rzucając kostką do gry 180 razy uzyskano następujące wyniki:
Liczba oczek
Liczność ni
1
24
2
29
3
40
4
25
5
35
6
27
Czy kostka wyrzuca poszczególne liczby oczek z równym
prawdopodobieństwem?
Aby rozwiązać zadanie należy zastosować test zgodności chi-kwadrat
(ch^2, χ2).
Test ten służy do weryfikacji hipotezy, że obserwowana cecha w próbie
(populacji) ma założony przez eksperymentatora rozkład.
Statystyką testu jest wyrażenie:
k
gdzie:
ni
np i
n=∑ ni
k
2
d
 =∑
i=1
 ni − npi 2
npi
- wartość doświadczalna (obserwowana) w klasie i,
- wartość teoretyczna (oczekiwana) w klasie i,
- liczność próby,
- liczba klas.
Statystyka χ2 zawiera się w przedziale (0, +∞).
Test chi-kwadrat jest testem jednostronnym.
UWAGA: Liczność oczekiwana w każdej klasie nie może być mniejsza od
5. Jeżeli zaistnieje taki przypadek, że liczność pewnej klasy jest mniejsza
od 5, to klasy sąsiednie należy połączyć tak, aby łączna częstość
oczekiwana wynosiła co najmniej 5.
Rozkład chi-kwadtat (χ2)
Kiedy zmienna losowa X ma rozkład normalny N(μ,σ) o nieznanych
parametrach μ i σ, to przy założeniu prawdziwości hipotezy H0:  2= 20
funkcja ns2/σ2 ma rozkład χ2 z df=k-1 stopniami swobody. Symbol ns2
oznacza sumę kwadratów odchyleń indywidualnych wyników od średniej
x próby.
df=1
df=2
df=3
df=4
df=5
Należy podkreślić, że rozkład zmiennej zależy tylko od liczby stopni
swobody, a nie zależy od średniej (μ) i odchylenia (σ). Jest on
niesymetryczny dla małej liczby stopni swobody, natomiast w miarę
wzrostu liczby stopni swobody staje się bardzie symetryczny dążąc do
rozkładu normalnego o parametrach: N  2n−1,1
Zadanie
Rzucając kostką do gry 180 razy uzyskano następujące wyniki:
Liczba oczek
Liczność ni
1
24
2
29
3
40
4
25
5
35
Czy kostka wyrzuca poszczególne liczby oczek z równym
prawdopodobieństwem?
Stawiamy hipotezy:
Hipoteza H0: p1= p 2 = p 3= p 4= p5 = p 6, p i =1/ 6
Hipoteza HA: p1≠ p 2 ≠ p 3≠ p 4≠ p5 ≠ p6, pi ≠1 / 6
Szukamy wartości teoretycznych npi:
npi =180⋅1 / 6=30
Liczba oczek
Częstości obserwowane ni
Częstości teoretyczne npi
1
24
30
2
29
30
3
40
30
4
25
30
5
35
30
6
27
30
6
27
Liczba oczek
Częstości obserwowane ni
Częstości teoretyczne npi
1
24
30
2
29
30
3
40
30
4
25
30
5
35
30
6
27
30
Liczymy statystykę χd2:
k
2
d
 =∑
i=1
 ni − npi 2
npi
24 −30 2  29−30 2  40−302  25−302 35−30 2 27−30 2
 =





=6,53
30
30
30
30
30
30
2
d
Wartość krytyczna χ2 dla α = 0,05 i df = 5 stopni swobody wynosi:
2=0,05=11,07
Zatem hipotezy H0 nie możemy odrzucić: kostka jest prawidłowa na
poziomie istotności α = 0,05 .
Zadanie
W populacji wilków zamieszkujących Bieszczady występują dwa allele pewnego genu H.
Częstość allelu H1 wynosi 0,7, natomiast częstość allelu H2 wynosi 0,3. Przebadano 158
osobników i stwierdzono obecność 60 homozygot H1/H1, 2 homozygoty H2/H2 oraz 96
heterozygot H1/H2. Czy zaobserwowany rozkład homo- i heterozygot odpowiada
rozkładowi teoretycznemu?
Rozkład teoretyczny jest dany wzorem:
2
2
p 2 p qq =1
p q=1
gdzie p i q to częstości alleli H1 i H2.
Liczymy liczebności teoretyczne:
H 1 / H 1 : 0,7 2⋅158=77,42
H 2 / H 2 : 0,3 2⋅158=14,22
H 1 / H 2 : 2⋅0,7⋅0,3⋅158=66,36
Rodzaj osobników
Częstości obserwowane ni
Częstości teoretyczne npi
H1/H1
60
77,42
H 2/H2
2
14,22
H1/H2
96
66,36
Zadanie
W populacji wilków zamieszkujących Bieszczady występują dwa allele pewnego genu H.
Częstość allelu H1 wynosi 0,7, natomiast częstość allelu H2 wynosi 0,3. Przebadano 158
osobników i stwierdzono obecność 60 homozygot H1/H1, 2 homozygoty H2/H2 oraz 96
heterozygot H1/H2. Czy zaobserwowany rozkład homo- i heterozygot odpowiada
rozkładowi teoretycznemu?
Rodzaj osobników
Częstości obserwowane ni
Częstości teoretyczne npi
H1/H1
60
77,42
H 2/H2
2
14,22
H1/H2
96
66,36
Liczymy statystykę χd2:
60−77,42 2  2−14,22 2 96−66,362
 =


=27,66
77,42
14,22
66,36
2
d
Wartość krytyczna χ2 dla α = 0,05 i df = 2 stopni swobody wynosi:
2=0,05=5,99
Zatem hipotezę H0 odrzucamy (p-value<0,001): zaobserwowany rozkład
nie jest zgodny z rozkładem teoretycznym.
Pytanie: Kiedy do testowania hipotezy stosujemy test zgodności
χ2?
Gdy:
● badana cecha jest niemierzalna i może przyjąć więcej niż dwie
możliwe wartości (np. liczba oczek na kostce do gry);
● badana cecha jest policzalna lub mierzalna, a uzyskane wyniki
możemy podzielić na kilka kategorii;
● potrafimy wskazać wartości teoretyczne;
Ograniczenia:
● liczebność teoretyczna każdej kategorii/grupy powinna wynosić
minimum 5 obserwacji.
Gdy ten warunek nie jest spełniony należy połączyć część
kategorii ze sobą.