Testy zgodności

Transkrypt

Testy zgodności
Metody probabilistyczne i statystyka
Wykład 11
Testy zgodności
Dr Joanna Banaś
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
Metody probabilistyczne i statystyka
Wykład 11
27. Nieparametryczne testy zgodności
Weryfikacja hipotezy nieparametrycznej
zbadanie zgodności między hipotetycznym rozkładem w populacji,
a empirycznym rozkładem w próbce
zbadanie zgodności między empirycznymi rozkładami w dwóch próbkach
Wstępne informacje co do postaci rozkładu – analiza histogramu
uzyskanego z próbki
a)
0
b)
0
Rys.27.1. Przykłady histogramów empirycznych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Testy zgodności dla jednej populacji
(27.1) Testy zgodności dla jednej populacji
Hipotezy
test χ2 Pearsona (n ≥ 80)
test λ Kołmogorowa (liczność dowolna, cecha typu ciągłego)
test Shapiro-Wilka (rozkład normalny, n ≤ 50)
test Kołmogorowa-Lillieforsa (rozkład normalny, n > 30)
H0: cecha X ma rozkład określony dystrybuantą F
H1: ∼ H0
Dla cechy typu ciągłego zakładamy, że wartości próbki są przedstawione
w postaci szeregu przedziałowego rozdzielczego
Lp.
Granice klas
Liczebność empiryczna ni
1
x1d − x1g
n1
2
x2d − x2g
n2
…
…
…
k
xkd − xkg
nk
Zauważmy, że
xid = xi-1g
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Test χ2 Pearsona
Model (test χ2 Pearsona, n ≥ 80)
Jeśli hipoteza H0 jest prawdziwa, to prawdopodobieństwo pi, że cecha X
typu ciągłego przyjmuje wartości należące do i-tej klasy można obliczyć ze
wzoru
pi = F ( xig ) − F ( xi −1g )
Wtedy liczność hipotetyczna w i-tej klasie wyraża się wzorem
npi
i zachodzą następujące twierdzenia
Twierdzenie
a)
Jeśli próba jest liczna (n ≥ 80), to statystyka
k
χ 2 = ∑ i=1
( N i − npi )
2
npi
ma w przybliżeniu rozkład χ2 z k−1 stopniami swobody, gdzie Ni jest zmienną
losową, oznaczającą liczbę elementów próbki, należących do i-tej klasy
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Test χ2 Pearsona
Twierdzenie – cd.
b)
Jeśli dystrybuanta F cechy X zależy od l parametrów o nieznanych
wartościach, to statystyka χ2 ma w przybliżeniu rozkład χ2 z k− l− 1
stopniami swobody
Obszar krytyczny dla hipotezy alternatywnej H1: ∼ H0 ma dla
ustalonego poziomu ufności α postać
K = 〈 χ2 (1−α, k− l− 1), ∞)
Uwaga
Do klasy 1-szej i k-tej (ostatniej) powinno należeć co najmniej 5
elementów, do pozostałych klas – co najmniej 10 elementów
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Test χ2 Pearsona
Przykład (a)
Z populacji, w której badana cecha X ma nieznaną dystrybuantę F
pobrano próbkę o liczności 200
Wyniki po podziale na 10 równych klas zawarto w tabeli
Środki klas 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75
ni
23
19
25
18
17
24
16
22
20
16
Na poziomie istotności 0.05 zweryfikować hipotezę, że
cecha X ma rozkład jednostajny na przedziale 〈40,50〉
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Test
2
χ
Wykład 11
Pearsona
Przykład (b)
Doświadczenie dotyczy selekcji grochu
Mendel obserwował liczności występowania różnych rodzajów
nasion, otrzymanych przy krzyżowaniu roślin z okrągłymi i
żółtymi nasionami oraz roślin z pomarszczonymi i zielonymi
nasionami
Otrzymane wyniki zebrano w tabeli
Nasiona
żółte
zielone
okrągłe
315
108
pomarszczone
101
32
Na poziomie istotności 0.05 zweryfikować hipotezę, że
stosunek liczby czterech rodzajów nasion wynosi 9:3:3:1
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Test
2
χ
Wykład 11
Pearsona
Przykład (c)
Dokonano 100 pomiarów wytrzymałości elementów żelbetonowych
Wyniki przedstawiono w tabeli
Wytrzymałość
289-291
291-293
293-295
295-297
297-299
Liczba pomiarów
1
4
9
15
24
Wytrzymałość
299-301
301-303
303-305
305-307
307-309
Liczba pomiarów
21
13
9
3
1
Na poziomie istotności 0.05 sprawdzić hipotezę, że zmienna losowa X,
będąca modelem wytrzymałości tych elementów, ma rozkład
normalny
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Testy zgodności dla dwóch populacji
(27.2) Testy zgodności dla dwóch populacji (cecha typu ciągłego)
test serii
test Smirnowa-Kołmogorowa
test Wilcoxona
Założenia
W dwóch populacjach dystrybuanty F1 i F2 badanej cechy X są ciągłe
Dane są dwie niezależne próbki proste o licznościach n1 i n2 odpowiednio
Hipotezy
H0: F1(x) = F2(x)
H1: F1(x) ≠ F2(x)
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Test serii
Model (test serii)
Wyniki obu próbek ustawiamy w n1+n2-elementowy ciąg
niemalejący
Tworzymy drugi ciąg, w którym a odpowiada elementom
pierwszej próbki, b – drugiej, np. aaabbabaab
Ustalamy liczbę k serii występujących w ciągu
(w powyższym jest 6 serii)
Wyznaczamy obszar krytyczny
K = 〈 2, k (α, n1 , n2 )〉
gdzie k(α, n1,n2) odczytujemy z tablic rozkładu serii
Odrzucamy hipotezę H0 o zgodności rozkładów, jeśli
k∈K
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Test serii
Przykład
Chcemy sprawdzić, która kapusta: biała czy czerwona, zawiera
więcej witaminy C
Pobrano próbki 100 gramowe z każdego gatunku i wyznaczono
ilość witaminy C dla każdej próbki w mg:
Kapusta
biała
45
50
64
38
66
43
49
58
31
Kapusta
czerwona
70
68
55
61
62
74
52
71
56
49
Na poziomie istotności 0.05 zweryfikować testem serii
hipotezę, że rozkłady zawartości witaminy C dla obu
gatunków kapusty są identyczne
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 11
Dziękuję za uwagę
Opracowała Joanna Banaś