Testy zgodności
Transkrypt
Testy zgodności
Metody probabilistyczne i statystyka Wykład 11 Testy zgodności Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej Metody probabilistyczne i statystyka Wykład 11 27. Nieparametryczne testy zgodności Weryfikacja hipotezy nieparametrycznej zbadanie zgodności między hipotetycznym rozkładem w populacji, a empirycznym rozkładem w próbce zbadanie zgodności między empirycznymi rozkładami w dwóch próbkach Wstępne informacje co do postaci rozkładu – analiza histogramu uzyskanego z próbki a) 0 b) 0 Rys.27.1. Przykłady histogramów empirycznych Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Testy zgodności dla jednej populacji (27.1) Testy zgodności dla jednej populacji Hipotezy test χ2 Pearsona (n ≥ 80) test λ Kołmogorowa (liczność dowolna, cecha typu ciągłego) test Shapiro-Wilka (rozkład normalny, n ≤ 50) test Kołmogorowa-Lillieforsa (rozkład normalny, n > 30) H0: cecha X ma rozkład określony dystrybuantą F H1: ∼ H0 Dla cechy typu ciągłego zakładamy, że wartości próbki są przedstawione w postaci szeregu przedziałowego rozdzielczego Lp. Granice klas Liczebność empiryczna ni 1 x1d − x1g n1 2 x2d − x2g n2 … … … k xkd − xkg nk Zauważmy, że xid = xi-1g Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Test χ2 Pearsona Model (test χ2 Pearsona, n ≥ 80) Jeśli hipoteza H0 jest prawdziwa, to prawdopodobieństwo pi, że cecha X typu ciągłego przyjmuje wartości należące do i-tej klasy można obliczyć ze wzoru pi = F ( xig ) − F ( xi −1g ) Wtedy liczność hipotetyczna w i-tej klasie wyraża się wzorem npi i zachodzą następujące twierdzenia Twierdzenie a) Jeśli próba jest liczna (n ≥ 80), to statystyka k χ 2 = ∑ i=1 ( N i − npi ) 2 npi ma w przybliżeniu rozkład χ2 z k−1 stopniami swobody, gdzie Ni jest zmienną losową, oznaczającą liczbę elementów próbki, należących do i-tej klasy Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Test χ2 Pearsona Twierdzenie – cd. b) Jeśli dystrybuanta F cechy X zależy od l parametrów o nieznanych wartościach, to statystyka χ2 ma w przybliżeniu rozkład χ2 z k− l− 1 stopniami swobody Obszar krytyczny dla hipotezy alternatywnej H1: ∼ H0 ma dla ustalonego poziomu ufności α postać K = 〈 χ2 (1−α, k− l− 1), ∞) Uwaga Do klasy 1-szej i k-tej (ostatniej) powinno należeć co najmniej 5 elementów, do pozostałych klas – co najmniej 10 elementów Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Test χ2 Pearsona Przykład (a) Z populacji, w której badana cecha X ma nieznaną dystrybuantę F pobrano próbkę o liczności 200 Wyniki po podziale na 10 równych klas zawarto w tabeli Środki klas 45,25 45,75 46,25 46,75 47,25 47,75 48,25 48,75 49,25 49,75 ni 23 19 25 18 17 24 16 22 20 16 Na poziomie istotności 0.05 zweryfikować hipotezę, że cecha X ma rozkład jednostajny na przedziale 〈40,50〉 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Test 2 χ Wykład 11 Pearsona Przykład (b) Doświadczenie dotyczy selekcji grochu Mendel obserwował liczności występowania różnych rodzajów nasion, otrzymanych przy krzyżowaniu roślin z okrągłymi i żółtymi nasionami oraz roślin z pomarszczonymi i zielonymi nasionami Otrzymane wyniki zebrano w tabeli Nasiona żółte zielone okrągłe 315 108 pomarszczone 101 32 Na poziomie istotności 0.05 zweryfikować hipotezę, że stosunek liczby czterech rodzajów nasion wynosi 9:3:3:1 Opracowała Joanna Banaś Metody probabilistyczne i statystyka Test 2 χ Wykład 11 Pearsona Przykład (c) Dokonano 100 pomiarów wytrzymałości elementów żelbetonowych Wyniki przedstawiono w tabeli Wytrzymałość 289-291 291-293 293-295 295-297 297-299 Liczba pomiarów 1 4 9 15 24 Wytrzymałość 299-301 301-303 303-305 305-307 307-309 Liczba pomiarów 21 13 9 3 1 Na poziomie istotności 0.05 sprawdzić hipotezę, że zmienna losowa X, będąca modelem wytrzymałości tych elementów, ma rozkład normalny Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Testy zgodności dla dwóch populacji (27.2) Testy zgodności dla dwóch populacji (cecha typu ciągłego) test serii test Smirnowa-Kołmogorowa test Wilcoxona Założenia W dwóch populacjach dystrybuanty F1 i F2 badanej cechy X są ciągłe Dane są dwie niezależne próbki proste o licznościach n1 i n2 odpowiednio Hipotezy H0: F1(x) = F2(x) H1: F1(x) ≠ F2(x) Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Test serii Model (test serii) Wyniki obu próbek ustawiamy w n1+n2-elementowy ciąg niemalejący Tworzymy drugi ciąg, w którym a odpowiada elementom pierwszej próbki, b – drugiej, np. aaabbabaab Ustalamy liczbę k serii występujących w ciągu (w powyższym jest 6 serii) Wyznaczamy obszar krytyczny K = 〈 2, k (α, n1 , n2 )〉 gdzie k(α, n1,n2) odczytujemy z tablic rozkładu serii Odrzucamy hipotezę H0 o zgodności rozkładów, jeśli k∈K Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Test serii Przykład Chcemy sprawdzić, która kapusta: biała czy czerwona, zawiera więcej witaminy C Pobrano próbki 100 gramowe z każdego gatunku i wyznaczono ilość witaminy C dla każdej próbki w mg: Kapusta biała 45 50 64 38 66 43 49 58 31 Kapusta czerwona 70 68 55 61 62 74 52 71 56 49 Na poziomie istotności 0.05 zweryfikować testem serii hipotezę, że rozkłady zawartości witaminy C dla obu gatunków kapusty są identyczne Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 11 Dziękuję za uwagę Opracowała Joanna Banaś