Elementarne metody statystyczne 6
Transkrypt
Elementarne metody statystyczne 6
Elementarne metody statystyczne 6 Testy χ2 niezależności i jednorodności. Współczynniki korelacji rang Spearmana i Kendalla. Test niezależności χ2 . Test ten służy do badania niezależności stochastycznej dwóch cech X i Y o charakterze jakościowym. Dla empirycznie uzyskanych danych tworzy się tablicę korelacyjną o r wierszach (warianty cechy X) i k kolumnach (warianty cechy Y ), w której umieszcza się liczebności empiryczne nij . Przy założeniu niezależności cech X i Y oblicza się następnie liczebności teoretyczne b ij . Weryfikację hipotezy o niezależności X i Y przeprowadza się przy użyciu statystyki n χ2 = r X k X b ij )2 (nij − n b ij n i=1 j=1 , która przy założeniu prawdziwości tej hipotezy ma rozkład χ2(r−1)(k−1) . W przypadku, gdy liczba stopni swobody otrzymanego rozkładu jest większa od 30, można zastosować przybliżenie rozkładem normalnym tj. użyć jako statystyki testowej funkcji: q U= q 2χ2 − 2(r − 1)(k − 1) − 1, która przy założeniu prawdziwości testowanej hipotezy ma rozkład N (0, 1). Jeśli tablica korelacyjna ma wymiary 2 × 2 (w wierszach odpowiednio: a, b i c, d), wówczas można użyć uproszczonego wzoru: χ2 = n(ad − bc)2 , (a + b)(a + c)(b + d)(c + d) w którym n oznacza całkowitą liczebność próby. Dla n < 10 we wzorze tym stosuje się tzw. poprawkę Yatesa na ciągłość: n(|ad − bc| − 12 n)2 χ = . (a + b)(a + c)(b + d)(c + d) 2 Test jednorodności χ2 dla współczynników korelacji. Dane są dwie populacje, w których badane cechy X i Y mają rozkłady dwuwymiarowe normalne o nieznanych współczynnikach korelacji %1 i %2 . Na podstawie prób losowych o licznościach n1 > 10 i n2 > 10 weryfikujemy hipotezę H0 : %1 = %2 . Statystyką testową jest funkcja: s (n1 − 3)(n2 − 3) U = (Z1 − Z2 ) , n1 + n2 − 6 która przy założeniu prawdziwości H0 ma rozkład normalny. W powyższym wzorze przyjęto i Zi = 21 ln 1+R , gdzie Ri oznacza współczynnik korelacji liniowej Pearsona pomiędzy X i Y, 1−Ri obliczony na podstawie próby losowej pochodzącej z i−tej populacji. W przypadku, gdy weryfikacji podlega hipoteza H0 : %1 = ... = %k (mamy k populacji), wówczas statystyką testową jest 2 χ = k X 2 (ni − 3)(Zi − Z) , i=1 Pk (ni − 3)Zi , i=1 (ni − 3) gdzie Z = Pi=1 k 1 która przy założeniu prawdziwości H0 ma rozkład χ2k−1 . Współczynnik korelacji rang Spearmana. Opisuje siłę i kierunek związku korelacyjnego dwóch cech X i Y niemierzalnych, które jednak dają się uporządkować (można nadać im rangi). Współczynnik ten obliczamy ze wzoru: P 6 ni=1 d2i rS = 1 − , n(n2 − 1) gdzie di oznaczają kolejne różnice rang dla cechy X i Y, a n oznacza liczebność próby dwuwymiarowej. Współczynnik ten przyjmuje wartości z przedziału [−1, 1] i jego interpretacja jest podobna do współczynnika korelacji liniowej Pearsona. Współczynnik korelacji rang τ Kendalla. Jego sens jest podobny do współczynnika korelacji rang Spearmana. Po uporządkowaniu próby dwuwymiarowej w kolejności niemalejącej względem jednej ze zmiennych (np. X), dla każdej wartości drugiej z tych zmiennych (np. Y ) obliczamy, ile elementów o wyższych rangach następuje po tej wartości. Liczba ta stanowi tzw. notę danej wartości Y . Sumę not dla wszystkich wartości cechy oznaczamy symbolem V. Definicja współczynnika τ Kendalla jest następująca: 4V rK = − 1. n(n − 1) 1. Badaniu statystycznemu poddano preferencje wyboru programów telewizyjnych w zależności od wykształcenia. Wyniki uzyskane od 800 respondentów zebrano w poniższej tabeli: Wykształcenie (X) / Rodzaj programu (Y ) Film Podstawowe 100 Średnie 143 Wyższe 158 Ogółem 401 Teatr Teleturniej Publicystyka 8 72 20 12 110 35 19 82 41 39 264 96 Ogółem 200 300 300 800 Na poziomie istotności α = 0.05 zweryfikuj hipotezę o niezależności cech X i Y. 2. Uczniowie szkół średnich zostali poproszeni o wytypowanie, które grupy przedmiotów są im najbliższe. Dla 400 losowo wybranych uczniów uzyskano następujące wyniki: Płeć (X) / Przedmioty (Y ) Języki Dziewczęta 95 Chłopcy 80 Ogółem 175 Przedmioty ścisłe 40 85 125 Przedmioty przyrodnicze 45 55 100 Ogółem 180 220 400 Na poziomie istotności α = 0.01 zweryfikuj hipotezę o niezależności wyboru grupy przedmiotów od płci uczniów. 3. Badano, czy istnieje związek między prawo- i leworęcznością a uzdolnieniami plastycznymi i muzycznymi. Dla 1000 wylosowanych uczniów gimnazjów plastycznych i muzycznych otrzymano wyniki: Rodzaj szkoły (X) / Typ sprawności manualnej (Y ) Plastyczna Muzyczna Ogółem 2 Praworęczność 161 598 759 Leworęczność 89 152 241 Ogółem 250 750 1000 Na poziomie istotności α = 0.1 sprawdź, czy istnieje zależność pomiędzy badanymi cechami. 4. Z dwóch populacji otrzymano próby losowe cech X i Y (mierzalnych), które przedstawiono w następującej tabeli: Próba 1 X 1 Y1 1 4 2 4 3 5 4 5 5 7 6 9 7 10 8 12 9 14 10 15 11 16 12 17 Próba 2 X 2 Y2 -2 4 -1 4 0 6 1 5 2 8 3 7 4 7 5 8 6 10 7 8 8 8 9 11 Testem jednorodności χ2 na poziomie istotności α = 0.05 zweryfikuj hipotezę o identycznej korelacji pomiędzy cechami X i Y w obu populacjach. 5. Mamy następujące próby losowe dwuwymiarowe cech X i Y uzyskane z trzech różnych populacji: I : (12, 3), (11, 4), (10, 6), (9, 5), (8, 8), (7, 4), (6, 8), (5, 10), (4, 10), (3, 12), (2, 11), (1, 15); II : (18, 10), (17, 11), (16, 12), (15, 10), (14, 13), (13, 12), (12, 18), (11, 21), (10, 15), (9, 12), (8, 14); III : (0, 0), (−1, 1), (−2, 3), (−3, 3), (−4, 5), (−5, 5), (−6, 3), (−7, 4), (−8, 10), (−9, 10), (−10, 11). Na poziomie istotności α = 0.01 zweryfikuj hipotezę o jednakowej korelacji obu cech we wszystkich populacjach. 6. Próba losowa 12 wyników testów: matematycznego i fizycznego przeprowadzonego wśród uczniów szkół średnich dała wyniki (po rangowaniu): (1, 1), (2, 5), (3, 4), (4, 2), (5, 3), (6, 6), (7, 9), (8, 8), (9, 10), (10, 7), (11, 12), (12, 11). Oblicz i zinterpretuj współczynniki korelacji rang Spearmana i Kendalla. 7. Istnieje przekonanie, że długi czas dojazdu (dojścia) na zajęcia na uczelni negatywnie wpływa na wyniki w nauce. Dla 14 losowo wybranych studentów zanotowano przeciętny czas dojazdu na zajęcia (w minutach) i średnią ocen z ostatniego semestru, otrzymując wyniki: (25, 4.5), (45, 4.4), (60, 3.9), (20, 3.3), (15, 3.2), (20, 3.4), (35, 4.0), (30, 3.5), (40, 4.0), (65, 3.2), (10, 3.3), (80, 3.1), (75, 3.9), (70, 3.8). Sprawdź, czy istnieje korelacja pomiędzy badanymi cechami obliczając współczynniki korelacji rang. 8. 20 losowo wybranych studentów pisało dwa testy psychologiczne. Czy wyniki obu testów są 3 ze sobą powiązane, jeśli były one następujące (w punktach na 30 możliwych): (13, 18), (27, 12), (29, 30), (30, 30), (17, 10), (21, 13), (23, 25), (28, 12), (19, 20), (10, 11), (29, 19), (28, 12), (5, 12), (3, 8), (28, 30), (19, 15), (17, 17), (10, 28), (29, 30), (16, 12). Wykorzystaj współczynniki korelacji rang Kendalla i Spearmana. 9. Dwudziestu losowo wybranych uczniów szkół średnich poproszono o rozwiązanie pewnych testów: matematycznego i przyrodniczego. Wyniki obu testów, podane w punktach na 100 możliwych, kształtowały się następująco: Uczeń 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Test z matematyki 50 72 81 45 29 61 41 32 85 72 35 28 95 100 51 41 21 72 80 49 Test przyrodniczy 41 25 90 60 31 42 71 10 80 69 51 29 99 82 54 30 45 67 29 60 Oblicz i zinterpretuj współczynniki korelacji rang Spearmana i Kendalla i oceń ich statystyczną istotność, przyjmując α = 0.01. 4