Elementarne metody statystyczne 6

Transkrypt

Elementarne metody statystyczne 6
Elementarne metody statystyczne 6
Testy χ2 niezależności i jednorodności. Współczynniki korelacji rang Spearmana i Kendalla.
Test niezależności χ2 .
Test ten służy do badania niezależności stochastycznej dwóch cech X i Y o charakterze
jakościowym. Dla empirycznie uzyskanych danych tworzy się tablicę korelacyjną o r wierszach
(warianty cechy X) i k kolumnach (warianty cechy Y ), w której umieszcza się liczebności empiryczne nij . Przy założeniu niezależności cech X i Y oblicza się następnie liczebności teoretyczne
b ij . Weryfikację hipotezy o niezależności X i Y przeprowadza się przy użyciu statystyki
n
χ2 =
r X
k
X
b ij )2
(nij − n
b ij
n
i=1 j=1
,
która przy założeniu prawdziwości tej hipotezy ma rozkład χ2(r−1)(k−1) .
W przypadku, gdy liczba stopni swobody otrzymanego rozkładu jest większa od 30, można
zastosować przybliżenie rozkładem normalnym tj. użyć jako statystyki testowej funkcji:
q
U=
q
2χ2 −
2(r − 1)(k − 1) − 1,
która przy założeniu prawdziwości testowanej hipotezy ma rozkład N (0, 1).
Jeśli tablica korelacyjna ma wymiary 2 × 2 (w wierszach odpowiednio: a, b i c, d), wówczas
można użyć uproszczonego wzoru:
χ2 =
n(ad − bc)2
,
(a + b)(a + c)(b + d)(c + d)
w którym n oznacza całkowitą liczebność próby. Dla n < 10 we wzorze tym stosuje się tzw.
poprawkę Yatesa na ciągłość:
n(|ad − bc| − 12 n)2
χ =
.
(a + b)(a + c)(b + d)(c + d)
2
Test jednorodności χ2 dla współczynników korelacji.
Dane są dwie populacje, w których badane cechy X i Y mają rozkłady dwuwymiarowe
normalne o nieznanych współczynnikach korelacji %1 i %2 . Na podstawie prób losowych o licznościach n1 > 10 i n2 > 10 weryfikujemy hipotezę H0 : %1 = %2 . Statystyką testową jest
funkcja:
s
(n1 − 3)(n2 − 3)
U = (Z1 − Z2 )
,
n1 + n2 − 6
która przy założeniu prawdziwości H0 ma rozkład normalny. W powyższym wzorze przyjęto
i
Zi = 21 ln 1+R
, gdzie Ri oznacza współczynnik korelacji liniowej Pearsona pomiędzy X i Y,
1−Ri
obliczony na podstawie próby losowej pochodzącej z i−tej populacji.
W przypadku, gdy weryfikacji podlega hipoteza H0 : %1 = ... = %k (mamy k populacji),
wówczas statystyką testową jest
2
χ =
k
X
2
(ni − 3)(Zi − Z) ,
i=1
Pk
(ni − 3)Zi
,
i=1 (ni − 3)
gdzie Z = Pi=1
k
1
która przy założeniu prawdziwości H0 ma rozkład χ2k−1 .
Współczynnik korelacji rang Spearmana.
Opisuje siłę i kierunek związku korelacyjnego dwóch cech X i Y niemierzalnych, które jednak
dają się uporządkować (można nadać im rangi). Współczynnik ten obliczamy ze wzoru:
P
6 ni=1 d2i
rS = 1 −
,
n(n2 − 1)
gdzie di oznaczają kolejne różnice rang dla cechy X i Y, a n oznacza liczebność próby dwuwymiarowej. Współczynnik ten przyjmuje wartości z przedziału [−1, 1] i jego interpretacja jest
podobna do współczynnika korelacji liniowej Pearsona.
Współczynnik korelacji rang τ Kendalla.
Jego sens jest podobny do współczynnika korelacji rang Spearmana. Po uporządkowaniu
próby dwuwymiarowej w kolejności niemalejącej względem jednej ze zmiennych (np. X), dla
każdej wartości drugiej z tych zmiennych (np. Y ) obliczamy, ile elementów o wyższych rangach następuje po tej wartości. Liczba ta stanowi tzw. notę danej wartości Y . Sumę not dla
wszystkich wartości cechy oznaczamy symbolem V. Definicja współczynnika τ Kendalla jest
następująca:
4V
rK =
− 1.
n(n − 1)
1. Badaniu statystycznemu poddano preferencje wyboru programów telewizyjnych w zależności
od wykształcenia. Wyniki uzyskane od 800 respondentów zebrano w poniższej tabeli:
Wykształcenie (X) / Rodzaj programu (Y ) Film
Podstawowe
100
Średnie
143
Wyższe
158
Ogółem
401
Teatr Teleturniej Publicystyka
8
72
20
12
110
35
19
82
41
39
264
96
Ogółem
200
300
300
800
Na poziomie istotności α = 0.05 zweryfikuj hipotezę o niezależności cech X i Y.
2. Uczniowie szkół średnich zostali poproszeni o wytypowanie, które grupy przedmiotów są im
najbliższe. Dla 400 losowo wybranych uczniów uzyskano następujące wyniki:
Płeć (X) / Przedmioty (Y ) Języki
Dziewczęta
95
Chłopcy
80
Ogółem
175
Przedmioty ścisłe
40
85
125
Przedmioty przyrodnicze
45
55
100
Ogółem
180
220
400
Na poziomie istotności α = 0.01 zweryfikuj hipotezę o niezależności wyboru grupy przedmiotów
od płci uczniów.
3. Badano, czy istnieje związek między prawo- i leworęcznością a uzdolnieniami plastycznymi i
muzycznymi. Dla 1000 wylosowanych uczniów gimnazjów plastycznych i muzycznych otrzymano
wyniki:
Rodzaj szkoły (X) / Typ sprawności manualnej (Y )
Plastyczna
Muzyczna
Ogółem
2
Praworęczność
161
598
759
Leworęczność
89
152
241
Ogółem
250
750
1000
Na poziomie istotności α = 0.1 sprawdź, czy istnieje zależność pomiędzy badanymi cechami.
4. Z dwóch populacji otrzymano próby losowe cech X i Y (mierzalnych), które przedstawiono
w następującej tabeli:
Próba 1
X 1 Y1
1
4
2
4
3
5
4
5
5
7
6
9
7 10
8 12
9 14
10 15
11 16
12 17
Próba 2
X 2 Y2
-2
4
-1
4
0
6
1
5
2
8
3
7
4
7
5
8
6 10
7
8
8
8
9 11
Testem jednorodności χ2 na poziomie istotności α = 0.05 zweryfikuj hipotezę o identycznej
korelacji pomiędzy cechami X i Y w obu populacjach.
5. Mamy następujące próby losowe dwuwymiarowe cech X i Y uzyskane z trzech różnych
populacji:
I : (12, 3), (11, 4), (10, 6), (9, 5), (8, 8), (7, 4), (6, 8), (5, 10), (4, 10), (3, 12), (2, 11), (1, 15);
II : (18, 10), (17, 11), (16, 12), (15, 10), (14, 13), (13, 12), (12, 18), (11, 21), (10, 15), (9, 12), (8, 14);
III : (0, 0), (−1, 1), (−2, 3), (−3, 3), (−4, 5), (−5, 5), (−6, 3), (−7, 4), (−8, 10), (−9, 10), (−10, 11).
Na poziomie istotności α = 0.01 zweryfikuj hipotezę o jednakowej korelacji obu cech we wszystkich populacjach.
6. Próba losowa 12 wyników testów: matematycznego i fizycznego przeprowadzonego wśród
uczniów szkół średnich dała wyniki (po rangowaniu):
(1, 1), (2, 5), (3, 4), (4, 2), (5, 3), (6, 6), (7, 9), (8, 8), (9, 10), (10, 7), (11, 12), (12, 11).
Oblicz i zinterpretuj współczynniki korelacji rang Spearmana i Kendalla.
7. Istnieje przekonanie, że długi czas dojazdu (dojścia) na zajęcia na uczelni negatywnie wpływa
na wyniki w nauce. Dla 14 losowo wybranych studentów zanotowano przeciętny czas dojazdu
na zajęcia (w minutach) i średnią ocen z ostatniego semestru, otrzymując wyniki:
(25, 4.5), (45, 4.4), (60, 3.9), (20, 3.3), (15, 3.2), (20, 3.4), (35, 4.0),
(30, 3.5), (40, 4.0), (65, 3.2), (10, 3.3), (80, 3.1), (75, 3.9), (70, 3.8).
Sprawdź, czy istnieje korelacja pomiędzy badanymi cechami obliczając współczynniki korelacji
rang.
8. 20 losowo wybranych studentów pisało dwa testy psychologiczne. Czy wyniki obu testów są
3
ze sobą powiązane, jeśli były one następujące (w punktach na 30 możliwych):
(13, 18), (27, 12), (29, 30), (30, 30), (17, 10), (21, 13), (23, 25), (28, 12), (19, 20), (10, 11),
(29, 19), (28, 12), (5, 12), (3, 8), (28, 30), (19, 15), (17, 17), (10, 28), (29, 30), (16, 12).
Wykorzystaj współczynniki korelacji rang Kendalla i Spearmana.
9. Dwudziestu losowo wybranych uczniów szkół średnich poproszono o rozwiązanie pewnych
testów: matematycznego i przyrodniczego. Wyniki obu testów, podane w punktach na 100
możliwych, kształtowały się następująco:
Uczeń
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Test z matematyki
50
72
81
45
29
61
41
32
85
72
35
28
95
100
51
41
21
72
80
49
Test przyrodniczy
41
25
90
60
31
42
71
10
80
69
51
29
99
82
54
30
45
67
29
60
Oblicz i zinterpretuj współczynniki korelacji rang Spearmana i Kendalla i oceń ich statystyczną
istotność, przyjmując α = 0.01.
4