1 Analizy zmiennych jakościowych

Transkrypt

1 Analizy zmiennych jakościowych
1. Analizy zmiennych jakościowych
1
Analizy zmiennych jakościowych
Przedmiotem analizy są zmienne jakościowe. Dokładniej wyniki pomiarów
jakościowych. Pomiary tego typu spotykamy w praktyce badawczej znacznie
częściej niż pomiary typu ilościowego, chociaż granica między rozróżnieniem
jakie pomiary nazwiemy jakościowymi, a jakie ilościowymi nie jest zbyt precyzyjna.
Przykład 1 Dane pochodzą z badania przeprowadzonego przez Panią dr Annę M. Wiśniewską z Oddziału Neurologii, Szpital im. M. Kopernika w Gdańsku. Badaniem objęto 1831 osób z różnych ośrodków. Wszystkie osoby były
leczone ze względu na udar. Nie precyzujemy jaki rodzaj udaru miał miejsce.
Z obszernego badania wybieramy tylko niektóre zmienne. Pierwszą daną jaką rozpatrzymy będzie dana demograficzna: płeć. Można postawić pytanie
Kobiety
819
Mężczyźni
1012
Tablica 1: Płeć
czy mężczyzn było statystycznie istotnie więcej? Co to znaczy statystycznie
istotnie więcej? Spróbujemy na to pytanie sensownie odpowiedzieć.
1
1. Analizy zmiennych jakościowych
2
Rysunek 1: Huff: How to Lie with Statistics
1. Analizy zmiennych jakościowych
Przykład 2 Następną zmienną, która odgrywa już poważną rolę jest identyfikacja zgonu.
Nie było
1419
Zgon
412
Tablica 2: Zgon
Postawimy kilka naturalnych pytań:
1. Czy zgonów było „dużo” czy „mało”?
2. Jak rozumieć sformułowania „dużo” i „mało”?
3. Jak rozumieć proces decyzyjny w tym przypadku?
3
1. Analizy zmiennych jakościowych
Przykład 3 Pójdziemy dalej i popatrzymy na łączną postać płci i zgonu.
Kobiety
Mężczyźni
Nie było
606
813
Zgon
213
199
Tablica 3: Liczba zgonów
Intuicyjnie interesują nas częstości zgonów w grupie kobiet i grupie mężczyzn.
Częstości te są łatwe do obliczenia:
Płeć = DS[,8]
Zgon = DS[,212]
round(100*prop.table(table(Płeć,Zgon),1),1)
Kobiety
Mężczyźni
Nie było
74%
80.3%
Zgon
26%
19.7%
Tablica 4: Płeć i zgon
Jest oczywiste, że zadajemy pytanie: Czy 26% jest statystycznie istotnie większe niż 19.7%? Jednak odpowiedź tak lub na ogół nie jest zadawalająca.
Chcemy wiedzieć w jakim stopniu jest ta różnica znacząca? Dobrze by było
podać jakieś wskaźniki, które by określały tę siłę związku. Propozycja pada
na dwa wskaźniki RR - ryzyko względne (relative risk) i OR - iloraz szans
(Odds ratio). Postaramy się je omówić.
4
1. Analizy zmiennych jakościowych
Zanim odpowiemy na pytanie dotyczące siły związku dwóch wielkości jakościowych postawmy pytanie prostsze: Czy Zgon nie zależy od płci? Sformułowanie „nie zależy” jest oczywiste w sensie filozoficznym. Oznacza to, że nie
ma związku przyczynowo skutkowego między tymi wielkościami, ale my w
analizie statystycznej nie odwołujemy się do filozofii, tylko matematyki!
Zasadniczy problem polega na tym by powiedzieć, na bazie procedur statystycznych jak sprawdzać ową niezależność, jakkolwiek byśmy ją rozumieli.
Dokładniej prześledzimy w tym zakresie dokładny test Fishera (Exact Fisher
Test).
5
1. Analizy zmiennych jakościowych
Idziemy dalej, powiedzmy, że zmienne są zależne, jakkolwiek byśmy to uzyskali, to wpadamy w całe kontinuum różnych form zależności. Może udałoby się przypisać otrzymanym wynikom jakiś model i na jego podstawie coś
powiedzieć o tych zależnościach. Wydaje się, że model analizy log-liniowej
będzie przydatny. Skupimy się na nim i powiemy co z niego wynika. To podejście jest jednak tylko wstępem do analiz zależności trzech zmiennych.
6
1. Analizy zmiennych jakościowych
Rozpatrzymy trzecią zmienną: Cukrzyca
Nie było
1476
Cukrzyca
355
Tablica 5: Cukrzyca
Jak już zauważyliśmy, zgonów wśród kobiet jest więcej. Może zgony są w
większej częstości spowodowane cukrzycą? Na przykład może być tak, że
więcej kobiet ma cukrzycę i to ta cukrzyca podwyższa śmiertelność wśród
kobiet?
Popatrzmy na związki podwójne:
Kobiety
Mężczyźni
Nie było
648
828
Cukrzyca
171
184
Tablica 6: Płeć vs. cukrzyca
Kobiety
Mężczyźni
Nie było
79.1%
81.8%
Cukrzyca
20.9%
18.2%
Tablica 7: Płeć vs. cukrzyca[%]
7
1. Analizy zmiennych jakościowych
Nie było
Cukrzyca
Nie było
1174
245
Zgon
302
110
Tablica 8: Cukrzyca vs. zgon
Nie było
Cukrzyca
Nie było
79.5%
69%
Zgon
20.5%
31%
Tablica 9: Cukrzyca vs. zgon[%]
Musimy podjąć próbę przyporządkowania otrzymanym wynikom surowym
szczególnego modelu opisującego związki między wszystkimi trzema zmiennymi. Niestety nie mamy zbyt szerokiej palety tych modeli, a i interpretacje
są dość zawiłe, ale spróbujemy.
8
2. Podejście bayesowskie
2
Podejście bayesowskie
Jest to nowoczesne podejście które de facto jest ukierunkowane na oszacowanie, a nie na decyzyjność. Podejście jest dość naturalne i ideologię łatwo
sobie przyswoić, ale rachunki są makabryczne. Trzeba zatem wyposażyć się
w dosyć skuteczną aparaturę obliczeniową dostępną na przykład w języku
R. Tradycyjnie używane pakiety takie jak Statistica nie obsługuje procedur
bayesowskich.
By przybliżyć tematykę rozpatrzymy przykład:
Przykład 4 Badanie przeprowadzone w szpitalu AA wykazało, że wystąpienie powikłania w określonej chorobie wynosi 60%. Okazało się, że w szpitalu
BB to powikłanie wynosi 40%. Zespół ze szpitala CC podjął również próbę
oszacowania wystąpienia tego powikłania i okazało się, że na 120 pacjentów
u 56 pojawiła się to powikłanie. Jak połączyć, te trzy informacje w sensowny
sposób?
Przyjmujemy, że Θ jest zmienną losową odpowiadającą pojawieniu się powikłania. Informacje ze szpitala AA i BB interpretujemy w postaci określenia
rozkładu apriori zmiennej Θ.
1
3
= ,
Pr Θ =
5
2
2
1
Pr Θ =
= .
5
2
Wyniki badań własnych są realizacją otrzymaną z rozkładu warunkowego
zmiennej K pod warunkiem Θ = θ, który jest rozkładem dwumianowym z
parametrami (120, θ) , θ ∈ (0, 1) . Zatem rozkład łączny zmiennych K i Θ ma
postać
3
Pr Θ = ∧ K = 56
5
= Pr K = 56
120
3 56
56
5
56
2
120
2
Pr Θ = ∧ K = 56 =
5
56
5
=
9
3
3
· Pr Θ =
=
=
5
5
64
2
1
·
· = a1 ∼
= 0, 00047
5
2
64
3
1
·
· = a2 ∼
= 0, 01219
5
2
Θ
2. Podejście bayesowskie
Stąd rozkład aposteriori ma postać
a1
3 =
K = 56
5
a1 + a2
a2
2
Pr Θ = K = 56 =
5
a1 + a2
Pr Θ =
10
∼
= 0, 03755 ,
∼
= 0, 96246
2. Podejście bayesowskie
Przykład 5 Przykład dotyczy dziedziny poza medycyną, a mianowicie ubezpieczeń. W pewnej firmie ubezpieczeniowej liczba roszczeń w pewnym sektorze ubezpieczeń ma rozkład Poissona z wartością oczekiwaną λ. Parametr
ten zmienia się jednak w poszczególnych miesiącach i można przyjąć, że ma
rozkład gamma z wartością oczekiwaną 100 i wariancją 200. W pewnym miesiącu było 90 roszczeń. Przeanalizować rozkład liczby roszczeń opierając się
na zaobserwowanych informacjach.
W treści zadania rozważamy wielkość nazwaną „miesięczna liczba roszczeń”.
Niech X będzie zmienną losową odpowiadającą tej wielkości, czyli „miesięczna
liczba roszczeń”. W treści zadania występuje jeszcze jedna wielość zmienna,
to jest parametr λ. Niech Λ będzie zmienną losową odpowiadającą wartości
parametru λ. Czyli λ jest realizacją zmiennej losowej Λ. Korzystając z danych
w zadaniu możemy znaleźć rozkłady tych zmiennych losowych. Jeśli zmienna
losowa Λ ma rozkład Gamma z parametrami α i p, to korzystając z warunków
na wartość oczekiwaną i wariancję mamy
p
p
E Λ = = 100, Var (Λ) = 2 = 200.
α
α
1
Stąd α = i p = 50. Rozkład warunkowy zmiennej losowej X pod warunkiem
2
Λ = λ jest rozkładem Poissona z parametrem λ. Zatem, korzystając ze wzoru
f( Λ | X) (λ | x) = f( X | Λ) (x | λ)fΛ (x),
x ∈ N, λ > 0,
gdzie f( X | Λ) ( · | λ) jest częstością rozkładu Poissona z parametrem λ, a fΛ ( · )
1
jest rozkładem gamma z parametrami α = i p = 50
2
x
λ −λ
αp p−1 −αλ
f( X | Λ) (x | λ) =
e , x ∈ N, λ > 0, fΛ (λ) =
λ e , λ > 0,
x!
Γ(p)
Stąd gęstość rozkładu warunkowego zmiennej losowej X pod warunkiem Λ = λ
spełnia warunek
1
f( Λ | X) (λ | 90) ∝ λ49+90 e−λ e− 2 λ ,
3
czyli jest rozkładem gamma z parametrami α =
i p = 136. Jak widać
2
otrzymanie wyniku x = 90 zmieniło wstępne informacje o rozkładzie zmiennej
losowej Λ. Zmalała wartość oczekiwana (wynosi ok. 90) i zmalała wariancja
(wynosi ok. 60).
11
2. Podejście bayesowskie
Następny przykład będzie dotyczył cytospinu. Na rysunku znajdują się ostateczne wyniki, które zostały uzyskane przy pomocy procedury bayesowskiej.
12