1 Analizy zmiennych jakościowych
Transkrypt
1 Analizy zmiennych jakościowych
1. Analizy zmiennych jakościowych 1 Analizy zmiennych jakościowych Przedmiotem analizy są zmienne jakościowe. Dokładniej wyniki pomiarów jakościowych. Pomiary tego typu spotykamy w praktyce badawczej znacznie częściej niż pomiary typu ilościowego, chociaż granica między rozróżnieniem jakie pomiary nazwiemy jakościowymi, a jakie ilościowymi nie jest zbyt precyzyjna. Przykład 1 Dane pochodzą z badania przeprowadzonego przez Panią dr Annę M. Wiśniewską z Oddziału Neurologii, Szpital im. M. Kopernika w Gdańsku. Badaniem objęto 1831 osób z różnych ośrodków. Wszystkie osoby były leczone ze względu na udar. Nie precyzujemy jaki rodzaj udaru miał miejsce. Z obszernego badania wybieramy tylko niektóre zmienne. Pierwszą daną jaką rozpatrzymy będzie dana demograficzna: płeć. Można postawić pytanie Kobiety 819 Mężczyźni 1012 Tablica 1: Płeć czy mężczyzn było statystycznie istotnie więcej? Co to znaczy statystycznie istotnie więcej? Spróbujemy na to pytanie sensownie odpowiedzieć. 1 1. Analizy zmiennych jakościowych 2 Rysunek 1: Huff: How to Lie with Statistics 1. Analizy zmiennych jakościowych Przykład 2 Następną zmienną, która odgrywa już poważną rolę jest identyfikacja zgonu. Nie było 1419 Zgon 412 Tablica 2: Zgon Postawimy kilka naturalnych pytań: 1. Czy zgonów było „dużo” czy „mało”? 2. Jak rozumieć sformułowania „dużo” i „mało”? 3. Jak rozumieć proces decyzyjny w tym przypadku? 3 1. Analizy zmiennych jakościowych Przykład 3 Pójdziemy dalej i popatrzymy na łączną postać płci i zgonu. Kobiety Mężczyźni Nie było 606 813 Zgon 213 199 Tablica 3: Liczba zgonów Intuicyjnie interesują nas częstości zgonów w grupie kobiet i grupie mężczyzn. Częstości te są łatwe do obliczenia: Płeć = DS[,8] Zgon = DS[,212] round(100*prop.table(table(Płeć,Zgon),1),1) Kobiety Mężczyźni Nie było 74% 80.3% Zgon 26% 19.7% Tablica 4: Płeć i zgon Jest oczywiste, że zadajemy pytanie: Czy 26% jest statystycznie istotnie większe niż 19.7%? Jednak odpowiedź tak lub na ogół nie jest zadawalająca. Chcemy wiedzieć w jakim stopniu jest ta różnica znacząca? Dobrze by było podać jakieś wskaźniki, które by określały tę siłę związku. Propozycja pada na dwa wskaźniki RR - ryzyko względne (relative risk) i OR - iloraz szans (Odds ratio). Postaramy się je omówić. 4 1. Analizy zmiennych jakościowych Zanim odpowiemy na pytanie dotyczące siły związku dwóch wielkości jakościowych postawmy pytanie prostsze: Czy Zgon nie zależy od płci? Sformułowanie „nie zależy” jest oczywiste w sensie filozoficznym. Oznacza to, że nie ma związku przyczynowo skutkowego między tymi wielkościami, ale my w analizie statystycznej nie odwołujemy się do filozofii, tylko matematyki! Zasadniczy problem polega na tym by powiedzieć, na bazie procedur statystycznych jak sprawdzać ową niezależność, jakkolwiek byśmy ją rozumieli. Dokładniej prześledzimy w tym zakresie dokładny test Fishera (Exact Fisher Test). 5 1. Analizy zmiennych jakościowych Idziemy dalej, powiedzmy, że zmienne są zależne, jakkolwiek byśmy to uzyskali, to wpadamy w całe kontinuum różnych form zależności. Może udałoby się przypisać otrzymanym wynikom jakiś model i na jego podstawie coś powiedzieć o tych zależnościach. Wydaje się, że model analizy log-liniowej będzie przydatny. Skupimy się na nim i powiemy co z niego wynika. To podejście jest jednak tylko wstępem do analiz zależności trzech zmiennych. 6 1. Analizy zmiennych jakościowych Rozpatrzymy trzecią zmienną: Cukrzyca Nie było 1476 Cukrzyca 355 Tablica 5: Cukrzyca Jak już zauważyliśmy, zgonów wśród kobiet jest więcej. Może zgony są w większej częstości spowodowane cukrzycą? Na przykład może być tak, że więcej kobiet ma cukrzycę i to ta cukrzyca podwyższa śmiertelność wśród kobiet? Popatrzmy na związki podwójne: Kobiety Mężczyźni Nie było 648 828 Cukrzyca 171 184 Tablica 6: Płeć vs. cukrzyca Kobiety Mężczyźni Nie było 79.1% 81.8% Cukrzyca 20.9% 18.2% Tablica 7: Płeć vs. cukrzyca[%] 7 1. Analizy zmiennych jakościowych Nie było Cukrzyca Nie było 1174 245 Zgon 302 110 Tablica 8: Cukrzyca vs. zgon Nie było Cukrzyca Nie było 79.5% 69% Zgon 20.5% 31% Tablica 9: Cukrzyca vs. zgon[%] Musimy podjąć próbę przyporządkowania otrzymanym wynikom surowym szczególnego modelu opisującego związki między wszystkimi trzema zmiennymi. Niestety nie mamy zbyt szerokiej palety tych modeli, a i interpretacje są dość zawiłe, ale spróbujemy. 8 2. Podejście bayesowskie 2 Podejście bayesowskie Jest to nowoczesne podejście które de facto jest ukierunkowane na oszacowanie, a nie na decyzyjność. Podejście jest dość naturalne i ideologię łatwo sobie przyswoić, ale rachunki są makabryczne. Trzeba zatem wyposażyć się w dosyć skuteczną aparaturę obliczeniową dostępną na przykład w języku R. Tradycyjnie używane pakiety takie jak Statistica nie obsługuje procedur bayesowskich. By przybliżyć tematykę rozpatrzymy przykład: Przykład 4 Badanie przeprowadzone w szpitalu AA wykazało, że wystąpienie powikłania w określonej chorobie wynosi 60%. Okazało się, że w szpitalu BB to powikłanie wynosi 40%. Zespół ze szpitala CC podjął również próbę oszacowania wystąpienia tego powikłania i okazało się, że na 120 pacjentów u 56 pojawiła się to powikłanie. Jak połączyć, te trzy informacje w sensowny sposób? Przyjmujemy, że Θ jest zmienną losową odpowiadającą pojawieniu się powikłania. Informacje ze szpitala AA i BB interpretujemy w postaci określenia rozkładu apriori zmiennej Θ. 1 3 = , Pr Θ = 5 2 2 1 Pr Θ = = . 5 2 Wyniki badań własnych są realizacją otrzymaną z rozkładu warunkowego zmiennej K pod warunkiem Θ = θ, który jest rozkładem dwumianowym z parametrami (120, θ) , θ ∈ (0, 1) . Zatem rozkład łączny zmiennych K i Θ ma postać 3 Pr Θ = ∧ K = 56 5 = Pr K = 56 120 3 56 56 5 56 2 120 2 Pr Θ = ∧ K = 56 = 5 56 5 = 9 3 3 · Pr Θ = = = 5 5 64 2 1 · · = a1 ∼ = 0, 00047 5 2 64 3 1 · · = a2 ∼ = 0, 01219 5 2 Θ 2. Podejście bayesowskie Stąd rozkład aposteriori ma postać a1 3 = K = 56 5 a1 + a2 a2 2 Pr Θ = K = 56 = 5 a1 + a2 Pr Θ = 10 ∼ = 0, 03755 , ∼ = 0, 96246 2. Podejście bayesowskie Przykład 5 Przykład dotyczy dziedziny poza medycyną, a mianowicie ubezpieczeń. W pewnej firmie ubezpieczeniowej liczba roszczeń w pewnym sektorze ubezpieczeń ma rozkład Poissona z wartością oczekiwaną λ. Parametr ten zmienia się jednak w poszczególnych miesiącach i można przyjąć, że ma rozkład gamma z wartością oczekiwaną 100 i wariancją 200. W pewnym miesiącu było 90 roszczeń. Przeanalizować rozkład liczby roszczeń opierając się na zaobserwowanych informacjach. W treści zadania rozważamy wielkość nazwaną „miesięczna liczba roszczeń”. Niech X będzie zmienną losową odpowiadającą tej wielkości, czyli „miesięczna liczba roszczeń”. W treści zadania występuje jeszcze jedna wielość zmienna, to jest parametr λ. Niech Λ będzie zmienną losową odpowiadającą wartości parametru λ. Czyli λ jest realizacją zmiennej losowej Λ. Korzystając z danych w zadaniu możemy znaleźć rozkłady tych zmiennych losowych. Jeśli zmienna losowa Λ ma rozkład Gamma z parametrami α i p, to korzystając z warunków na wartość oczekiwaną i wariancję mamy p p E Λ = = 100, Var (Λ) = 2 = 200. α α 1 Stąd α = i p = 50. Rozkład warunkowy zmiennej losowej X pod warunkiem 2 Λ = λ jest rozkładem Poissona z parametrem λ. Zatem, korzystając ze wzoru f( Λ | X) (λ | x) = f( X | Λ) (x | λ)fΛ (x), x ∈ N, λ > 0, gdzie f( X | Λ) ( · | λ) jest częstością rozkładu Poissona z parametrem λ, a fΛ ( · ) 1 jest rozkładem gamma z parametrami α = i p = 50 2 x λ −λ αp p−1 −αλ f( X | Λ) (x | λ) = e , x ∈ N, λ > 0, fΛ (λ) = λ e , λ > 0, x! Γ(p) Stąd gęstość rozkładu warunkowego zmiennej losowej X pod warunkiem Λ = λ spełnia warunek 1 f( Λ | X) (λ | 90) ∝ λ49+90 e−λ e− 2 λ , 3 czyli jest rozkładem gamma z parametrami α = i p = 136. Jak widać 2 otrzymanie wyniku x = 90 zmieniło wstępne informacje o rozkładzie zmiennej losowej Λ. Zmalała wartość oczekiwana (wynosi ok. 90) i zmalała wariancja (wynosi ok. 60). 11 2. Podejście bayesowskie Następny przykład będzie dotyczył cytospinu. Na rysunku znajdują się ostateczne wyniki, które zostały uzyskane przy pomocy procedury bayesowskiej. 12