Statystyka
Transkrypt
Statystyka
Statystyka. v.0.9 – egz mgr inf niestacj 1 Statystyczna analiza danych 1 Statystyka opisowa Szereg szczegółowy prosty — monotoniczny ciąg danych (xi )ni=1 uzyskanych np. w trakcie pomiaru lub za pomocą ankiety. Przykłady (szeregowania danych) Dane: 1, 1; 1, 2; 1, 2; 1, 2; 1, 3; 1, 4; 1, 4. • Szereg szczegółowy: i xi 1 2 3 4 5 6 7 1,1 1,2 1,2 1,2 1,3 1,4 1,4 • Szereg rozdzielczy punktowy: j 1 2 3 xj 1,1 1,2 1,3 fj 1 3 1 (grupujemy te same wyniki podając ich liczebności 4 1,4 2 fj ) • Szereg rozdzielczy przedziałowy: l 1 2 xl [1,0; 1,25) [1,25; 1,5) fl 4 3 (dzielimy wyniki wg zakresów podając liczebności fl w danym przedziale; część informacji utracona) Uwaga: 1. Dalej zakładamy, że dane (xi )ni=1 są w postaci szeregu szczegółowego (ciąg niemalejący). 2. Próba (xi )ni=1 może być wybrana z populacji lub stanowić zestaw wyników obserwacji zjawiska losowego. Statystyki z próby danych (xi )ni=1 1. średnia µ = x = 1 n · n P xi ; miara położenia i=1 2. moda (= dominanta = wartość modalna) najczęściej pojawiająca się wartość xi ; miara położenia 3. kwartyle: Q1 (dolny = pierwszy), Q2 (mediana = wartość środkowa = drugi), Q3 (górny = trzeci); miary położenia ( x(n+1)/2 , n – nieparzyste Q2 = xn/2 +x(n+2)/2 k opis , n – parzyste 2 1 25% danych nie przekracza Q1 , 75% danych nie mniejsza niż Q1 2 połowa danych nie przekracza Q2 , połowa danych nie mniejsza niż Q2 3 75% danych nie przekracza Q3 , 25% danych nie mniejsza niż Q3 4. rozstęp R = max xi − min xi ; miara rozproszenia i i 5. odchylenie ćwiartkowe (= rozstęp ćwiartkowy) Q = 12 (Q3 − Q1 ), gdzie Q1 , Q3 – kwartyle; miara rozproszenia 6. odchylenie przeciętne d = 1 n · n P i=1 |xi − x|, gdzie x – średnia; miara rozproszenia 2 Statystyka. v.0.9 – egz mgr inf niestacj 7. wariancja σ 2 = s2 = m2 = 1 n · n P (xi − x)2 ; miara rozproszenia i=1 8. odchylenie standardowe σ = s = √ x−moda ; s 9. współczynnik asymetrii s wariancja = 1 n n P · (xi − x)2 ; miara rozproszenia i=1 miara asymetrii 10. kurtoza (= współczynnik koncentracji) K = 11. moment centralny k-tego rzędu mk = 1 n · n P m4 ; s4 miara koncentracji (xi − x)k i=1 Uwaga: 1. Rozkład może mieć wiele dominant (tzw. rozkład wielomodalny). 2. Dyspersja = rozproszenie. 3. Q < d < s. Przykład (wyznaczania statystyk z przesadnie małej próby) Dane: x1 = 1, 1; x2,3,4 = 1, 2; x5 = 1, 3; x6,7 = 1, 4. położenie 8,8 x = 7 ≈ 1, 257 moda = 1, 2 Q1 = 1, 2, Q2 = 1, 2, Q3 = 1, 35 rozproszenie R = 1, 4 − 1, 1 = 0, 3 Q = 0, 075 d ≈ 0, 094 s ≈ 0, 105, s2 ≈ 0, 011 asymetria/koncentracja wsp.asym. ≈ 0, 54 K ≈ 16, 52 3 6 moda R Q= 2 Q1 1 1.1 1.2 1.3 1.4 1,1 Q3 e 1,2 Histogram 2 Q2 e - Q3 −Q1 2 1,2 1,2 1,3 1,4 1,4 Szereg szczegółowy Rozkłady zmiennych losowych Zmienna losowa X — funkcja X : Ω → R przyjmująca wartość X(ω) w zależności od zdarzenia elementarnego ω ∈ Ω, przy czym ma sens prawdopodobieństwo F (x) = Pr(X 6 x), że zaszło zdarzenie ω ∈ Ω, dla którego wartość zmiennej X(ω) nie przekracza wartości x: X(ω) 6 x. Dystrybuanta F rozkładu prawdopodobieństwa zmiennej losowej X: F (x) = Pr(X 6 x). Dystrybuanta opisuje w pełni rozkład prawdopodobieństwa zmiennej losowej X: 1. Pr(X > x) = 1 − Pr(X 6 x) = 1 − F (x), 2. Pr(X < x) = lim+ F (x + h), h&0 3. Pr(a < X 6 b) = F (b) − F (a). Gęstość f rozkładu prawdopodobieństwa zmiennej X — funkcja całkowalna f (z) > 0 o całce −∞ f (z) dz = 1 spełniająca Z R∞ x F (x) = f (z) dz, −∞ gdzie F jest dystrybuantą rozkładu X. Ciągła zmienna losowa — zmienna, której rozkład prawdopodobieństwa posiada gęstość. Statystyka. v.0.9 – egz mgr inf niestacj Zależność między gęstością f a dystrybuantą F : F 0 (x) = f (x) we wszystkich punktach ciągłości f . p-stwo, że wynik leży w przedziale (x, x + h] . Pr(x < X 6 x + h) Inaczej: f (x) = lim ← gęstość h h→0 - długość przedziału Zmienna dyskretna X o rozkładzie Pr(X = xi ) = f (xi ) Wartość oczekiwana EX Wariancja D2 X = E(X − EX)2 = E(X 2 ) − (EX)2 µ= P Zmienna ciągła X o gęstości f (x) xi · f (xi ) x · f (x) dx −∞ i σ2 = R∞ µ= P R∞ i −∞ (xi − µ)2 · f (xi ) σ 2 = (x − µ)2 · f (x) dx 2 Nierówność Czebyszewa : Pr (|X − EX| > ε) 6 D ε(X) dla ε > 0. 2 Przykład (rozkład normalny Gaussa). N (µ, σ) – rozkład o gęstości z − µ 2 − 12 1 σ f (z) = √ e ; σ 2π Zasada trzech sigm : X ∼ N (µ, σ) ⇒ EX = µ, D2 X = σ 2 Dla X ∼ N (µ, σ) zachodzi Pr( |X − µ| > 3σ ) < 0, 003 . 99, 7% - µ − 3σ µ µ + 3σ Słownie: Tylko 3%0 wartości X leży poza przedziałem [µ − 3σ, µ + 3σ]. Przykład (Tablice statystyczne rozkładów χ2 i t-Studenta) Wartości krytyczne rozkładów na poziomie istotności α = 0, 05 liczba stopni swobody 6 10 14 18 22 26 30 t-Studenta tα 2,447 2,228 2,145 2,101 2,074 2,056 2,042 2 rozkład χ hα 12,592 18,307 23,685 28,869 33,924 38,885 43,773 3 Estymacja parametrów rozkładu Dane: Zmienna losowa X o skończonej wartości oczekiwanej E X = µ i wariancji D2 X = σ 2 . 3 4 Statystyka. v.0.9 – egz mgr inf niestacj X może opisywać pewną cechę w populacji (np. waga, przeżywalność), pomiar (np. prędkości, temperatury) lub zjawisko fizyczne (np. rzut kostką, rozpad promieniotwórczy). Nie znamy faktycznego rozkładu prawdopodobieństwa zmiennej X ani nawet wartości parametrów µ i σ. Zagadnienie: Jak na podstawie skończonej próby (xi )ni=1 estymować (=szacować) wartości µ i σ ? Estymacja punktowa wartości oczekiwanej µ n jest estymatorem wartości oczekiwanej µ: Średnia z próby x = xn = x1 +x2 +...+x n (∗) ∀ε>0 Pr( |xn − µ| > ε ) 6 σ2 −→ 0. n ε2 n→∞ Słownie: ze wzrostem liczebności próby n prawdopodobieństwo odchylenia o ε średniej xn od parametru µ maleje do zera. Uwaga: 1. I tak nie możemy wykluczyć dużych odchyleń, choć są one mało prawdopodobne. 2. Zmienna X może mieć dowolny rozkład o skończonej wartości oczekiwanej i wariancji. 3. Nierówność (∗) to szczególny przypadek nierówności Czebyszewa. Estymacja punktowa wariancji σ 2 n P Wariancja z próby s2 = n1 · (xi − xn )2 jest estymatorem wariancji σ 2 . i=1 Estymacja przedziałowa wartości oczekiwanej µ Przedział ufności dla µ na poziomie ufności 1 − α ! s s , x + tα √ , x − tα √ n−1 n−1 gdzie tα –√wartość krytyczna rozkładu t-Studenta o n − 1 stopniach swobody: Pr( |t| > tα ) = α, t = x−µ · n − 1; por. Test istotności dla wartości średniej i Schemat wnioskowania. s 4 Testowanie hipotez Prawdziwa jest H0 — hipoteza zerowa = przypuszczenie, które weryfikujemy H1 — hipoteza alternatywna Przyjmujemy H0 : decyzja prawidłowa błąd II rodzaju; β – prawdopodobieństwo popełnienia błędu Odrzucamy H0 : błąd I rodzaju; α – prawdopodobieństwo popełnienia błędu decyzja prawidłowa Decyzję podejmujemy na podstawie sprawdzianu — odpowiednio dobranej statystyki z próby. Reguła trzech sigm : Jeśli pobieramy próbę ze zmiennej losowej o rozkładzie normalnym, to możemy odrzucić dane spoza przedziału [x − 3s, x + 3s] jako mało prawdopodobne. Schemat wnioskowania w teście istotności Niech v – statystyka z próby wybrana na potrzeby weryfikacji hipotezy H0 . Dla poziomu istotności α odszukujemy (np. w tablicach albo za pomocą programu) wartość krytyczną vα w taki sposób, aby Pr(|v| > vα ) 6 α. Weryfikacja na poziomie istotności α: Statystyka. v.0.9 – egz mgr inf niestacj 5 1. Jeśli wartość v obliczona z próby leży w obszarze krytycznym (|v| > vα ), to H0 odrzucamy i przyjmujemy H1 ; prawdopodobieństwo, że popełniliśmy błąd wynosi α. 2. Jeśli wartość v z próby leży w obszarze dopuszczalnym (|v| < vα ), to nie ma dostatecznych podstaw do odrzucenia H0 . Uwaga: W praktyce przyjmuje się α = 0, 05 lub 0, 01. Test istotności dla wartości średniej • Hipoteza zerowa H0 : wartość średnia µ wynosi µ0 ; H1 : µ 6= µ0 . √ • H0 weryfikujemy za pomocą statystyki t = x −s µ0 n − 1 , √ gdzie x – średnia z próby, s = s2 – odchylenie z próby. • Zmienna t ma rozkład t-Studenta o n − 1 stopniach swobody. Dla dużych prób (n > 30) rozkład t-Studenta można zastąpić zbliżonym rozkładem normalnym. Test równości dwóch średnich • H0 : wartość średnia µ1 zmiennej X1 jest równa wartości średniej µ2 zmiennej X2 ; H1 : µ1 6= µ2 . • H0 weryfikujemy za pomocą statystyki u = sx12− x2 2 , gdzie xj – średnia z próby, s s1 + 2 n1 n2 2 sj – wariancja z próby, nj – liczebność próby pobranej dla zmiennej Xj , j = 1, 2. • Jeśli H0 jest prawdziwa, to statystyka u ma rozkład bliski normalnemu N (0, 1). Test zgodności χ2 Pearsona • H0 : zmienna X ma rozkład prawdopodobieństwa zgodny z rozkładem zmiennej Y ; H1 : zmienne X i Y mają różne rozkłady. • Możliwe wartości zmiennych X, Y dzielimy na k klas. Oznaczamy: pj = Pr(Y ∈ Wj ) – p-stwo, że wartość Y wpadła do j-tej klasy (zadane rozkładem Y ), npj – przybliżona liczebność jaka powinna wystąpić w próbie dla zmiennej Y , fj – liczebność tych próbek x zmiennej X, które leżą w j-tej klasie: x ∈ Wj . • Klasy wyznaczamy tak by wartości npj były wystarczająco duże: npj > 5 dla dostępnych n danych. • Jeśli X ma taki sam rozkład co Y , to Pr(X ∈ Wj ) = Pr(Y ∈ Wj ) = pj . k (f − np )2 P j j ma rozkład p-stwa bliski rozkładowi χ2 o k − s − 1 • Statystyka h = npj j=1 stopniach swobody, gdzie k – liczba klas, a s – liczba parametrów rozkładu teoretycznego Y , które należy wyznaczyć z próby; np. rozkład normalny N (µ, σ) ma s = 2 parametry µ i σ. 6 Statystyka. v.0.9 – egz mgr inf niestacj Przykład (przeprowadzania testu istotności wartości średniej) 1. Dane: x1 = 1, 1; x2,3,4 = 1, 2; x5 = 1, 3; x6,7 = 1, 4 2. Hipoteza zerowa H0 : wartość średnia µ = = µ0 = 1, 3 = µ0 = 1, 4 3. Wybieramy poziom istotności α = 0, 05 √ 0 4. Obliczamy statystykę t = x−µ · n−1≈ s √ √ ≈ 1,257−1,3 · 7 − 1 ≈ −1, 003 ≈ 1,257−1,4 · 7 − 1 ≈ −3, 335 0,105 0,105 5. Porównujemy t z wartością krytyczną tα = 2, 447... rozkładu t-Studenta o n − 1 = 6 stopniach swobody: |t| ≈ 1, 003 < tα |t| ≈ 3, 335 > tα 6. Wniosek: należy odrzucić H0 : µ = 1, 4 nie możemy odrzucić H0 : µ = 1, 3 (p-stwo błędu α = 5%) 5 Korelacja Współczynnik korelacji liniowej między obserwowanymi zmiennymi losowymi X i Y wyznaczamy z próby następująco cov(X, Y ) , r(X, Y ) = sX · sY gdzie n – liczebność próby losowej, z której pobieramy wartości (xi )ni=1 zmiennej X i (yi )ni=1 zmiennej Y ; n n P P xi , y = n1 · yi – wartości średnie zmiennych z prób; x = n1 · si=1 sX = 1 n · i=1 n P s (xi − x)2 , 1 n sY = i=1 cov(X, Y ) = cov(Y, X) = 1 n · n P n P · (yi − y)2 – odchylenia zmiennych z próby; i=1 (xi − x) · (yi − y) – kowariancja zmiennych z próby. i=1 ( Uwaga: W praktyce przyjmujemy, że gdy |r(X, Y )| > 0, 7 |r(X, Y )| < 0, 2 – znaczący związek – brak zależności liniowej Regresja liniowa Interesujemy się, czy ma miejsce zależność liniowa między zmienną X a zmienną Y postaci: Y = a + bX + const, czyli Y − (a + bX) = const. Do wartości zmiennych X, Y z próby: (xi , yi ), i = 1, . . . , n, dopasowujemy prostą regresji y = a + bx metodą najmniejszych kwadratów: b = r(X, Y ) · sY = sX n P (yi − y) · (xi − x) i=1 n P , a = y − b x, (xi − x)2 i=1 gdzie x, y – średnie z próby. Tak dobrane a, b minimalizują sumę kwadratów odchyleń n X i=1 [ yi − (a + bxi ) ]2 → min . Statystyka. v.0.9 – egz mgr inf niestacj Źródła: 1. A.Zeliaś, Metody statystyczne, PWE Warszawa 2000 2. O.Zaigraev, Statystyka matematyczna, Toruń 2001 3. J.Karłowska-Pik, Materiały dydaktyczne, www.mat.uni.torun.pl/∼joanka 4. A.Płocki, Stochastyka 1, WSP Kraków 1997 5. K.Szwarc, Tablice statystyczne, www.ksid.ae.poznan.pl/szwarc 7