Statystyka

Transkrypt

Statystyka
Statystyka. v.0.9 – egz mgr inf niestacj
1
Statystyczna analiza danych
1
Statystyka opisowa
Szereg szczegółowy prosty — monotoniczny ciąg danych (xi )ni=1 uzyskanych np. w trakcie pomiaru lub za pomocą ankiety.
Przykłady (szeregowania danych) Dane: 1, 1; 1, 2; 1, 2; 1, 2; 1, 3; 1, 4; 1, 4.
• Szereg szczegółowy:
i
xi
1
2
3
4
5
6
7
1,1 1,2 1,2 1,2 1,3 1,4 1,4
• Szereg rozdzielczy punktowy:
j
1
2
3
xj 1,1 1,2 1,3
fj
1
3
1
(grupujemy te same wyniki podając ich liczebności
4
1,4
2
fj )
• Szereg rozdzielczy przedziałowy:
l
1
2
xl [1,0; 1,25) [1,25; 1,5)
fl
4
3
(dzielimy wyniki wg zakresów podając liczebności fl w danym przedziale; część informacji
utracona)
Uwaga: 1. Dalej zakładamy, że dane (xi )ni=1 są w postaci szeregu szczegółowego (ciąg niemalejący).
2. Próba (xi )ni=1 może być wybrana z populacji lub stanowić zestaw wyników obserwacji zjawiska
losowego.
Statystyki z próby danych (xi )ni=1
1. średnia µ = x =
1
n
·
n
P
xi ; miara położenia
i=1
2. moda (= dominanta = wartość modalna) najczęściej pojawiająca się wartość xi ; miara
położenia
3. kwartyle: Q1 (dolny = pierwszy), Q2 (mediana = wartość środkowa = drugi), Q3 (górny =
trzeci); miary położenia
(
x(n+1)/2 ,
n – nieparzyste
Q2 = xn/2 +x(n+2)/2
k opis
, n – parzyste
2
1 25% danych nie przekracza Q1 ,
75% danych nie mniejsza niż Q1
2 połowa danych nie przekracza Q2 ,
połowa danych nie mniejsza niż Q2
3 75% danych nie przekracza Q3 ,
25% danych nie mniejsza niż Q3
4. rozstęp R = max xi − min xi ; miara rozproszenia
i
i
5. odchylenie ćwiartkowe (= rozstęp ćwiartkowy) Q = 12 (Q3 − Q1 ), gdzie Q1 , Q3 – kwartyle;
miara rozproszenia
6. odchylenie przeciętne d =
1
n
·
n
P
i=1
|xi − x|, gdzie x – średnia; miara rozproszenia
2
Statystyka. v.0.9 – egz mgr inf niestacj
7. wariancja σ 2 = s2 = m2 =
1
n
·
n
P
(xi − x)2 ; miara rozproszenia
i=1
8. odchylenie standardowe σ = s =
√
x−moda
;
s
9. współczynnik asymetrii
s
wariancja =
1
n
n
P
·
(xi − x)2 ; miara rozproszenia
i=1
miara asymetrii
10. kurtoza (= współczynnik koncentracji) K =
11. moment centralny k-tego rzędu mk =
1
n
·
n
P
m4
;
s4
miara koncentracji
(xi − x)k
i=1
Uwaga: 1. Rozkład może mieć wiele dominant (tzw. rozkład wielomodalny).
2. Dyspersja = rozproszenie. 3. Q < d < s.
Przykład (wyznaczania statystyk z przesadnie małej próby)
Dane: x1 = 1, 1; x2,3,4 = 1, 2; x5 = 1, 3; x6,7 = 1, 4.
położenie
8,8
x = 7 ≈ 1, 257 moda = 1, 2 Q1 = 1, 2, Q2 = 1, 2, Q3 = 1, 35
rozproszenie
R = 1, 4 − 1, 1 = 0, 3 Q = 0, 075 d ≈ 0, 094 s ≈ 0, 105, s2 ≈ 0, 011
asymetria/koncentracja
wsp.asym. ≈ 0, 54 K ≈ 16, 52
3 6
moda
R
Q=
2
Q1
1
1.1
1.2
1.3
1.4
1,1
Q3
e
1,2
Histogram
2
Q2
e
-
Q3 −Q1
2
1,2
1,2
1,3
1,4
1,4
Szereg szczegółowy
Rozkłady zmiennych losowych
Zmienna losowa X — funkcja X : Ω → R przyjmująca wartość X(ω) w zależności od
zdarzenia elementarnego ω ∈ Ω, przy czym ma sens prawdopodobieństwo F (x) = Pr(X 6 x), że
zaszło zdarzenie ω ∈ Ω, dla którego wartość zmiennej X(ω) nie przekracza wartości x: X(ω) 6 x.
Dystrybuanta F rozkładu prawdopodobieństwa zmiennej losowej X: F (x) = Pr(X 6 x).
Dystrybuanta opisuje w pełni rozkład prawdopodobieństwa zmiennej losowej X:
1. Pr(X > x) = 1 − Pr(X 6 x) = 1 − F (x), 2. Pr(X < x) = lim+ F (x + h),
h&0
3. Pr(a < X 6 b) = F (b) − F (a).
Gęstość f rozkładu prawdopodobieństwa zmiennej X — funkcja całkowalna f (z) > 0 o całce
−∞ f (z) dz = 1 spełniająca
Z
R∞
x
F (x) =
f (z) dz,
−∞
gdzie F jest dystrybuantą rozkładu X.
Ciągła zmienna losowa — zmienna, której rozkład prawdopodobieństwa posiada gęstość.
Statystyka. v.0.9 – egz mgr inf niestacj
Zależność między gęstością f a dystrybuantą F :
F 0 (x) = f (x) we wszystkich punktach ciągłości f .
p-stwo, że wynik leży w przedziale (x, x + h]
.
Pr(x < X 6 x + h)
Inaczej:
f (x) = lim
← gęstość
h
h→0
- długość przedziału
Zmienna dyskretna X
o rozkładzie
Pr(X = xi ) = f (xi )
Wartość
oczekiwana EX
Wariancja D2 X
= E(X − EX)2
= E(X 2 ) − (EX)2
µ=
P
Zmienna ciągła X
o gęstości f (x)
xi · f (xi )
x · f (x) dx
−∞
i
σ2 =
R∞
µ=
P
R∞
i
−∞
(xi − µ)2 · f (xi ) σ 2 =
(x − µ)2 · f (x) dx
2
Nierówność Czebyszewa : Pr (|X − EX| > ε) 6 D ε(X)
dla ε > 0.
2
Przykład (rozkład normalny Gaussa). N (µ, σ) – rozkład o gęstości
z − µ 2
− 12
1
σ
f (z) = √ e
;
σ 2π
Zasada trzech sigm :
X ∼ N (µ, σ) ⇒ EX = µ, D2 X = σ 2
Dla X ∼ N (µ, σ) zachodzi
Pr( |X − µ| > 3σ ) < 0, 003 .
99, 7%
-
µ − 3σ
µ
µ + 3σ
Słownie: Tylko 3%0 wartości X leży poza przedziałem [µ − 3σ, µ + 3σ].
Przykład (Tablice statystyczne rozkładów χ2 i t-Studenta)
Wartości krytyczne rozkładów na poziomie istotności α = 0, 05
liczba stopni swobody
6
10
14
18
22
26
30
t-Studenta tα
2,447 2,228 2,145 2,101 2,074 2,056 2,042
2
rozkład χ hα
12,592 18,307 23,685 28,869 33,924 38,885 43,773
3
Estymacja parametrów rozkładu
Dane:
Zmienna losowa X o skończonej wartości oczekiwanej E X = µ i wariancji D2 X = σ 2 .
3
4
Statystyka. v.0.9 – egz mgr inf niestacj
X może opisywać pewną cechę w populacji (np. waga, przeżywalność), pomiar (np. prędkości, temperatury) lub zjawisko fizyczne (np. rzut kostką, rozpad promieniotwórczy). Nie znamy
faktycznego rozkładu prawdopodobieństwa zmiennej X ani nawet wartości parametrów µ i σ.
Zagadnienie:
Jak na podstawie skończonej próby (xi )ni=1 estymować (=szacować) wartości µ i σ ?
Estymacja punktowa wartości oczekiwanej µ
n
jest estymatorem wartości oczekiwanej µ:
Średnia z próby x = xn = x1 +x2 +...+x
n
(∗)
∀ε>0
Pr( |xn − µ| > ε ) 6
σ2
−→ 0.
n ε2 n→∞
Słownie: ze wzrostem liczebności próby n prawdopodobieństwo odchylenia o ε średniej xn od
parametru µ maleje do zera.
Uwaga: 1. I tak nie możemy wykluczyć dużych odchyleń, choć są one mało prawdopodobne.
2. Zmienna X może mieć dowolny rozkład o skończonej wartości oczekiwanej i wariancji.
3. Nierówność (∗) to szczególny przypadek nierówności Czebyszewa.
Estymacja punktowa wariancji σ 2
n
P
Wariancja z próby s2 = n1 · (xi − xn )2 jest estymatorem wariancji σ 2 .
i=1
Estymacja przedziałowa wartości oczekiwanej µ
Przedział ufności dla µ na poziomie ufności 1 − α
!
s
s
, x + tα √
,
x − tα √
n−1
n−1
gdzie tα –√wartość krytyczna rozkładu t-Studenta o n − 1 stopniach swobody: Pr( |t| > tα ) = α,
t = x−µ
· n − 1; por. Test istotności dla wartości średniej i Schemat wnioskowania.
s
4
Testowanie hipotez
Prawdziwa jest
H0 — hipoteza zerowa
= przypuszczenie,
które weryfikujemy
H1 — hipoteza
alternatywna
Przyjmujemy H0 :
decyzja prawidłowa
błąd II rodzaju;
β – prawdopodobieństwo
popełnienia błędu
Odrzucamy H0 :
błąd I rodzaju;
α – prawdopodobieństwo
popełnienia błędu
decyzja prawidłowa
Decyzję podejmujemy na podstawie sprawdzianu — odpowiednio dobranej statystyki z próby.
Reguła trzech sigm : Jeśli pobieramy próbę ze zmiennej losowej o rozkładzie normalnym, to
możemy odrzucić dane spoza przedziału [x − 3s, x + 3s] jako mało prawdopodobne.
Schemat wnioskowania w teście istotności
Niech v – statystyka z próby wybrana na potrzeby weryfikacji hipotezy H0 . Dla poziomu istotności α odszukujemy (np. w tablicach albo za pomocą programu) wartość krytyczną vα w taki
sposób, aby Pr(|v| > vα ) 6 α. Weryfikacja na poziomie istotności α:
Statystyka. v.0.9 – egz mgr inf niestacj
5
1. Jeśli wartość v obliczona z próby leży w obszarze krytycznym (|v| > vα ), to H0 odrzucamy
i przyjmujemy H1 ; prawdopodobieństwo, że popełniliśmy błąd wynosi α.
2. Jeśli wartość v z próby leży w obszarze dopuszczalnym (|v| < vα ), to nie ma dostatecznych
podstaw do odrzucenia H0 .
Uwaga: W praktyce przyjmuje się α = 0, 05 lub 0, 01.
Test istotności dla wartości średniej
• Hipoteza zerowa H0 : wartość średnia µ wynosi µ0 ; H1 : µ 6= µ0 .
√
• H0 weryfikujemy za pomocą statystyki t = x −s µ0 n − 1 ,
√
gdzie x – średnia z próby, s = s2 – odchylenie z próby.
• Zmienna t ma rozkład t-Studenta o n − 1 stopniach swobody. Dla dużych prób (n > 30)
rozkład t-Studenta można zastąpić zbliżonym rozkładem normalnym.
Test równości dwóch średnich
• H0 : wartość średnia µ1 zmiennej X1 jest równa wartości średniej µ2 zmiennej X2 ;
H1 : µ1 6= µ2 .
• H0 weryfikujemy za pomocą statystyki
u = sx12− x2 2 , gdzie xj – średnia z próby,
s
s1
+ 2
n1 n2
2
sj – wariancja z próby, nj – liczebność próby pobranej dla zmiennej Xj , j = 1, 2.
• Jeśli H0 jest prawdziwa, to statystyka u ma rozkład bliski normalnemu N (0, 1).
Test zgodności χ2 Pearsona
• H0 : zmienna X ma rozkład prawdopodobieństwa zgodny z rozkładem zmiennej Y ;
H1 : zmienne X i Y mają różne rozkłady.
• Możliwe wartości zmiennych X, Y dzielimy na k klas. Oznaczamy:
pj = Pr(Y ∈ Wj ) – p-stwo, że wartość Y wpadła do j-tej klasy (zadane rozkładem Y ),
npj – przybliżona liczebność jaka powinna wystąpić w próbie dla zmiennej Y ,
fj – liczebność tych próbek x zmiennej X, które leżą w j-tej klasie: x ∈ Wj .
• Klasy wyznaczamy tak by wartości npj były wystarczająco duże:
npj > 5 dla dostępnych n danych.
• Jeśli X ma taki sam rozkład co Y , to Pr(X ∈ Wj ) = Pr(Y ∈ Wj ) = pj .
k (f − np )2
P
j
j
ma rozkład p-stwa bliski rozkładowi χ2 o k − s − 1
• Statystyka h =
npj
j=1
stopniach swobody, gdzie k – liczba klas, a s – liczba parametrów rozkładu teoretycznego Y ,
które należy wyznaczyć z próby; np. rozkład normalny N (µ, σ) ma s = 2 parametry µ i σ.
6
Statystyka. v.0.9 – egz mgr inf niestacj
Przykład (przeprowadzania testu istotności wartości średniej)
1. Dane: x1 = 1, 1; x2,3,4 = 1, 2; x5 = 1, 3; x6,7 = 1, 4
2. Hipoteza zerowa H0 : wartość średnia µ =
= µ0 = 1, 3
= µ0 = 1, 4
3. Wybieramy poziom istotności α = 0, 05
√
0
4. Obliczamy statystykę t = x−µ
· n−1≈
s
√
√
≈ 1,257−1,3
· 7 − 1 ≈ −1, 003
≈ 1,257−1,4
· 7 − 1 ≈ −3, 335
0,105
0,105
5. Porównujemy t z wartością krytyczną tα = 2, 447...
rozkładu t-Studenta o n − 1 = 6 stopniach swobody:
|t| ≈ 1, 003 < tα
|t| ≈ 3, 335 > tα
6. Wniosek:
należy odrzucić H0 : µ = 1, 4
nie możemy odrzucić H0 : µ = 1, 3
(p-stwo błędu α = 5%)
5
Korelacja
Współczynnik korelacji liniowej między obserwowanymi zmiennymi losowymi X i Y wyznaczamy
z próby następująco
cov(X, Y )
,
r(X, Y ) =
sX · sY
gdzie n – liczebność próby losowej, z której pobieramy wartości (xi )ni=1 zmiennej X i (yi )ni=1
zmiennej Y ;
n
n
P
P
xi , y = n1 ·
yi – wartości średnie zmiennych z prób;
x = n1 ·
si=1
sX =
1
n
·
i=1
n
P
s
(xi −
x)2 ,
1
n
sY =
i=1
cov(X, Y ) = cov(Y, X) =
1
n
·
n
P
n
P
·
(yi − y)2 – odchylenia zmiennych z próby;
i=1
(xi − x) · (yi − y) – kowariancja zmiennych z próby.
i=1
(
Uwaga: W praktyce przyjmujemy, że gdy
|r(X, Y )| > 0, 7
|r(X, Y )| < 0, 2
– znaczący związek
– brak zależności liniowej
Regresja liniowa
Interesujemy się, czy ma miejsce zależność liniowa między zmienną X a zmienną Y postaci:
Y = a + bX + const, czyli Y − (a + bX) = const.
Do wartości zmiennych X, Y z próby: (xi , yi ), i = 1, . . . , n, dopasowujemy prostą regresji
y = a + bx metodą najmniejszych kwadratów:
b = r(X, Y ) ·
sY
=
sX
n
P
(yi − y) · (xi − x)
i=1
n
P
,
a = y − b x,
(xi − x)2
i=1
gdzie x, y – średnie z próby. Tak dobrane a, b minimalizują sumę kwadratów odchyleń
n
X
i=1
[ yi − (a + bxi ) ]2 → min .
Statystyka. v.0.9 – egz mgr inf niestacj
Źródła:
1. A.Zeliaś, Metody statystyczne, PWE Warszawa 2000
2. O.Zaigraev, Statystyka matematyczna, Toruń 2001
3. J.Karłowska-Pik, Materiały dydaktyczne, www.mat.uni.torun.pl/∼joanka
4. A.Płocki, Stochastyka 1, WSP Kraków 1997
5. K.Szwarc, Tablice statystyczne, www.ksid.ae.poznan.pl/szwarc
7