Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby
Transkrypt
Pobieranie próby. Rozkład χ2 Graficzne przedstawianie próby
Pobieranie próby. Rozkład χ2
Graficzne przedstawianie próby
Histogram
Estymatory – przykład
■ Próby z rozkładów cząstkowych
■ Próby ze skończonej populacji
■ Próby z rozkładu normalnego
■ Rozkład χ2
Postać i własności
Znaczenie i zastosowania
Związek z estymatorem wariancji
■ Pobieranie próby z odliczaniem. Próbki
■
KADD – Pobieranie próby. Rozkład chi2
1
Graficzne przedstawianie próby
Rozważamy próbę: x1, x2, ..., xn, która zależy od
jednej zmiennej x. Możemy ją przedstawić jako
wykres 1D – punkty na osi x – będzie to wtedy
jednowymiarowy wykres punktowy.
■ Zwykle stosujemy wykres 2D – tzw. histogram:
Dzielimy przedział zmienności x (lub jego część)
na r przedziałów o jednakowej szerokości Δx:
■
1, 2, ,r
Środki przedziałów znajdują się w punktach:
x 1, x 2, , x r
Na osi y odkładamy liczbę elementów próby
przypadającą na dany przedział:
n1, n2, , nr
Otrzymujemy wykres częstości
KADD – Pobieranie próby. Rozkład chi2
2
Histogram – rysunek
błędy = n k
wykres
schodkowy
KADD – Pobieranie próby. Rozkład chi2
3
Histogram – szerokość przedziału
xmin = -2.0
Δx = 0.1
r = 100
xmin = -2.0
Δx = 0.2
r = 50
xmin = -2.0
Δx = 0.4
r = 25
Im więcej przedziałów tym
informacja o próbie
dokładniejsza
■ Większa ilość przedziałów
powoduje jednak większe
wahania statystyczne od
punktu do punktu
■ Pole pod krzywą
schodkową jest
proporcjonalne do
wielkości próby
(przeskalowująć przez 1/n
otrzymujemy częstość). 4
■
KADD – Pobieranie próby. Rozkład chi2
Estymatory – przykład
Badamy “nieznany” rozkład prawdopodobieństwa
poprzez estymatory
■ Symulujemy taką sytuację poprzez generację
1000 prób z rozkładu Gaussa o wartości średniej 0
i wariancji 1. Każda próba ma liczność r.
■ Badamy zachowanie estymatorów charakterystyk
rozkładu i estymatorów ich błedów w funkcji
liczności r.
■
1
1
2
X = S X =S X =
SX
X = X 1 X 2 X n
n
n
S
1
2
2
S
=
S = S =
X
−
X
∑
i
n−1
2n−1
1
2
2
2
2
2
2
S2 =
X
−
X
X
−
X
X
−
X
{ 1
} S =S
2
n
n−1
n−1
KADD – Pobieranie próby. Rozkład chi2
5
Estymatory – histogramy
r = 20
r = 50
r = 100
r = 200
KADD – Pobieranie próby. Rozkład chi2
6
Próby z rozkładów cząstkowych
■
Dzielimy populację G na podpopulacje Gi, które są
opisane gęstościami prawdopodobieństwa fi(x).
x
F i x=∫−∞ f i x dx=P X x∣x∈G i
■
Dla całej populacji
mamy:
t
t
F x=P X x∣x∈G =∑i=1 P X x∣X ∈G i P X ∈G i =∑i=1 P X ∈G i F i x
■
a dla gęstości prawdopodobieństwa:
t
f x=∑i=1 P X ∈G i f i x
■
W skrócie oznaczamy P(xGi)=pi. Obliczamy
wartość średnią:
∞
t
∞
t
x =E { X }=∫−∞ xf x dx=∑i=1 pi ∫−∞ xf i x dx=∑i=1 pi x i
czyli wartość średnia z populacji to średnia
ważona wartości średnich podpopulacji
pomnożonych przez ich prawdopodobieństwa
KADD – Pobieranie próby. Rozkład chi2
7
Wariancja rozkładów cząstkowych
■
Wariancja dla próby z rozkładów
cząstkowych
t
2 X =E { x− x 2 }=∑i=1 p i E {[ x− x i x i − x ]2 }
=∑i=1 p i { x i − x
t
2
i
2
}
jest średnią ważoną wariancji z podpopulacji i
wariancji wartości średniej podpopulacji względem
wartości średniej z całej populacji.
■ Z każdej populacji wybieramy próbkę o liczności
ni, w sumie n elementów. Średnia wynosi wtedy:
t
n
t
1
1
p= ∑ ∑ X ij = ∑ ni X
i
X
n i=1 j=1
n i=1
i
■
Wartość oczekiwana i wariancja to:
t
1
p }= ∑ ni x i
E {X
n i=1
t
t
t
ni 2
1
1
1
2
2
2
2
2
X p = 2 ∑i=1 ni E { X i − x i }= 2 ∑i=1 ni X i = ∑i=1 i
n
n
n
n
KADD – Pobieranie próby. Rozkład chi2
8
Estymatory dla rozkładów cząstkowych
■
Estymatory dla prób z rozkładów cząstkowych nie
mogą zależeć od dowolnego podziału cząstek n.
Warunek ten jest spełniony tylko dla pi = ni/n:
t
i
X =∑i=1 pi X
t
t
2 X =∑i=1 pi2 2 X i =∑i=1
■
2
pi 2
i
ni
Można zadać pytanie, jaka jest optymalna
wielkość próbek ni, która pozwala na minimalizację
wariancji. Rozwiązaniem jest:
ni =n pi i / ∑ pi i
czyli liczność próbki z podpopulacji i musi być
proporcjonalna do jej prawdopodobieństwa
mnożonego przez jej odchylenie standardowe
KADD – Pobieranie próby. Rozkład chi2
9
Próba ze skończonej populacji
Mamy populację o N elementach y1, y2, ..., yn.
Pobieramy z niej próbę n elementów X1, X2, ..., Xn.
■ Prawdopodobieństwo pobrania każdego elementu y
jest jednakowe,N stąd
2
N
N
■
■
1
E { y }= y = y =
N
1
y=
N −1
∑ j=1 y j
2
{∑
j=1
1
y −
N
2
j
Szczególnie ważna jest suma kwadratów:
∑
j=1
yj
}
N
2
y
−
y
∑ j=1 j
■
Wartości yi nie są ograniczone, ale mamy warunek:
N
∑ j=1 y j − y =0
■
Mówimy, że liczba stopni swobody wynosi tu N-1.
Suma kwadratów przez liczbę stopni swobody to
odchylenie średnie kwadratowe. Często używamy
pierwiastka z odchylenia kwadratowego (RMS).
10
KADD – Pobieranie próby. Rozkład chi2
Pobieranie próby z rozkładu normalnego
■
Badamy populację opisaną rozkładem Gaussa o
wartości średniej a i wariancji σ2. Z tej populacji
wybieramy próbę o liczności n. Napiszmy funkcję
charakterystyczną wartości średniej:
n
{
}
2
t
t
2 2
X t =exp itaexp − t / 2 ⇒ X t = exp i aexp −
n
2 n
■
Rozpatrując zmienną
−a= X
− x
X
2 t 2
X −a t =exp −
2n
mamy:
2
ponownie otrzymujemy funkcję charakterystyczną
rozkładu normalnego, ale ze zmienioną wariancją:
= 2 X / n
2 X
KADD – Pobieranie próby. Rozkład chi2
11
Rozkład χ2
Rozpatrujemy rozkład normalny (a=0, σ=1):
X t =exp −t 2 / 2 n
■ Pobieramy z niego próbę n elementów i tworzymy z
nich sumę kwadratów:
■
X 2 = X 12 X 22 X 2n
■
Można udowodnić, że wielkość X2 ma dystrybuantę:
1
2
−1 −1/ 2 u
F =
u
e
du
∫
0
2
2
■
gdzie λ=1/2 n, a n to liczba stopni swobody.
Wprowadzamy oznaczenie:
1
k=
2
i otrzymujemy gęstość prawdopodobieństwa
2
2 −1 −1/ 2 2
f =k⋅
e
KADD – Pobieranie próby. Rozkład chi2
12
Rozkład χ2 – parametry
■
Funkcja charakterystyczna rozkładu χ2 to:
t =1−2 it −
2
■
Korzystając z własności f. charakterystycznej
otrzymujemy natychmiast, że suma dwóch
różnych rozkładów χ2 o n1 i n2 stopniach swobody
daje rozkład χ2 o n=n1+n2 stopniach swobody.
Różniczkując f. charakterystyczną mamy:
E { X 2 }=−i ' 0=2 ≡n
2
E { X 2 2 }=−i ' ' 0=4 2 4
2
■
2
X =E { X }− E { X } =4 ≡2 n
2
2
2 2
2
czyli wartość średnia rozkładu χ2 wynosi n, a
wariancja – 2n.
KADD – Pobieranie próby. Rozkład chi2
13
Rozkład χ2 – wykres
■
Wykresy rozkładu χ2 oraz
jego dystrybuanty dla n
od 1 do 20.
KADD – Pobieranie próby. Rozkład chi2
14
Rozkład χ2 – zastosowanie
■
Rozkład χ2 stosuje się jako miarę ufności
uzyskanego wyniku. Im mniejsza wartość χ2 tym
pozornie słuszniejszy wynik. Jako miary zaufania
do wyniku używa się wielkości:
W 2 =1 −F 2
nazywanej poziomem ufności.
■ W rzeczywistych przypadkach mamy do czynienia
z pełnym rozkładem Gaussa o dowolnym a i σ.
Wprowadzamy wtedy odpowiednie przeskalowanie
X2=
X 1 −a2 X 2−a2 X n−a2
2
a w ogólnym przypadku gdy zmienne są zależne:
T
X = X −a B X −a
2
KADD – Pobieranie próby. Rozkład chi2
15
Rozkład χ2 a estymator wariancji
■
Nieobciążony i zgodny estymator wariancji z
populacji to:
S2 =
■
1
2 X 2 − X
2 X n− X
2 }
X 1−X
{
n−1
Można udowodnić, że zmienna losowa:
n−1 2
S
2
ma rozkład χ2 z f=n-1 stopniami swobody. Wynika
to stąd, że wyrażenia X i − X 2 nie są liniowo
niezależne, gdyż zawierają czynnik X , który zależy
od wszystkich wartości X i . Każde dodatkowe
równanie pomiędzy wyrażeniami X i− X 2 redukuje
liczbę stopni swobody o 1.
KADD – Pobieranie próby. Rozkład chi2
16
Próba z odliczaniem. Próbki
■
Często doświadczenie polega na dokonaniu wielu,
n obserwacji, z których tylko k ma interesujące
właściwości. Resztę, n-k zdarzeń odrzucamy.
Wybieramy więc k z n elementów. Stosuje się tu r.
dwumianowy z parametrami p i q. Poszukujemy
parametru p. Jego estymatorem jest
k
S p=
n
a jego wariancja wynosi:
p1− p
S p=
n
2
■
Łącząc wzory otrzymujemy estymator wariancji
1k
k
S S p=
1−
nn
n
2
KADD – Pobieranie próby. Rozkład chi2
17
Błąd statystyczny
■
Błąd Δk możemy zdefiniować jako:
k = S 2 S np
wtedy otrzymamy:
k = k 1−
■
k
n
Zależy on jedynie od liczby wybranych elementów
i liczności próby. Nazywamy go błędem
statystycznym. Szczególnie ważny jest przypadek,
gdy k«n. Następuje wtedy przejście w granicy do
rozkładu Poissona, parameter λ=np i mamy:
S =S np=k
= k
czyli w przybliżeniu błąd statystyczny liczby zliczeń
k jest równy √k
KADD – Pobieranie próby. Rozkład chi2
18
Błąd statystyczny – interpretacja
■
Rozważmy błąd statystyczny bardziej szczegółowo.
Dla dużych k można rozkład Poissona przybliżyć
przez rozkład Gaussa o a=λ i σ2=λ czyli k. Można
wtedy zdefiniować pojęcie granic przedziału
ufności przy zadanym poziomie ufności β=1-α:
P − ≤≤ =1 − ⇒ P xk∣= =1 −/ 2 ∧P xk∣=− =1 −/ 2
■
Rozwiązując odpowiednie równania mamy:
k −−
1 −/ 2 =0
■
k −
/ 2 =0
W dalszych rozważaniach stosujemy kilka funkcji:
Ω - funkcję odwrotną do dystrybuanty rozkładu
normalnego Ψ0, oraz funkcję Ω' - odwrotną do
funkcji P'(x)=P(|X|<x)
KADD – Pobieranie próby. Rozkład chi2
19
Błąd statystyczny – wynik
■
Rozwiązując poprzednie równania otrzymujemy
ostateczny wynik:
− =k − ' 1−a
■
=k ' 1−a
Zgodnie z wcześniejszymi założeniami σ2=λ czyli
najlepszy estymator σ2 to k. Tak więc możemy
przepisać wzory:
− =k − k ' 1− =k k ' 1−
■
Korzystając z poznanych wcześniej wartości
funkcji Ω' zauważamy, że Ω'(α)=1, gdy 1-α=68,3%.
Tak więc rzeczywiście widzimy, że prawdziwa
wartość k znajduje się w przedziale (k-√k, k+√k) z
prawdopodobieństwem odpowiadającym
przedziałowi (a-σ, a+σ) rozkładu Gaussa
0
KADD – Pobieranie próby. Rozkład chi2
2
Górna granica ufności
■
Rozważmy przypadek, gdy nie jest spełniony
warunek o dużym k. Wtedy nie można przybliżyć
r. Poissona przez r. Gaussan i badamy rozkład:
−
f n ;= e
n!
■
Dla przedziału ufności β=1-α otrzymujemy:
1 −/ 2 =F k ;−
/ 2 =F k 1 ;
gdzie F jest dystrybuantą r. Poissona. Ten układ
równań rozwiązujemy numerycznie.
■ Dla bardzo małych próbek szukamy górnej granicy
ufności λ(up). Dostajemy ją rozwiązując
równanie:
k
P nk∣=up ==1−
■
lub
=∑n=0 f n ;up =F k 1 ;up
W skrajnym przypadku dla k=0, α=F(1;λ(up))
KADD – Pobieranie próby. Rozkład chi2
21