iTX
Transkrypt
iTX
Ważne rozkłady i twierdzenia c.d.
Funkcja charakterystyczna rozkładu
■ Wielowymiarowy rozkład normalny
Elipsa kowariacji
■ Sploty rozkładów
Rozkłady jednostajne
Sploty z rozkładem normalnym
■ Pobieranie próby
Estymatory
Wartość średnia z próby
Wariancja populacji
■
KADD – Podstawowe rozkłady c.d.
1
Funkcja charakterystyczna rozkładu
■
Mamy zmienną losową X o dystrybuancie F(x) i
funkcji gęstości prawdopodobieństwa f(x). Jej
funkcję charakterystyczną definiujemy jako:
t =E { exp itx }
■
Czyli jest ona transformatą
Fouriera
gęstości
f(x):
∞
t =∫−∞ exp itx f x dx
■
Obliczmy momenty względem początku układu:
■
∞
n=E { X }=∫−∞ x n f x dx
n
Można je otrzymać przez n-krotne różniczkowanie
funkcji charakterystycznej w punkcie t=0:
n
d
t n ∞ n
n
t =
=i ∫−∞ x exp itx f x dx
n
dt
■
Czyli
n 0=i n n
KADD – Podstawowe rozkłady c.d.
2
Funkcja charakterystyczna c.d.
■
Wprowadzamy przesuniętą zmienną y=x-E{x} i jej
funkcję charakterystyczną:
∞
■
y t =∫−∞ exp { it x− x } f x dx=t exp −it x
Wtedy n-ta pochodna jest równa n-temu
momentowi względem wartości średniej:
ny 0=i n n=i n E { X − x n }
a w szczególności:
2 x=− y ' ' 0
■
■
Odwracając transformatę Fouriera można z funkcji
charakterystycznej uzyskać gęstość prawd.:
1 ∞
f x=
exp −itx t dt
∫
−∞
2
F. charakterystyczna sumy zmiennych losowych
jest iloczynem f. charakterystycznych
KADD – Podstawowe rozkłady c.d.
3
Funkcja charakterystyczna – wyniki
Istnieje jednoznaczny związek pomiędzy
dystrybuantą i jej funkcją charakterystyczną. Stąd
można ich używać zamiennie.
■ Przykłady własności otrzymanych przez rachunki z
funkcją charakterystyczną:
it
t
=exp
e
−1 }
{
Rozkład Poissona:
it
t
=exp
e
{ 1 2 −1 } jest
Suma rozkładów: sum
również r. Poissona o λ równej sumie λ1 i λ2.
F. charakterystyczna rozkładu normalnego:
t =exp itaexp −b 2 t 2 / 2 ma postać rozkładu
normalnego. Iloczyn ich wariancji wynosi 1.
Suma zmiennych opisanych rozkładem Gaussa:
■
u t = x⋅ y =exp ita x exp −b 2x t 2 / 2 exp ita y exp −b 2y t 2 / 2
2
2 2
=exp it a x aKADD
exp
−b
b
/2
x rozkłady
y – Podstawowe
y t c.d.
4
Wielowymiarowy rozkład normalny
Rozważmy wektor x o n składowych:
X = X 1, X 2, , X n
■ Łączna gęstość prawd. rozkładu normalnego dla
wielu zmiennych jest zdefiniowana jako:
■
}
{
{
T
1
1
x =k exp − x−a B x−a =k exp − g x
2
2
}
gdzie a jest n-wymiarowym wektorem, a B jest
dodatnio określoną macierzą symetryczną nxn.
■ Z symetrii rozkładu normalnego mamy:
∞
∞
∫−∞ ∫−∞ x−a x dx 1 dx 2 dx n=0
■
Czyli E{x-a} = 0 lub E{x} = a
KADD – Podstawowe rozkłady c.d.
5
R. normalny – macierz kowariancji
■
Różniczkujemy wyrażenie względem a:
∞
∞
T
[
I
−
x−a
x−a
B] x dx 1 dx 2 dx n=0
∫−∞ ∫−∞
Co oznacza, że E { x−a x−a } B= I
T
−1
{
}
C
=E
x−a
x−a
=B
czyli
gdzie C jest macierzą kowariancji zmiennych x
■ Szczególną uwagę zwrócimy na przypadek dwóch
zmiennych i korelacje między nimi. Macierz C ma
dla dwóch zmiennych postać:
■
T
2
cov X 1, X 2
−1
1
C =B =
cov X 1, X 2
22
■
Odwracając otrzymujemy:
22
−cov X 1, X 2
1
B= 2 2
1 2 −cov X 1, X 2 −cov X 1, X 2
12
KADD – Podstawowe rozkłady c.d.
6
Macierz B
■
W przypadku znikających kowariancji mamy
1/ 12
0
B=
0
1/ 22
■
Wstawiając tę macierz do wzoru otrzymujemy
gęstość prawdopodobieństwa niezależnych zm. :
2
2
x
−a
x
−a
1 1
1 2
1
2
{
x =k exp −
2
gdzie stała k wynosi:
} {
exp −
2
1
2
22
}
1
k=
2 1 2
■
W ogólnym przypadku:
k=
det B
2 n
1/ 2
KADD – Podstawowe rozkłady c.d.
7
Elipsa kowariancji
■
Posługujemy się zmiennymi znormalizowanymi:
X i −ai
U i=
i
■
cov X 1, X 2
=
=cov U 1, U 2
1 2
Otrzymujemy proste zależności:
1 T
1
U 1, U 2 =k exp − u B u =k exp − g u
2
2
■
1
1 −
B=
1 −2 − 1
Szukamy linii stałej gęstości prawdopodobieństwa:
1
1
1
2
2
− ⋅
u
u
−2
u
u
=−
g u=const
2
1 2
2 1
2 1 −
2
■
Otrzymujemy wzór będący równaniem tzw. elipsy
kowariancji o środku w (a1, a2), której osie główne
tworzą kąt α z osiami x1 i x2.
x 1 −a1 2
2
1
x 1 −a1 x 2 −a 2 x 2 −a 2 2
2
−2
=1−
2
1
2
2
KADD – Podstawowe rozkłady c.d.
8
Elipsy kowariancji – rysunek
Korelacja
wydłuża i
obraca elipsę
■ Rozmiar elipsy
zależy od
wariancji.
■ Elipsa
kowariancji
zawiera pełną
informację o
macierzy
kowariancji
■
KADD – Podstawowe rozkłady c.d.
9
σ1=2.0
σ2=1.0
ρ=-0.5
Elipsa kow. i rozkład 2d
■
σ1=2.0
σ2=1.0
ρ=0.0
∫A k x d x=1 −e
■
σ1=2.0
σ2=1.0
ρ=0.7
Prawdopodobieństwo
zajścia wydarzeń (x1, x2)
wewnątrz elipsy
kowariancji jest niezależne
od samej elipsy i wynosi:
1
2
=const
Elipsa kowariancji stanowi
odpowiednik przedziału
(a-σ, a+σ) dla rozkładu
jednowymiarowego.
KADD – Podstawowe rozkłady c.d.
10
Suma zmiennych losowych jako splot
Rozpatrujemy sumę zmiennych losowych: U=X+Y
■ Zakładamy ich niezależność:
■
f x , y= f x x f y y
■
Dystrybuantę zmiennej U można przedstawić jako:
y
F u=∫∫A f x x f y y dx dy
u=
x+
y
u− x
∞
u− y
=∫−∞ f x x dx ∫−∞ f y y dy
x
■
∞
=∫−∞ f y y dy ∫−∞ f x x dx
Skąd wyznaczamy gęstość prawdopodobieństwa:
∞
∞
d F u
f u=
=∫−∞ f x x f y u− x dx=∫−∞ f y y f x u− y dy
du
■
Jest to splot rozkładów fx i fy
KADD – Podstawowe rozkłady c.d.
11
Splot rozkładów jednostajnych
■
Rozpatrujemy sumy rozkładów jednostajnych:
f x x=
■
0≤ x1
w przeciwnym razie
}
Na początek sumę dwóch rozkładów:
1
f u=∫0
■
{
1,
0,
v=u− x
⇒
f y u− x dx
dv=−dx
u−1
f u=−∫u
u
f y v dv=∫u−1 f y v dv
Rozbijając na dwau przypadki
mamy:
u
a 0≤u1: f 1 u=∫0 f y v dv=∫0 dv=u
1
■
1
b 1≤u2 : f 2 u=∫u−1 f y v dv=∫u−1 dv=2−u
Podobnie dla splotu trzech rozkładów mamy:
{
1/ 2 u 2 ,
0≤u1
f u= 1/ 2 −2 u 2 6 u−3 , 1≤u2
2
1/ 2 u−3 ,
2≤u3
}
KADD – Podstawowe rozkłady c.d.
12
Splot r. jednostajnych – rysunek
u=x1
u=x1+x2
u=x1+x2+x3
u=x1+x2+x3+x4
■
Zgodnie z centralnym twierdzeniem granicznym
splot kilku rozkładów jednostajnych dąży do
rozkładu Gaussa.
KADD – Podstawowe rozkłady c.d.
13
Sploty z rozkładem normalnym
■
Mierzymy zmienną X opisaną gęstością prawd. fx(x).
Pomiar obarczony jest błędem Y mającym rozkład
normalny. Wynik jest sumą zm. losowych:
U = X Y
■
■
Gęstość prawd. zmiennej U wynosi wtedy:
∞
1
2
2
f u=
f
xexp
−u−
x
/
2
[
] dx
∫
x
−∞
2
W ogólnym przypadku z pomiarów możemy
wyznaczyć funkcję fu, ale nie da się wyznaczyć fx.
Rozwiązanie jest możliwe, gdy znamy ogólną
postać funkcyjną fx. Najczęściej stosuje się metody
Monte-Carlo.
KADD – Podstawowe rozkłady c.d.
14
Splot r. jednostajnego z r. normalnym
■
W tym przypadku możliwe jest rozwiązanie ogólne
f u=
{ }
1
b−u
a−u
0
−0
b−a
gdzie ψ0 to dystrybuanta rozkładu normalnego
■ Gdy dodajemy dwa
rozkłady normalne
f(x)
otrzymujemy
rozkład normalny o
wariancji:
2 = 2x 2y
f(u)
■
Stąd reguła
“dodawania błędów
w kwadratach”
15
KADD – Podstawowe rozkłady c.d.
Pobieranie próby
W eksperymencie zwykle nie znamy gęstości
prawdopodobieństwa opisującej pomiar. Jesteśmy
zmuszeni przybliżać go przez rozkład częstości.
■ Próbą nazywamy zespół doświadczeń wykonanych
w celu określenia kształtu poszukiwanego rozkładu
■ Próbę o n składnikach nazywamy próbą nwymiarową
■ Zespół wszystkich możliwych doświadczeń to
populacja generalna
■ Załóżmy, że rozkład zmiennej losowej to f(x)
■ Pobieramy l prób o wymiarze n każda:
■
1. próba :
1
1
X 1
,
X
,
,
X
1
2
n
j−ta. próba :
KADD – Podstawowe rozkłady c.d.
X 1 j , X 2j , , X nj
16
Dystrybuanta empiryczna
Każdą próbę przedstawiamy jako n-wymiarowy
wektor X(j). Ma on gęstość prawdopodobieństwa g(x)
■ Aby można było mówić o losowym pobieraniu próby
Zmienne Xi muszą być niezależne, czyli:
■
g x=g 1 x 1 g 2 x 2 g n x n
Poszczególne rozkłady muszą być jednakowe i
identyczne z rozkładem gęstości populacji:
g 1 x 1 = g 2 x 2 ==g n x n = f x
■
Przez nx oznaczamy liczbę elementów dla których
X<x. Wtedy:
W n x=n x / n
jest dystrybuantą empiryczną lub rozkładem w
próbie
KADD – Podstawowe rozkłady c.d.
17
Estymator
Funkcja elementów próby to statystyka
■ Przykładem jest wartość średnia z próby:
■
■
1
X = X 1 X 2 X n
n
Gdy próbujemy wyznaczyć pewne charakterystyki
rozkładu na podstawie ograniczonej próby mamy
do czynienia z estymacją parametrów.
Poszukiwana wielkość jest funkcją elementów
próby (czyli statystyką) zwaną estymatorem:
S =S X 1, X 2, , X n
■
Estymator jest nieobciążony, gdy jego wartość
oczekiwana jest równa poszukiwanej wielkości.
Estymator jest zgodny, gdy jego wariancja znika:
E { S X 1, X 2, , X n }=
lim
S =0
n ∞
KADD – Podstawowe rozkłady c.d.
18
Wartość średnia z próby
■
Wartość średnia z próby jest zmienną losową:
■
Jej wartość oczekiwana jest równa wartości
oczekiwanej zmiennej x. Jest jej estymatorem
nieobciążonym. Obliczmy jej wariancję:
1
E { X }= { E X 1 E X 2 E X n }= x
n
2
2
=E { X
−E X
} =E
X
=
■
{
x 1 x 2 x n
− x
n
}
2
1
2
E
[
X
−
x
X
−
x
X
−
x
]
{ 1
}
2
n
2
n
Ponieważ Xi są niezależne, kowariancje znikają i:
= 1 2 X
2 X
n
■
czyli wartość średnia z próby jest także
estymatorem zgodnym wartości oczekiwanej.
KADD – Podstawowe rozkłady c.d.
19
Wariancja populacji
■
Wariancja nie jest zmienną losową. Przybliżamy ją
przez średnią arytmetyczną odchyleń kwadratowych
1
2 X 2 − X
2 X n− X
2 }
S ' = { X 1 − X
n
2
■
Ma ona wartość oczekiwaną:
■
{
{
}
{
}
n
n
1
1
2
= E ∑ X i − x x − X
2
E { S ' }= E ∑i=1 X i − X
i=1
n
n
n
n
n
1
2
2
2 ∑ X i − x x − X
= E ∑i=1 X i − x ∑i=1 x − X
i=1
n
1 n
− x 2 }=1 n 2 X −n 1 2 X
= ∑i=1 { E X i − x 2 −E X
n
n
n
n−1 2
=
X
n
2
{
}
}
Jest to estymator obciążony wariancji populacji
KADD – Podstawowe rozkłady c.d.
20
Estymator wariancji
■
Modyfikujemy poprzednią definicję:
S2 =
1
2
2
2
X
−
X
X
−
X
X
−
X
{ 1
}
2
n
n−1
otrzymując estymator nieobciążony
■ Definiujemy estymator wariancji wartości średniej:
n
1
1
2
2
= S X =
S X
X
−
X
∑
n
nn−1 i=1 i
2
■
■
Odpowiadające mu odchylenie standardowe można
traktować jako błąd wartości średniej:
1
2
X = S X =S X =
SX
n
Poszukujemy również błędu wariancji wart. średniej
Podobnie dla odchylenia standardowego próby:
2
2
var S =
2 n−1
n−1
2
■
1
S = S =
n−1
2
2
S =S
2
2
n−1
S
S=
2n−1
KADD – Podstawowe rozkłady
c.d.
2
X
−
X
∑ i
21