iTX

Transkrypt

iTX
Ważne rozkłady i twierdzenia c.d.
Funkcja charakterystyczna rozkładu
■ Wielowymiarowy rozkład normalny

Elipsa kowariacji
■ Sploty rozkładów

Rozkłady jednostajne

Sploty z rozkładem normalnym
■ Pobieranie próby

Estymatory

Wartość średnia z próby

Wariancja populacji
■
KADD – Podstawowe rozkłady c.d.
1
Funkcja charakterystyczna rozkładu
■
Mamy zmienną losową X o dystrybuancie F(x) i
funkcji gęstości prawdopodobieństwa f(x). Jej
funkcję charakterystyczną definiujemy jako:
t =E { exp itx  }
■
Czyli jest ona transformatą
Fouriera
gęstości
f(x):
∞
t =∫−∞ exp itx  f  x dx
■
Obliczmy momenty względem początku układu:
■
∞
n=E { X }=∫−∞ x n f  x dx
n
Można je otrzymać przez n-krotne różniczkowanie
funkcji charakterystycznej w punkcie t=0:
n
d
t  n ∞ n
n
 t =
=i ∫−∞ x exp itx  f  x dx
n
dt
■
Czyli
n 0=i n n
KADD – Podstawowe rozkłady c.d.
2
Funkcja charakterystyczna c.d.
■
Wprowadzamy przesuniętą zmienną y=x-E{x} i jej
funkcję charakterystyczną:
∞
■
 y t =∫−∞ exp { it  x− x  } f  x dx=t exp −it x 
Wtedy n-ta pochodna jest równa n-temu
momentowi względem wartości średniej:
ny 0=i n n=i n E { X − x n }
a w szczególności:
 2  x=− y ' ' 0
■
■
Odwracając transformatę Fouriera można z funkcji
charakterystycznej uzyskać gęstość prawd.:
1 ∞
f  x=
exp −itx t  dt
∫
−∞
2
F. charakterystyczna sumy zmiennych losowych
jest iloczynem f. charakterystycznych
KADD – Podstawowe rozkłady c.d.
3
Funkcja charakterystyczna – wyniki
Istnieje jednoznaczny związek pomiędzy
dystrybuantą i jej funkcją charakterystyczną. Stąd
można ich używać zamiennie.
■ Przykłady własności otrzymanych przez rachunki z
funkcją charakterystyczną:
it

t
=exp
e
−1 }
{
Rozkład Poissona:
it


t
=exp


e
{ 1 2 −1 } jest
Suma rozkładów: sum
również r. Poissona o λ równej sumie λ1 i λ2.

F. charakterystyczna rozkładu normalnego:
t =exp itaexp −b 2 t 2 / 2  ma postać rozkładu
normalnego. Iloczyn ich wariancji wynosi 1.

Suma zmiennych opisanych rozkładem Gaussa:
■
u t = x⋅ y =exp ita x exp −b 2x t 2 / 2  exp ita y exp −b 2y t 2 / 2 
2
2 2
=exp  it a x aKADD

exp
−b
b
/2
 x rozkłady
y  – Podstawowe
y t c.d.

4
Wielowymiarowy rozkład normalny
Rozważmy wektor x o n składowych:
X =  X 1, X 2,  , X n 
■ Łączna gęstość prawd. rozkładu normalnego dla
wielu zmiennych jest zdefiniowana jako:
■
}
{
{
T
1
1
 x =k exp −  x−a  B  x−a  =k exp − g  x 
2
2
}
gdzie a jest n-wymiarowym wektorem, a B jest
dodatnio określoną macierzą symetryczną nxn.
■ Z symetrii rozkładu normalnego mamy:
∞
∞
∫−∞ ∫−∞  x−a x dx 1 dx 2 dx n=0
■
Czyli E{x-a} = 0 lub E{x} = a
KADD – Podstawowe rozkłady c.d.
5
R. normalny – macierz kowariancji
■
Różniczkujemy wyrażenie względem a:
∞
∞
T

[
I
−
x−a
x−a
B] x dx 1 dx 2 dx n=0
∫−∞ ∫−∞
Co oznacza, że E { x−a   x−a  } B= I
T
−1
{
}




C
=E
x−a
x−a
=B
czyli
gdzie C jest macierzą kowariancji zmiennych x
■ Szczególną uwagę zwrócimy na przypadek dwóch
zmiennych i korelacje między nimi. Macierz C ma
dla dwóch zmiennych postać:
■
T

2

cov  X 1, X 2 
−1
1
C =B =
cov  X 1, X 2 
 22
■
Odwracając otrzymujemy:


 22
−cov  X 1, X 2 
1
B= 2 2
 1  2 −cov  X 1, X 2  −cov  X 1, X 2 
 12
KADD – Podstawowe rozkłady c.d.

6
Macierz B
■
W przypadku znikających kowariancji mamy

1/ 12
0
B=
0
1/ 22
■

Wstawiając tę macierz do wzoru otrzymujemy
gęstość prawdopodobieństwa niezależnych zm. :
2
2
x
−a
x
−a
1 1
1 2
1
2
{
 x =k exp −
2

gdzie stała k wynosi:
} {
exp −
2
1
2
 22
}
1
k=
2  1  2
■
W ogólnym przypadku:
k=
 
det B
2 n
1/ 2
KADD – Podstawowe rozkłady c.d.
7
Elipsa kowariancji
■
Posługujemy się zmiennymi znormalizowanymi:
X i −ai
U i=
i
■
cov  X 1, X 2 
=
=cov U 1, U 2 
1  2
Otrzymujemy proste zależności:



1 T
1
U 1, U 2 =k exp − u B u =k exp − g u
2
2
■


1
1 −
B=
1 −2 − 1

Szukamy linii stałej gęstości prawdopodobieństwa:
1
1
1
2
2
− ⋅
u
u
−2
u
u

=−
g u=const
2
1 2 
2 1
2 1 −
2
■
Otrzymujemy wzór będący równaniem tzw. elipsy
kowariancji o środku w (a1, a2), której osie główne
tworzą kąt α z osiami x1 i x2.
 x 1 −a1 2
2
1
x 1 −a1 x 2 −a 2  x 2 −a 2 2
2
−2 

=1−
2
1
2
2
KADD – Podstawowe rozkłady c.d.
8
Elipsy kowariancji – rysunek
Korelacja
wydłuża i
obraca elipsę
■ Rozmiar elipsy
zależy od
wariancji.
■ Elipsa
kowariancji
zawiera pełną
informację o
macierzy
kowariancji
■
KADD – Podstawowe rozkłady c.d.
9
σ1=2.0
σ2=1.0
ρ=-0.5
Elipsa kow. i rozkład 2d
■
σ1=2.0
σ2=1.0
ρ=0.0
∫A k  x d x=1 −e
■
σ1=2.0
σ2=1.0
ρ=0.7
Prawdopodobieństwo
zajścia wydarzeń (x1, x2)
wewnątrz elipsy
kowariancji jest niezależne
od samej elipsy i wynosi:
1
2
=const
Elipsa kowariancji stanowi
odpowiednik przedziału
(a-σ, a+σ) dla rozkładu
jednowymiarowego.
KADD – Podstawowe rozkłady c.d.
10
Suma zmiennych losowych jako splot
Rozpatrujemy sumę zmiennych losowych: U=X+Y
■ Zakładamy ich niezależność:
■
f  x , y= f x  x f y  y
■
Dystrybuantę zmiennej U można przedstawić jako:
y
F u=∫∫A f x  x f y  y dx dy
u=
x+
y
u− x
∞
u− y
=∫−∞ f x  x dx ∫−∞ f y  y dy
x
■
∞
=∫−∞ f y  y dy ∫−∞ f x  x dx
Skąd wyznaczamy gęstość prawdopodobieństwa:
∞
∞
d F u
f u=
=∫−∞ f x  x f y u− x dx=∫−∞ f y  y f x u− y dy
du
■
Jest to splot rozkładów fx i fy
KADD – Podstawowe rozkłady c.d.
11
Splot rozkładów jednostajnych
■
Rozpatrujemy sumy rozkładów jednostajnych:
f x  x=
■
0≤ x1
w przeciwnym razie
}
Na początek sumę dwóch rozkładów:
1
f u=∫0
■
{
1,
0,
v=u− x
⇒
f y u− x dx
dv=−dx
u−1
f u=−∫u
u
f y v dv=∫u−1 f y v dv
Rozbijając na dwau przypadki
mamy:
u
a 0≤u1: f 1 u=∫0 f y v dv=∫0 dv=u
1
■
1
b 1≤u2 : f 2 u=∫u−1 f y v  dv=∫u−1 dv=2−u
Podobnie dla splotu trzech rozkładów mamy:
{
1/ 2 u 2 ,
0≤u1
f u= 1/ 2 −2 u 2 6 u−3  , 1≤u2
2
1/ 2  u−3  ,
2≤u3
}
KADD – Podstawowe rozkłady c.d.
12
Splot r. jednostajnych – rysunek
u=x1
u=x1+x2
u=x1+x2+x3
u=x1+x2+x3+x4
■
Zgodnie z centralnym twierdzeniem granicznym
splot kilku rozkładów jednostajnych dąży do
rozkładu Gaussa.
KADD – Podstawowe rozkłady c.d.
13
Sploty z rozkładem normalnym
■
Mierzymy zmienną X opisaną gęstością prawd. fx(x).
Pomiar obarczony jest błędem Y mającym rozkład
normalny. Wynik jest sumą zm. losowych:
U = X Y
■
■
Gęstość prawd. zmiennej U wynosi wtedy:
∞
1
2
2
f u=
f

xexp
−u−
x
/
2

[
] dx
∫
x
−∞
2 
W ogólnym przypadku z pomiarów możemy
wyznaczyć funkcję fu, ale nie da się wyznaczyć fx.
Rozwiązanie jest możliwe, gdy znamy ogólną
postać funkcyjną fx. Najczęściej stosuje się metody
Monte-Carlo.
KADD – Podstawowe rozkłady c.d.
14
Splot r. jednostajnego z r. normalnym
■
W tym przypadku możliwe jest rozwiązanie ogólne
f u=
{    }
1
b−u
a−u
0
−0
b−a


gdzie ψ0 to dystrybuanta rozkładu normalnego
■ Gdy dodajemy dwa
rozkłady normalne
f(x)
otrzymujemy
rozkład normalny o
wariancji:
 2 = 2x  2y
f(u)
■
Stąd reguła
“dodawania błędów
w kwadratach”
15
KADD – Podstawowe rozkłady c.d.
Pobieranie próby
W eksperymencie zwykle nie znamy gęstości
prawdopodobieństwa opisującej pomiar. Jesteśmy
zmuszeni przybliżać go przez rozkład częstości.
■ Próbą nazywamy zespół doświadczeń wykonanych
w celu określenia kształtu poszukiwanego rozkładu
■ Próbę o n składnikach nazywamy próbą nwymiarową
■ Zespół wszystkich możliwych doświadczeń to
populacja generalna
■ Załóżmy, że rozkład zmiennej losowej to f(x)
■ Pobieramy l prób o wymiarze n każda:
■
1. próba :
1
1
X 1
,
X
,
,
X
1
2
n
j−ta. próba :
KADD – Podstawowe rozkłady c.d.
X 1 j , X 2j , , X nj
16
Dystrybuanta empiryczna
Każdą próbę przedstawiamy jako n-wymiarowy
wektor X(j). Ma on gęstość prawdopodobieństwa g(x)
■ Aby można było mówić o losowym pobieraniu próby

Zmienne Xi muszą być niezależne, czyli:
■
g  x=g 1  x 1  g 2  x 2  g n  x n 

Poszczególne rozkłady muszą być jednakowe i
identyczne z rozkładem gęstości populacji:
g 1  x 1 = g 2  x 2 ==g n  x n = f  x
■
Przez nx oznaczamy liczbę elementów dla których
X<x. Wtedy:
W n  x=n x / n
jest dystrybuantą empiryczną lub rozkładem w
próbie
KADD – Podstawowe rozkłady c.d.
17
Estymator
Funkcja elementów próby to statystyka
■ Przykładem jest wartość średnia z próby:
■
■
1

X =  X 1  X 2  X n 
n
Gdy próbujemy wyznaczyć pewne charakterystyki
rozkładu na podstawie ograniczonej próby mamy
do czynienia z estymacją parametrów.
Poszukiwana wielkość jest funkcją elementów
próby (czyli statystyką) zwaną estymatorem:
S =S  X 1, X 2,  , X n 
■
Estymator jest nieobciążony, gdy jego wartość
oczekiwana jest równa poszukiwanej wielkości.
Estymator jest zgodny, gdy jego wariancja znika:
E { S  X 1, X 2,  , X n  }=
lim
 S =0
n ∞
KADD – Podstawowe rozkłady c.d.
18
Wartość średnia z próby
■
Wartość średnia z próby jest zmienną losową:
■
Jej wartość oczekiwana jest równa wartości
oczekiwanej zmiennej x. Jest jej estymatorem
nieobciążonym. Obliczmy jej wariancję:
1

E { X }= { E  X 1 E  X 2 E  X n  }= x
n
2
2
 =E { X
 −E  X
  } =E
 X
=
■
{
x 1  x 2  x n
− x
n
}
2
1
2



E
[
X
−
x

X
−
x

X
−
x
]
{ 1
}
2
n
2
n
Ponieważ Xi są niezależne, kowariancje znikają i:
 = 1  2  X 
2 X
n
■
czyli wartość średnia z próby jest także
estymatorem zgodnym wartości oczekiwanej.
KADD – Podstawowe rozkłady c.d.
19
Wariancja populacji
■
Wariancja nie jest zmienną losową. Przybliżamy ją
przez średnią arytmetyczną odchyleń kwadratowych
1
 2  X 2 − X
 2  X n− X
 2 }
S ' = { X 1 − X
n
2
■
Ma ona wartość oczekiwaną:
■
{
{
}
{
}
n
n
1
1
2
  = E ∑  X i − x  x − X
 2
E { S ' }= E ∑i=1  X i − X
i=1
n
n
n
n
n
1
2
2
  2 ∑  X i − x  x − X

= E ∑i=1  X i − x  ∑i=1  x − X
i=1
n
1 n
 − x 2  }=1 n  2  X −n 1  2  X 
= ∑i=1 { E   X i − x 2 −E   X
n
n
n
n−1 2
=
 X 
n
2
{

}
}
Jest to estymator obciążony wariancji populacji
KADD – Podstawowe rozkłady c.d.
20
Estymator wariancji
■
Modyfikujemy poprzednią definicję:
S2 =
1
2
2
2




X
−
X


X
−
X


X
−
X

{ 1
}
2
n
n−1
otrzymując estymator nieobciążony
■ Definiujemy estymator wariancji wartości średniej:
n
1
1
2
2
 = S  X =

S X

X
−
X

∑
n
nn−1 i=1 i
2
■
■
Odpowiadające mu odchylenie standardowe można
traktować jako błąd wartości średniej:
1
2



 X =  S  X =S  X =
SX 
n
Poszukujemy również błędu wariancji wart. średniej



Podobnie dla odchylenia standardowego próby:
2
2

var S =
2 n−1
n−1
2
■
1
S = S =
 n−1
2

2
 S =S
2
2
n−1
S
S=
 2n−1
KADD – Podstawowe rozkłady
c.d.
2


X
−
X

∑ i
21