Jacek Dziarmaga1 1) Na odcinku [0,1] osi liczbowej umieszczono

Transkrypt

Jacek Dziarmaga1 1) Na odcinku [0,1] osi liczbowej umieszczono
Metody statystyczne - oficjalne zadania.
http://th.if.uj.edu.pl/∼ufjacekd/statystyka-zadania.pdf(.ps)
Jacek Dziarmaga1
1
Instytut Fizyki UJ, ul.Reymonta 4, 30-059 Kraków
tel: 012-6635662
e-mail: [email protected]
Zestaw 1
1) Na odcinku [0,1] osi liczbowej umieszczono losowo
punkty A i B. Oblicz prawdopodobienstwo, ze punkt A
bedzie blizej punktu B niz krancow przedzialu.
2) Wybrano 3 losowe punkty na okregu. Pokaz, ze
prawdopodobienstwo znalezienia ich w tej samej polowce
okregu wynosi 3/4.
3) Rzucono dwie rzetelne kostki do gry. Jakie jest
prawdopodobienstwo warunkowe, ze wypadly dwie piatki, jesli wiadomo, ze suma oczek na obu kostkach jest
liczba podzielna przez 5.
4) Sposrod rodzacych sie blizniakow 32% to dwaj
chlopcy, a 28% to dwie dziewczynki. Znajdz warunkowe
prawdopodobienstwo P, ze w rodzinie majacej blizniaki
dwojka dzieci to chlopcy, jesli wiadomo, ze wsrod dzieci
jest jeden chlopak.
5) Przychodzimy na przystanek, na ktory w odstepach
4 minut przyjezdza autobus linii A, a w odstepach 6
minut autobus linii B. Zakladajac, ze autobusy kursuja
niezaleznie od siebie, znajdz prawdopodobienstwo P, ze
a) pierwszy autobus jaki przyjedzie bedzie linii A,
b) w ciagu nastepnych 3 minut przyjedzie jakis autobus
lub nawet dwa.
Zestaw 2
1) Obliczyc srednia i wariancje rozkladu Poissona
P (k|µ) =
µk −µ
e .
k!
2) Obliczyc wariancje rozkladu Bernoulliego
n
B(k|n, p) = k pk (1 − p)n−k .
1
3) Dany jest rozklad jednorodny f (x) = b−a
w
b+a
przedziale x ∈ (a, b). Pokazac, ze srednia E(x) = 2 , a
2
wariancja var(x) = (b−a)
12 .
4) Automat produkuje kulki o promieniu r opisanym
rozkladem jednostajnym w przedziale (a, b).
Znajdz rozklad f (V ) objetosci kulek oraz rozklad g(S)
powierzchni kulek. Naszkicuj rozklady.
5) Znajdz rozklad g(u) zmiennej losowej u = x1 + x2 ,
gdzie xi sa zmiennymi niezaleznymi o jednorodnym rozkladzie w przedziale [0, 1]. Znajdz roklad h(v) dla iloczynu
v = x1 x2 .
6) Zmienne losowe x i y sa opisane rozkladem f (x, y) ∼
x+y 2 okreslonym na jednostkowym kwadracie 0 ≤ x, y ≤
1. Podaj rozklady brzegowe dla x i y.
Zestaw 3
1) Niech niezalezne zmienne x1 , x2 maja rozklad jednorodny w przedziale [0, 1]. Pokaz, ze zmienne y1 , y2 dane
transformacja Box-Muller
p
−2 ln x1 cos(2πx2 ) ,
p
=
−2 ln x1 sin(2πx2 ) ,
y1 =
y2
sa zmiennymi niezaleznymi o standardowym rokladzie
Gaussa N (yi |0, 1).
2) Jak uzyskac generator rozkladu N (y|µ, σ 2 ) ?
3) Generator Box-Muller’a w (1) moze sprawiac problemy numeryczne, bo
• jest niestabilny gdy x1 jest bliskie 0,
• jest powolny, gdyz zbyt czesto odwoluje sie do biblioteki funkcji matematycznych.
Dlatego lepiej uzywac ,,wersji polarnej” generatora
Box-Muller’a:
float x1, x2, w, y1, y2;
do {
x1 = 2.0 * ranf() - 1.0;
x2 = 2.0 * ranf() - 1.0;
w = x1 * x1 + x2 * x2;
}
while ( w >= 1.0 );
w = sqrt( (-2.0 * ln( w ) ) / w );
y1 = x1 * w;
y2 = x2 * w;
gdzie ranf() to procedura, ktora daje liczbe pseudolosowa
o jednorodnym rozkladzie w przedziale [0, 1].
Pokazac, ze podobnie jak w (1) zmienne y1 , y2 sa niezaleznymi standardowymi zmiennymi gaussowskimi.
Zestaw 4
1) W ponizszych przykladach a,b,c znajdz funkcje
wiarygodnosci L i pokaz, ze podana w nawiasie
statystyka T (x) jest statystyka wystarczajaca dla
parametru θ. Znajdz takze estymator najwiekszej wiarygodnosci θ̂ i sprawdz, ze jest on funkcja statystyki
wystarczajacej T (x). Sprawdz czy znaleziony estymator najwiekszej wiarygodnosci θ̂ jest obciazony i jesli jest
asymptotycznie nieobciazony, to znajdz estymator nieobciazony.
a) x1 , .., xn to niezalezne zmienne losowe o rozkladzie
Poissona. Srednia rozkladu
dla zmiennej xi
PPoissona
n
wynosi iθ z θ > 0. (T (x) = i=1 xi )
b) x1 , .., xn to niezalezne zmienne losowe o rozkladzie
Gaussa
N (xi |θ, σi2 ). Wariancje σi2 sa znane. (T (x) =
Pn
2
i=1 xi /σi )
c) x1 , .., xn to niezalezne zmienne losowe o rozkladzie
wykladniczym
f (xi |θ) = θe−θxi dla xi > 0. (T (x) =
Pn
i=1 xi ) Pominac test obciazenia estymatora.
2) W eksperymencie genetycznym na probie n osobnikow znaleziono odpowiednio a, b, c osobnikow (a + b +
c = n) o genotypach GG, Gg, gg. Czestosc wystepowaθ
nia genu G wynosi 1+θ
o nieznanym θ. Zaklada sie, ze
badani osobnicy nie sa spokrewnieni oraz, ze oba geny u
kazdego osobnika sa niezalezne. Znalezc estymator najwiekszej wiarygodnosci dla θ.
Zestaw 5
1) Niech x1 , ..., xn beda zmiennymi niezaleznymi o
rozkladzie jednorodnym w przedziale (θ, 2θ).
a) Pokaz, ze statystyka wystarczajaca dla θ jest T (x) =
(min xi , max xi );
b) Znajdz estymator najwiekszej wiarygodnosci. Czy
to jest estymator obciazony?
c) Pokaz, ze θ̂ = 23 x1 jest nieobciazonym estymatorem
θ.
d) Znajdz nieobciazony estymator θ bedacy funkcja
T (x) o srednim kwadratowym bledzie niewiekszym niz
sredni kwadratowy blad estymatora θ̂.
2) Niech k1 , ..., kn beda zmiennymi niezaleznymi o
rozkladzie B(ki |1, p).
a) Pokaz, P
ze statystyka wystraczajaca dla θ = (1 − p)2
jest T (k) = i ki oraz, ze estymator najwiekszej wiarygodnosci dla θ to (1 − T /n)2 .
b) Estymator najwiekszej wiarygodnosci jest estymatorem obciazonym. Znajdz estymator bedacy funkcja
statystyki wystarczajacej T bedacy estymatorem nieobciazonym.
3) Niech x1 , ..., xn beda zmiennymi niezaleznymi o
rozkladzie wykladniczym f (x|λ) = λe−λx dla x ≥ 0.
a) Znajdz statystyke wystarczajaca dla λ i jej rozklad
prawdopodobienstwa.
b) Znajdz estymator najwiekszej wiarygodnosci dla λ.
Pokaz, ze jest on obciazony i znajdz wielokrotnosc tego
estymatora bedaca estymatorem nieobciazonym.
c) Znajdz estymator bedacy wielokrotnoscia estymatora najwiekszej wiarygodnosci o najmniejszym srednim
kwadracie bledu.
PWskazowka: Rozklad f (T ) dla zmiennej losowej T =
i xi mozna wyliczyc z rozkladu f (xi ) dla niezaleznych
xi za pomoca wzoru
Z
X
xi ) f (x1 )...f (xn ) ,
f (T ) = dx1 ...dxn δ(T −
i
gdzie delte Diraca wygodnie jest zapisac jako
Z ∞
dk ikz
δ(z) =
e
2π
−∞
i najpierw wykonac calkowania
po x1 ...xn a potem po k.
λn
T n−1 e−λT .
Wynik wynosi f (T ) = (n−1)!
Zestaw 6
1.
Zmienna losowa ma rozklad jednorodny w
przedziale (0, θ). Pokaz, ze T (x) = max xi jest statystyka
wystarczajaca dla nieznanego θ oraz ze T (x) jest estymatorem najwiekszej wiarygodnosci. Pokaz, ze przedzial
(T (x), T (x)/(1 − γ)1/n ) jest przedzialem 100γ% ufnosci
dla θ.
2. Niech x1 ma rozklad N (x1 |θ1 , 1) a x2 ma rozklad
N (x2 |θ2 , 1). θ1 i θ2 nie sa znane.
a) Znajdz rozklad dla zmiennej (θ1 − x1 )2 + (θ2 − x2 )2 .
b) Pokaz, ze obszary
S = {(θ1 , θ2 ) : |θ1 − x1 | ≤ 2.236, |θ2 − x2 | ≤ 2.236}
oraz
C = {(θ1 , θ2 ) : (θ1 − x1 )2 + (θ2 − x2 )2 < 5.991}
sa obszarami 95% ufnosci.
3. Niech x1 , ..., xn beda zmiennymi niezaleznymi o
rozkladach Gaussa N (xi |θ, σi2 ) o znanych wariancjach σi2 .
a) Znajdz estymator najwiekszej wiarygodnosci.
b) Jaki jest jego rozklad prawdopodobienstwa?
c) Znajdz przedzial 95% ufnosci dla θ.
Zestaw 7
1. W trakcie komunikacji pomiedzy komputerami wystepuja bledy transmisji. Prawdopodobienstwo przeklamania wyslanego bitu wynosi ǫ. Przyjmujemy, ze prawdopodobienstwo wyslania bitu 0 (zdarzenie W0 ) wynosi
p.
a) Znajdz prawdopodobienstwo P (O1 ) odbioru bitu 1.
b) Ile wynosi prawdopodobienstwo P (W1 |01 ), ze zostal
wyslany bit 1, pod warunkiem, ze zostal odebrany bit 1?
c) Ile wynosi P (W0 |O0 )?
2. Dane x1 , ...., xn pochodza z rozkladu f (xi |λ) =
λe−λxi dla xi > 0 o nieznanej wartosci λ. Niech zaczatkowy rozklad dla λ bedzie dany przez
f (λ) = µe−µλ .
o nieznanym λ.
a) Znajdz najlepszy test o poziomie istotnosci α
hipotezy H0 : λ = λ0 kontra H1 : λ = λ1 ;
b) Znajdz test ktory minimalizuje sume prawdopodobienstw bledow I i II rodzaju.
Znalezc rozklad koncowy dla λ.
Zestaw 10
Zestaw 8
1. Liczba defektow na tasmie magnetofonowej dana
jest rozkladem rozkladem Poissona o sredniej λ. Przypuscmy, ze wiadomo iz λ moze byc rowna 1 albo 1.5.
a) Jaki jest rozklad zaczatkowy dla λ?
b) W probce 5 tasm znaleziono x = {3, 1, 4, 6, 2} defekty, jaki jest koncowy rozklad dla λ?
2. Dane 0 < x1 , ..., xn < 1 pochodza z rozkladu θxθ−1
o nieznanym θ. Niech zaczatkowy rozklad dla θ bedzie
rowny
f (θ) =
β α θα−1 e−βθ
,
(α − 1)!
gdzie α > 0 i β > 0.
a) Znajdz rozklad koncowy f (θ|x1 , ..., xn ).
b) Znajdz estymator punktowy dla θ przy kwadratowej
funkcji bledu.
3. Zmienna x > 0 ma rozklad
f (x|θ) =
θ
(θ + x)2
o nieznanym θ > 0.
a) Znajdz najlepszy test o poziomie istotnosci α = 0.05
hipotezy konserwatywnej H0 : θ = 1 kontra hipoteza
H1 : θ = 2;
b) Pokaz, ze prawdopodobienstwo bledu II rodzaju
wynosi 19/21.
1. Pokaz, ze dla rozkladu χ2n (u)
a) E(u) = n,
b) var(u) = 2n.
2. Niech x1 , ..., xn beda zmiennymi niezaleznymi o
rozkladzie eksponencjalnym f (xi |θ1 ) = θ1 e−θ1 xi dla x >
0 o nieznanym parametrze θ1 > 0. Niech y1 , .., yn beda
niezaleznymi zmiennymi o rozkladzie eksponencjalnym
f (yi |θ2 ).
a) Wylicz stosunek wiarygodnosci dla hipotezy alternatywnej H1 : θ1 6= θ2 do wiarygodnosci dla hipotezy
konserwatywnej H0 : θ1 = θ2 . Pokaz, ze stosunek wiary(x̄+ȳ)2
godnosci jest funkcja statystyki T = (x̄)
2 (ȳ)2 .
b) Korzystajac z twierdzenia, ze dla duzego n zmienna
t = 2 ln L(H1 )/L(H0 ) ma rozklad χ2 skonstruuj test o
poziomie istotnosci α.
3. Zaobserwowano dane x1 , ..., xn . Wiadomo, ze kazde
xi pochodzi z rozkladu Poissona P (xi |λi ) o nieznanej
sredniej λi . Trzeba przetestowac hipoteze konserwatywna H0 : λ1 = ... = λn kontra hipoteza alternatywna, ze
srednie λi sa dowolne.
a) Wylicz stosunek wiarygodnosci i pokaz, ze
H0 powinno byc odrzucone
przy duzych wartosciach
P
statystyki T (x) = 2 ni=1 xi ln(xi /x̄).
b) Korzystajac z twierdzenia, ze dla duzego n zmienna
t = 2 ln L(H1 )/L(H0 ) ma rozklad χ2 , sformuluj test o
poziomie istotnosci α.
c) Niech dane to (3, 5, 1, 6, 5) a poziom istotnosci α =
0.05. Czy H0 nalezy odrzucic?
Zestaw 11
Zestaw 9
1. Niech x1 , ..., xn beda zmiennymi niezaleznymi o
rozkladzie Poissona P (xi |θ) o nieznanej sredniej (i wariancji) θ.
a) Znajdz najlepszy test o poziomie istotnosci α
hipotezy H0 : θ = 1 kontra H1 : θ = 1.21;
b) Uzywajac centralnego twiedzenia granicznego znajdz
Pn przyblizony rozklad Gaussa dla zmiennej losowej
i=1 xi ;
c) Uzywajac powyzszego rozkladu Gaussa pokaz, ze
minimalna wartosc dlugosci proby n potrzebna aby
poziom istotnosci α = 0.05 oraz prawdopodobienstwo
bledu II rodzaju ≤ 0.1 wynosi okolo 213.
2. Niech niezalezne x1 , ..., xn maja rozklad
f (xi |λ) =
1 −λ|xi |
λe
2
1. Z kazdej z 6 paczek nasion wybrano losowo po 100
nasion, a nastepnie je zasadzono i podlano. W kazdej z
6 probek nie wzeszla pewna liczba nasion, odpowienio
12, 20, 9, 17, 24, 16
Przetestuj hipoteze, ze proporcja niekielkujacych nasion
w kazdej paczce jest taka sama.
2. Nowa metode terapii wyprobowano na 1100 pacjentach. W tym samym czasie innych 1100 pacjentow leczono stara metoda. Sposrod pacjentow leczonych nowa
metoda wyleczono 505, a pozostalych 1100-505=595
zmarlo. Sposrod pacjentow leczonych stara metoda
wyzdrowialo 195, a zmarlo 1100-195=905. Przetestuj
hipoteze, ze obie formy terapii sa jednakowo skuteczne.
3. W losowej probie 59 osob z planety X jest 19
niebieskookich mezczyzn, 10 brazowookich mezczyzn, 9
niebieskookich kobiet, oraz 21 brazowookich kobiet.
a) Przetestuj hipoteze, ze na planecie X plec i kolor
oczu nie sa ze soba skorelowane. Przyjmij poziom istotnosci α = 5% oraz 1%.
b) Przetestuj hipoteze, ze pij = 41 niezaleznie od plci
(i) ani koloru oczu (j) na poziomie istotnosci α = 5%.
c) Porownaj wyniki testow a i b i wyjasnij paradoks.
4. Maszyna produkuje 3 rodzaje elementow plastikowych (Made in China) pakujac je do opakowan zawierajacych po jednym z kazdych elementow. Wyprodukowano 512 opakowan. Okazalo sie, ze 213 opakowan
nie zawieralo usterek, 228 zawieralo 1 wadliwy element,
57 zaweiralo 2 buble, a 14 opakowan zawieralo 3 wadliwe
elementy. Przetestuj hipoteze, ze kazdy z 3 elemetow ma
takie samo nieznane prawdopodobienstwo wadliwosci θ.
Uzywajac powyzszych zestawow danych dla starej i
nowej maszyny pakujacej, przeprowadzony zostaje test
2
2
2
hipotezy H0 : σnowa
= σstara
kontra H1 : σnowa
<
2
σstara o poziomie istotnosci α = 5%. Jakie jest prawdopodobienstwo, ze zostanie popelniony blad II rodzaju
tj. zostanie zachowana hipoteza H0 pomimo, ze jest falszywa i nowa maszyna jest lepsza.
Zestaw 13
1. Przeprowadzono eksperyment sprawdzajacy czy
temperatura wypalania cegly wplywa na gestosc cegly.
k = 4 grupy cegiel wypalano w temperaturach kolejno
110, 120, 130, 140 stopni Celcjusza. Zmierzono nastepujace gestosci poszczegolnych cegiel
Zestaw 12
1. Badanie n = 9 kawalkow stalowego drutu wykonanego z nowego stopu A dalo nastepujace wartosci
wytrzymalosci na zerwanie: 11.99, 12.02, 12.03, 12.09,
12.14, 12.16, 12.16, 12.16, 12.23. Uzywajac rozkladu Studenta przetestuj hipoteze, ze wytrzymalosc nowego stopu
A jest taka sama jak dotychczas uzywanego stopu o sredniej wytrzymalosci na zerwanie wynoszacej 12.10.
2. Nastepujace pary liczb to procentowe wydluzenia
przedzy pod wplywem standardowego obciazenia przed
praniem oraz po 6 praniach:
12.3, 15.7
13.7, 10.3
10.4, 12.6
11.4, 14.5
14.9, 12.6
12.6, 13.8
Czy na ich podstawie mamy prawo twierdzic, ze pranie
wplywa na rozciagliwosc przedzy?
3. Maszyna pakuje maslo w 250 gramowe kostki,
jednak masy poszczegolnych kostek nieco roznia sie od
wartosci nominalnej. W probie m = 13 kostek masla
stwierdzono nastepujace odchylenia
5, 8, 0, 3, −1, 1, 6, 5, 8, 4, 9, 0, 4.
Proponuje sie, aby te maszyne zastapic przez nowszy
model, ktory podobno ma mniejsze fluktuacje masy
kostki masla. W probie n = 12 kostek masla zapakowanych przez nowa maszyne stwierdzono nastepujace odchylenia od nominalnej masy 250g:
x1j
x2j
x3j
x4j
=
=
=
=
20.8, 20.9, 20.7, 20.6, 20.7,
20.6, 20.3, 20.2, 20.3, 20.5,
20.9, 20.8, 20.8, 20.7,
20.8, 20.9, 20.9, 20.4.
a) Zastosuj test F (rozklad Fishera-Snedecora), aby
sprawdzic rownosc wariancji;
b) Zastosuj ANOVA aby przetestowac rownosc srednich gestosci.
2. Zbiornik zostal podgrzany, a nastepnie umieszczono
go w pomieszczeniu o temperaturze 9 stopni Celcjusza.
Temperatura zbiornika zostala zmierzona zaraz po podgrzaniu oraz w odstepach jednominutowych. Uzyskano
nastepujace wyniki pomiarow (t,T):
(0, 100), (1, 82), (2, 60), (3, 50), (4, 40), (5, 32), (6, 28) .
Zastosuj do tych danych model regresji liniowej pamietajac, ze temperatura zmierza do temperatury 9 stopni
eksponencjalnie w czasie.
3. Zastosuj model regresji liniowej do nastepujacych
danych (x,y):
(−3, 114), (−3, 110), (−2, 111), (−1, 107), (0, 107),
(1, 108), (1, 104), (2, 105), (2, 103), (3, 101)
Znajdz przedzialy 95% ufnosci dla β, α oraz dla prawdziwej wartosci y gdy x = 1.
4. Do n = 10 punktow (xi , yi ) dopasowano prosta
metoda
p regresji liniowej. Wspolczynnik korelacji r =
Sxy / Sxx Syy = 0.95. Czy na poziomie istotnosci α =
0.05 nalezy odrzucic hipoteze, ze wspolczynnik regresji
β = 0?
5.
Korzystajac z wynikow zadania 3 przetestuj
hipoteze, ze β = 0 na poziomie istotnosci 0.05.
3, −2, 1, 4, 0, 2, 1, 5, 3, 2, 1, 4.
Zestaw 14
a) Czy na podstawie powyzszych dwoch zestawow
danych mozna twierdzic, ze nowa maszyna ma mniejsze
fluktuacje?
b) Przypuscmy, ze nowa maszyna ma faktycznie
2
2
.
mniejsza wariancje, na przyklad σnowa
= 13 σstara
1. Udowodnij indukcyjnie, ze rozklad χ2n (u) ma postac
n
χ2n (u) =
u 2 −1 e−u/2
.
2n/2 Γ(n/2)
2. Wyprowadz rozklad Studenta.
3.
Zalozmy, ze zmienna z ma rozklad FisheraSnedecora Fm,n (z). Pokaz, ze zmienna w = 1/z ma rozk-
lad Fn,m (w).
4. Wyprowadz rozklad Fishera-Snedecora.