Jacek Dziarmaga1 1) Na odcinku [0,1] osi liczbowej umieszczono
Transkrypt
Jacek Dziarmaga1 1) Na odcinku [0,1] osi liczbowej umieszczono
Metody statystyczne - oficjalne zadania. http://th.if.uj.edu.pl/∼ufjacekd/statystyka-zadania.pdf(.ps) Jacek Dziarmaga1 1 Instytut Fizyki UJ, ul.Reymonta 4, 30-059 Kraków tel: 012-6635662 e-mail: [email protected] Zestaw 1 1) Na odcinku [0,1] osi liczbowej umieszczono losowo punkty A i B. Oblicz prawdopodobienstwo, ze punkt A bedzie blizej punktu B niz krancow przedzialu. 2) Wybrano 3 losowe punkty na okregu. Pokaz, ze prawdopodobienstwo znalezienia ich w tej samej polowce okregu wynosi 3/4. 3) Rzucono dwie rzetelne kostki do gry. Jakie jest prawdopodobienstwo warunkowe, ze wypadly dwie piatki, jesli wiadomo, ze suma oczek na obu kostkach jest liczba podzielna przez 5. 4) Sposrod rodzacych sie blizniakow 32% to dwaj chlopcy, a 28% to dwie dziewczynki. Znajdz warunkowe prawdopodobienstwo P, ze w rodzinie majacej blizniaki dwojka dzieci to chlopcy, jesli wiadomo, ze wsrod dzieci jest jeden chlopak. 5) Przychodzimy na przystanek, na ktory w odstepach 4 minut przyjezdza autobus linii A, a w odstepach 6 minut autobus linii B. Zakladajac, ze autobusy kursuja niezaleznie od siebie, znajdz prawdopodobienstwo P, ze a) pierwszy autobus jaki przyjedzie bedzie linii A, b) w ciagu nastepnych 3 minut przyjedzie jakis autobus lub nawet dwa. Zestaw 2 1) Obliczyc srednia i wariancje rozkladu Poissona P (k|µ) = µk −µ e . k! 2) Obliczyc wariancje rozkladu Bernoulliego n B(k|n, p) = k pk (1 − p)n−k . 1 3) Dany jest rozklad jednorodny f (x) = b−a w b+a przedziale x ∈ (a, b). Pokazac, ze srednia E(x) = 2 , a 2 wariancja var(x) = (b−a) 12 . 4) Automat produkuje kulki o promieniu r opisanym rozkladem jednostajnym w przedziale (a, b). Znajdz rozklad f (V ) objetosci kulek oraz rozklad g(S) powierzchni kulek. Naszkicuj rozklady. 5) Znajdz rozklad g(u) zmiennej losowej u = x1 + x2 , gdzie xi sa zmiennymi niezaleznymi o jednorodnym rozkladzie w przedziale [0, 1]. Znajdz roklad h(v) dla iloczynu v = x1 x2 . 6) Zmienne losowe x i y sa opisane rozkladem f (x, y) ∼ x+y 2 okreslonym na jednostkowym kwadracie 0 ≤ x, y ≤ 1. Podaj rozklady brzegowe dla x i y. Zestaw 3 1) Niech niezalezne zmienne x1 , x2 maja rozklad jednorodny w przedziale [0, 1]. Pokaz, ze zmienne y1 , y2 dane transformacja Box-Muller p −2 ln x1 cos(2πx2 ) , p = −2 ln x1 sin(2πx2 ) , y1 = y2 sa zmiennymi niezaleznymi o standardowym rokladzie Gaussa N (yi |0, 1). 2) Jak uzyskac generator rozkladu N (y|µ, σ 2 ) ? 3) Generator Box-Muller’a w (1) moze sprawiac problemy numeryczne, bo • jest niestabilny gdy x1 jest bliskie 0, • jest powolny, gdyz zbyt czesto odwoluje sie do biblioteki funkcji matematycznych. Dlatego lepiej uzywac ,,wersji polarnej” generatora Box-Muller’a: float x1, x2, w, y1, y2; do { x1 = 2.0 * ranf() - 1.0; x2 = 2.0 * ranf() - 1.0; w = x1 * x1 + x2 * x2; } while ( w >= 1.0 ); w = sqrt( (-2.0 * ln( w ) ) / w ); y1 = x1 * w; y2 = x2 * w; gdzie ranf() to procedura, ktora daje liczbe pseudolosowa o jednorodnym rozkladzie w przedziale [0, 1]. Pokazac, ze podobnie jak w (1) zmienne y1 , y2 sa niezaleznymi standardowymi zmiennymi gaussowskimi. Zestaw 4 1) W ponizszych przykladach a,b,c znajdz funkcje wiarygodnosci L i pokaz, ze podana w nawiasie statystyka T (x) jest statystyka wystarczajaca dla parametru θ. Znajdz takze estymator najwiekszej wiarygodnosci θ̂ i sprawdz, ze jest on funkcja statystyki wystarczajacej T (x). Sprawdz czy znaleziony estymator najwiekszej wiarygodnosci θ̂ jest obciazony i jesli jest asymptotycznie nieobciazony, to znajdz estymator nieobciazony. a) x1 , .., xn to niezalezne zmienne losowe o rozkladzie Poissona. Srednia rozkladu dla zmiennej xi PPoissona n wynosi iθ z θ > 0. (T (x) = i=1 xi ) b) x1 , .., xn to niezalezne zmienne losowe o rozkladzie Gaussa N (xi |θ, σi2 ). Wariancje σi2 sa znane. (T (x) = Pn 2 i=1 xi /σi ) c) x1 , .., xn to niezalezne zmienne losowe o rozkladzie wykladniczym f (xi |θ) = θe−θxi dla xi > 0. (T (x) = Pn i=1 xi ) Pominac test obciazenia estymatora. 2) W eksperymencie genetycznym na probie n osobnikow znaleziono odpowiednio a, b, c osobnikow (a + b + c = n) o genotypach GG, Gg, gg. Czestosc wystepowaθ nia genu G wynosi 1+θ o nieznanym θ. Zaklada sie, ze badani osobnicy nie sa spokrewnieni oraz, ze oba geny u kazdego osobnika sa niezalezne. Znalezc estymator najwiekszej wiarygodnosci dla θ. Zestaw 5 1) Niech x1 , ..., xn beda zmiennymi niezaleznymi o rozkladzie jednorodnym w przedziale (θ, 2θ). a) Pokaz, ze statystyka wystarczajaca dla θ jest T (x) = (min xi , max xi ); b) Znajdz estymator najwiekszej wiarygodnosci. Czy to jest estymator obciazony? c) Pokaz, ze θ̂ = 23 x1 jest nieobciazonym estymatorem θ. d) Znajdz nieobciazony estymator θ bedacy funkcja T (x) o srednim kwadratowym bledzie niewiekszym niz sredni kwadratowy blad estymatora θ̂. 2) Niech k1 , ..., kn beda zmiennymi niezaleznymi o rozkladzie B(ki |1, p). a) Pokaz, P ze statystyka wystraczajaca dla θ = (1 − p)2 jest T (k) = i ki oraz, ze estymator najwiekszej wiarygodnosci dla θ to (1 − T /n)2 . b) Estymator najwiekszej wiarygodnosci jest estymatorem obciazonym. Znajdz estymator bedacy funkcja statystyki wystarczajacej T bedacy estymatorem nieobciazonym. 3) Niech x1 , ..., xn beda zmiennymi niezaleznymi o rozkladzie wykladniczym f (x|λ) = λe−λx dla x ≥ 0. a) Znajdz statystyke wystarczajaca dla λ i jej rozklad prawdopodobienstwa. b) Znajdz estymator najwiekszej wiarygodnosci dla λ. Pokaz, ze jest on obciazony i znajdz wielokrotnosc tego estymatora bedaca estymatorem nieobciazonym. c) Znajdz estymator bedacy wielokrotnoscia estymatora najwiekszej wiarygodnosci o najmniejszym srednim kwadracie bledu. PWskazowka: Rozklad f (T ) dla zmiennej losowej T = i xi mozna wyliczyc z rozkladu f (xi ) dla niezaleznych xi za pomoca wzoru Z X xi ) f (x1 )...f (xn ) , f (T ) = dx1 ...dxn δ(T − i gdzie delte Diraca wygodnie jest zapisac jako Z ∞ dk ikz δ(z) = e 2π −∞ i najpierw wykonac calkowania po x1 ...xn a potem po k. λn T n−1 e−λT . Wynik wynosi f (T ) = (n−1)! Zestaw 6 1. Zmienna losowa ma rozklad jednorodny w przedziale (0, θ). Pokaz, ze T (x) = max xi jest statystyka wystarczajaca dla nieznanego θ oraz ze T (x) jest estymatorem najwiekszej wiarygodnosci. Pokaz, ze przedzial (T (x), T (x)/(1 − γ)1/n ) jest przedzialem 100γ% ufnosci dla θ. 2. Niech x1 ma rozklad N (x1 |θ1 , 1) a x2 ma rozklad N (x2 |θ2 , 1). θ1 i θ2 nie sa znane. a) Znajdz rozklad dla zmiennej (θ1 − x1 )2 + (θ2 − x2 )2 . b) Pokaz, ze obszary S = {(θ1 , θ2 ) : |θ1 − x1 | ≤ 2.236, |θ2 − x2 | ≤ 2.236} oraz C = {(θ1 , θ2 ) : (θ1 − x1 )2 + (θ2 − x2 )2 < 5.991} sa obszarami 95% ufnosci. 3. Niech x1 , ..., xn beda zmiennymi niezaleznymi o rozkladach Gaussa N (xi |θ, σi2 ) o znanych wariancjach σi2 . a) Znajdz estymator najwiekszej wiarygodnosci. b) Jaki jest jego rozklad prawdopodobienstwa? c) Znajdz przedzial 95% ufnosci dla θ. Zestaw 7 1. W trakcie komunikacji pomiedzy komputerami wystepuja bledy transmisji. Prawdopodobienstwo przeklamania wyslanego bitu wynosi ǫ. Przyjmujemy, ze prawdopodobienstwo wyslania bitu 0 (zdarzenie W0 ) wynosi p. a) Znajdz prawdopodobienstwo P (O1 ) odbioru bitu 1. b) Ile wynosi prawdopodobienstwo P (W1 |01 ), ze zostal wyslany bit 1, pod warunkiem, ze zostal odebrany bit 1? c) Ile wynosi P (W0 |O0 )? 2. Dane x1 , ...., xn pochodza z rozkladu f (xi |λ) = λe−λxi dla xi > 0 o nieznanej wartosci λ. Niech zaczatkowy rozklad dla λ bedzie dany przez f (λ) = µe−µλ . o nieznanym λ. a) Znajdz najlepszy test o poziomie istotnosci α hipotezy H0 : λ = λ0 kontra H1 : λ = λ1 ; b) Znajdz test ktory minimalizuje sume prawdopodobienstw bledow I i II rodzaju. Znalezc rozklad koncowy dla λ. Zestaw 10 Zestaw 8 1. Liczba defektow na tasmie magnetofonowej dana jest rozkladem rozkladem Poissona o sredniej λ. Przypuscmy, ze wiadomo iz λ moze byc rowna 1 albo 1.5. a) Jaki jest rozklad zaczatkowy dla λ? b) W probce 5 tasm znaleziono x = {3, 1, 4, 6, 2} defekty, jaki jest koncowy rozklad dla λ? 2. Dane 0 < x1 , ..., xn < 1 pochodza z rozkladu θxθ−1 o nieznanym θ. Niech zaczatkowy rozklad dla θ bedzie rowny f (θ) = β α θα−1 e−βθ , (α − 1)! gdzie α > 0 i β > 0. a) Znajdz rozklad koncowy f (θ|x1 , ..., xn ). b) Znajdz estymator punktowy dla θ przy kwadratowej funkcji bledu. 3. Zmienna x > 0 ma rozklad f (x|θ) = θ (θ + x)2 o nieznanym θ > 0. a) Znajdz najlepszy test o poziomie istotnosci α = 0.05 hipotezy konserwatywnej H0 : θ = 1 kontra hipoteza H1 : θ = 2; b) Pokaz, ze prawdopodobienstwo bledu II rodzaju wynosi 19/21. 1. Pokaz, ze dla rozkladu χ2n (u) a) E(u) = n, b) var(u) = 2n. 2. Niech x1 , ..., xn beda zmiennymi niezaleznymi o rozkladzie eksponencjalnym f (xi |θ1 ) = θ1 e−θ1 xi dla x > 0 o nieznanym parametrze θ1 > 0. Niech y1 , .., yn beda niezaleznymi zmiennymi o rozkladzie eksponencjalnym f (yi |θ2 ). a) Wylicz stosunek wiarygodnosci dla hipotezy alternatywnej H1 : θ1 6= θ2 do wiarygodnosci dla hipotezy konserwatywnej H0 : θ1 = θ2 . Pokaz, ze stosunek wiary(x̄+ȳ)2 godnosci jest funkcja statystyki T = (x̄) 2 (ȳ)2 . b) Korzystajac z twierdzenia, ze dla duzego n zmienna t = 2 ln L(H1 )/L(H0 ) ma rozklad χ2 skonstruuj test o poziomie istotnosci α. 3. Zaobserwowano dane x1 , ..., xn . Wiadomo, ze kazde xi pochodzi z rozkladu Poissona P (xi |λi ) o nieznanej sredniej λi . Trzeba przetestowac hipoteze konserwatywna H0 : λ1 = ... = λn kontra hipoteza alternatywna, ze srednie λi sa dowolne. a) Wylicz stosunek wiarygodnosci i pokaz, ze H0 powinno byc odrzucone przy duzych wartosciach P statystyki T (x) = 2 ni=1 xi ln(xi /x̄). b) Korzystajac z twierdzenia, ze dla duzego n zmienna t = 2 ln L(H1 )/L(H0 ) ma rozklad χ2 , sformuluj test o poziomie istotnosci α. c) Niech dane to (3, 5, 1, 6, 5) a poziom istotnosci α = 0.05. Czy H0 nalezy odrzucic? Zestaw 11 Zestaw 9 1. Niech x1 , ..., xn beda zmiennymi niezaleznymi o rozkladzie Poissona P (xi |θ) o nieznanej sredniej (i wariancji) θ. a) Znajdz najlepszy test o poziomie istotnosci α hipotezy H0 : θ = 1 kontra H1 : θ = 1.21; b) Uzywajac centralnego twiedzenia granicznego znajdz Pn przyblizony rozklad Gaussa dla zmiennej losowej i=1 xi ; c) Uzywajac powyzszego rozkladu Gaussa pokaz, ze minimalna wartosc dlugosci proby n potrzebna aby poziom istotnosci α = 0.05 oraz prawdopodobienstwo bledu II rodzaju ≤ 0.1 wynosi okolo 213. 2. Niech niezalezne x1 , ..., xn maja rozklad f (xi |λ) = 1 −λ|xi | λe 2 1. Z kazdej z 6 paczek nasion wybrano losowo po 100 nasion, a nastepnie je zasadzono i podlano. W kazdej z 6 probek nie wzeszla pewna liczba nasion, odpowienio 12, 20, 9, 17, 24, 16 Przetestuj hipoteze, ze proporcja niekielkujacych nasion w kazdej paczce jest taka sama. 2. Nowa metode terapii wyprobowano na 1100 pacjentach. W tym samym czasie innych 1100 pacjentow leczono stara metoda. Sposrod pacjentow leczonych nowa metoda wyleczono 505, a pozostalych 1100-505=595 zmarlo. Sposrod pacjentow leczonych stara metoda wyzdrowialo 195, a zmarlo 1100-195=905. Przetestuj hipoteze, ze obie formy terapii sa jednakowo skuteczne. 3. W losowej probie 59 osob z planety X jest 19 niebieskookich mezczyzn, 10 brazowookich mezczyzn, 9 niebieskookich kobiet, oraz 21 brazowookich kobiet. a) Przetestuj hipoteze, ze na planecie X plec i kolor oczu nie sa ze soba skorelowane. Przyjmij poziom istotnosci α = 5% oraz 1%. b) Przetestuj hipoteze, ze pij = 41 niezaleznie od plci (i) ani koloru oczu (j) na poziomie istotnosci α = 5%. c) Porownaj wyniki testow a i b i wyjasnij paradoks. 4. Maszyna produkuje 3 rodzaje elementow plastikowych (Made in China) pakujac je do opakowan zawierajacych po jednym z kazdych elementow. Wyprodukowano 512 opakowan. Okazalo sie, ze 213 opakowan nie zawieralo usterek, 228 zawieralo 1 wadliwy element, 57 zaweiralo 2 buble, a 14 opakowan zawieralo 3 wadliwe elementy. Przetestuj hipoteze, ze kazdy z 3 elemetow ma takie samo nieznane prawdopodobienstwo wadliwosci θ. Uzywajac powyzszych zestawow danych dla starej i nowej maszyny pakujacej, przeprowadzony zostaje test 2 2 2 hipotezy H0 : σnowa = σstara kontra H1 : σnowa < 2 σstara o poziomie istotnosci α = 5%. Jakie jest prawdopodobienstwo, ze zostanie popelniony blad II rodzaju tj. zostanie zachowana hipoteza H0 pomimo, ze jest falszywa i nowa maszyna jest lepsza. Zestaw 13 1. Przeprowadzono eksperyment sprawdzajacy czy temperatura wypalania cegly wplywa na gestosc cegly. k = 4 grupy cegiel wypalano w temperaturach kolejno 110, 120, 130, 140 stopni Celcjusza. Zmierzono nastepujace gestosci poszczegolnych cegiel Zestaw 12 1. Badanie n = 9 kawalkow stalowego drutu wykonanego z nowego stopu A dalo nastepujace wartosci wytrzymalosci na zerwanie: 11.99, 12.02, 12.03, 12.09, 12.14, 12.16, 12.16, 12.16, 12.23. Uzywajac rozkladu Studenta przetestuj hipoteze, ze wytrzymalosc nowego stopu A jest taka sama jak dotychczas uzywanego stopu o sredniej wytrzymalosci na zerwanie wynoszacej 12.10. 2. Nastepujace pary liczb to procentowe wydluzenia przedzy pod wplywem standardowego obciazenia przed praniem oraz po 6 praniach: 12.3, 15.7 13.7, 10.3 10.4, 12.6 11.4, 14.5 14.9, 12.6 12.6, 13.8 Czy na ich podstawie mamy prawo twierdzic, ze pranie wplywa na rozciagliwosc przedzy? 3. Maszyna pakuje maslo w 250 gramowe kostki, jednak masy poszczegolnych kostek nieco roznia sie od wartosci nominalnej. W probie m = 13 kostek masla stwierdzono nastepujace odchylenia 5, 8, 0, 3, −1, 1, 6, 5, 8, 4, 9, 0, 4. Proponuje sie, aby te maszyne zastapic przez nowszy model, ktory podobno ma mniejsze fluktuacje masy kostki masla. W probie n = 12 kostek masla zapakowanych przez nowa maszyne stwierdzono nastepujace odchylenia od nominalnej masy 250g: x1j x2j x3j x4j = = = = 20.8, 20.9, 20.7, 20.6, 20.7, 20.6, 20.3, 20.2, 20.3, 20.5, 20.9, 20.8, 20.8, 20.7, 20.8, 20.9, 20.9, 20.4. a) Zastosuj test F (rozklad Fishera-Snedecora), aby sprawdzic rownosc wariancji; b) Zastosuj ANOVA aby przetestowac rownosc srednich gestosci. 2. Zbiornik zostal podgrzany, a nastepnie umieszczono go w pomieszczeniu o temperaturze 9 stopni Celcjusza. Temperatura zbiornika zostala zmierzona zaraz po podgrzaniu oraz w odstepach jednominutowych. Uzyskano nastepujace wyniki pomiarow (t,T): (0, 100), (1, 82), (2, 60), (3, 50), (4, 40), (5, 32), (6, 28) . Zastosuj do tych danych model regresji liniowej pamietajac, ze temperatura zmierza do temperatury 9 stopni eksponencjalnie w czasie. 3. Zastosuj model regresji liniowej do nastepujacych danych (x,y): (−3, 114), (−3, 110), (−2, 111), (−1, 107), (0, 107), (1, 108), (1, 104), (2, 105), (2, 103), (3, 101) Znajdz przedzialy 95% ufnosci dla β, α oraz dla prawdziwej wartosci y gdy x = 1. 4. Do n = 10 punktow (xi , yi ) dopasowano prosta metoda p regresji liniowej. Wspolczynnik korelacji r = Sxy / Sxx Syy = 0.95. Czy na poziomie istotnosci α = 0.05 nalezy odrzucic hipoteze, ze wspolczynnik regresji β = 0? 5. Korzystajac z wynikow zadania 3 przetestuj hipoteze, ze β = 0 na poziomie istotnosci 0.05. 3, −2, 1, 4, 0, 2, 1, 5, 3, 2, 1, 4. Zestaw 14 a) Czy na podstawie powyzszych dwoch zestawow danych mozna twierdzic, ze nowa maszyna ma mniejsze fluktuacje? b) Przypuscmy, ze nowa maszyna ma faktycznie 2 2 . mniejsza wariancje, na przyklad σnowa = 13 σstara 1. Udowodnij indukcyjnie, ze rozklad χ2n (u) ma postac n χ2n (u) = u 2 −1 e−u/2 . 2n/2 Γ(n/2) 2. Wyprowadz rozklad Studenta. 3. Zalozmy, ze zmienna z ma rozklad FisheraSnedecora Fm,n (z). Pokaz, ze zmienna w = 1/z ma rozk- lad Fn,m (w). 4. Wyprowadz rozklad Fishera-Snedecora.