Elementy statystyki opisowej, podstawowe pojęcia statystyki
Transkrypt
Elementy statystyki opisowej, podstawowe pojęcia statystyki
Metody probabilistyczne i statystyka Wykład Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki Szczecińskiej 6 Metody probabilistyczne i statystyka Wykład 6 18. Elementy statystyki opisowej Statystyka z łac. status (państwo) – od niemieckiego uczonego Gottfrieda Achenwalla z połowy XVIII w. – oznaczało gromadzenie przetwarzanie wykorzystywanie danych przez państwo Wykorzystanie spisów ludności i zasobów materialnych do celów fiskalnych i wojennych ( Chiny 2000 lat p.n.e. oraz starożytny Rzym) Cel analizy statystycznej przetworzenie dużej liczby danych do przejrzystej postaci interpretacja danych uogólnienie danych Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Populacja generalna Populacja (zbiorowość) generalna – zbiór elementów (jednostek statystycznych), podlegających badaniu ze względu na jedną lub więcej cech, o ile istnieje co najmniej jedna właściwość (cecha) wspólna dla wszystkich jego elementów, kwalifikująca je do tego zbioru istnieje co najmniej jedna właściwość, ze względu na którą elementy tego zbioru mogą różnić się między sobą Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Cechy statystyczne Rodzaje cech statystycznych mierzalne (ilościowe) – np. wzrost, waga, wiek – dadzą wyrazić się za pomocą jednostek miary w skali przedziałowej – jednostki można uporządkować i określić różnice między nimi ilorazowej – jednostki można uporządkować i określić różnice oraz stosunki między nimi niemierzalne (jakościowe) – nie dadzą się jednoznacznie scharakteryzować za pomocą liczb, można je wyrazić w skali nominalnej – jednostki są przydzielane do odpowiednich kategorii – np. płeć, miejsce pracy, miejsce urodzenia, grupa krwi porządkowej – jednostki można uporządkować – np. wykształcenie, czy cechy, których natężenie określane jest stopniowaniem przymiotników Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Badania statystyczne Rodzaje badań statystycznych kompletne (pełne, całkowite, wyczerpujące) – zbadane są wszystkie jednostki danej populacji – np. spis powszechny, ewidencja urodzeń i zgonów częściowe (niepełne) – zbadany jest skończony podzbiór populacji generalnej, zwany populacją próbną lub próbką Wady badań kompletnych kosztowność czasochłonność niecelowość przy badaniach niszczących niewykonalność z powodu nieskończonej liczby jednostek zbiorowości generalnej, np. w statystyce demograficznej Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Populacja próbna Populacja próbna stanowi dobrą reprezentację populacji generalnej, gdy zróżnicowanie wartości cechy w populacji próbnej i generalnej jest podobne Osiąga się to przez losowanie, które może być niezależne (ze zwracaniem) zależne (bez zwracania) indywidualne (losujemy jeden element) zespołowe (losujemy grupę elementów) jednostopniowe wielostopniowe nieograniczone (z całej populacji) ograniczone (z części populacji) Próbka losowa prosta – losowanie jednostek populacji jest indywidualne, nieograniczone i niezależne Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Szereg statystyczny, statystyka opisowa Szereg statystyczny, próbka wartości cechy, n-elementowa próbka statystyczna – skończony ciąg wartości cechy (x1,…, xn) otrzymany dla próbki losowej Szereg statystyczny prosty – szereg statystyczny uporządkowany niemalejąco Szereg rozdzielczy punktowy – różnym wartościom cechy skokowej przyporządkowujemy liczbę ich wystąpień lub częstości względne Szereg rozdzielczy przedziałowy – wartościom cechy ciągłej przyporządkowujemy liczbę ich wystąpień w określonych przedziałach zmienności lub częstości względne Liczba klas k ∈ 12 n , n lub k ≤ 5ln n lub k ≤ 1 + 3,322ln n Statystyka opisowa – wstępne opracowanie próbki bez posługiwania się rachunkiem prawdopodobieństwa Opis statystyczny jest badaniem wystarczającym, gdy zbadana jest cała zbiorowość generalna Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Statystyka a rachunek prawdopodobieństwa Tablica 18.1. Analogie statystyki i rachunku prawdopodobieństwa Rachunek prawdopodobieństwa Zbiór zdarzeń elementarnych Zmienna losowa Prawdopodobieństwo Funkcja gęstości Dystrybuanta Statystyka Populacja generalna Cecha mierzalna Częstość względna Łamana częstości Dystrybuanta empiryczna Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 19. Podstawowe pojęcia i rozkłady statystyki matematycznej Statystyka matematyczna – opis i analiza zjawisk masowych przy użyciu metod rachunku prawdopodobieństwa Założenia i cel brak pełnej znajomości rozkładu zmiennej losowej (cechy statystycznej) uogólnienie wyników badania próbnego na całą populację Najważniejsze formy wnioskowania statystycznego estymacja (ocena) nieznanych parametrów, bądź ich funkcji, które charakteryzują rozkład badanej cechy populacji na podstawie rozkładu empirycznego weryfikacja hipotez statystycznych, tj. sprawdzanie określonych przypuszczeń wysuniętych w stosunku do parametrów lub rozkładów populacji generalnej Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Statystyczna próba i próbka X – zmienna losowa, określona na przestrzeni probabilistycznej Ciąg zmiennych losowych (X1,…, Xn) nazywamy n-elementową statystyczna próbą prostą dla zmiennej losowej X, jeśli (19.1) zmienne X1,…, Xn są niezależne (19.2) rozkład każdej zmiennej Xn , i = 1,…,n jest taki sam jak rozkład zmiennej X Ciąg (x1,…, xn) dowolnych wartości zmiennych losowych X1,…, Xn nazywamy n-elementową statystyczną próbką Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Pojęcie statystyki (X1,…, Xn) – próba statystyczna dla zmiennej losowej X Statystyka to dowolna funkcja tej próby, tj. zmienna losowa Un = g (X1,…, Xn) gdzie g : » n → R jest funkcją borelowską Pewne założenia pozwalają określić rozkłady niektórych statystyk (19.3) Twierdzenie Jeśli X1,…, Xn są niezależnymi zmiennymi losowymi o rozkładzie N(m,σ), to średnia arytmetyczna z próby 1 n X = ∑ i =1 X i n σ ma rozkład normalny N m, n (19.4) Wniosek Ze wzrostem liczebności próby, odchylenie standardowe statystyki X maleje Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Rozkłady niektórych statystyk Jeśli U1,…, Un są niezależnymi zmiennymi losowymi o rozkładzie N(0,1), to statystyka χ 2 = U 12 + U 22 + ... + U n2 jest zmienną losową o rozkładzie χ2 z n stopniami swobody (19.5) Własności Eχ 2 = n a) b) D 2 χ 2 = 2n c) f ( x) n =1 n=3 Rozkład χ2 jest zbieżny do rozkładu normalnego n − duże 0 x Rys.19.1. Wykres gęstości rozkładu χ2 w zależności od n Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Rozkłady niektórych statystyk U – zmienna losowa o rozkładzie normalnym N(0,1), Z 2 – zmienna losowa o rozkładzie χ2 z n stopniami swobody Jeśli zmienne U i Z są niezależne, to zmienna losowa U t= n Z ma rozkład Studenta z n stopniami swobody f ( x) (19.6) Własności Et = 0 a) b) Rozkład Studenta jest zbieżny do rozkładu normalnego N(0,1) N (0,1) gęstość rozkładu Studenta 0 x Rys.19.2. Porównanie rozkładu normalnego i Studenta Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Rozkłady niektórych statystyk (19.7) Twierdzenie Jeśli X1,…, Xn są niezależnymi zmiennymi losowymi o rozkładzie normalnym N(m,σ) oraz 2 1 n 1 n 2 X = ∑ i =1 X i i S = ∑ i =1 ( X i − X ) n n to zmienna losowa X −m t= n −1 S ma rozkład Studenta z n – 1 stopniami swobody (19.8) Wniosek Gosset (pod pseudonimem Student) umożliwił badanie średniej arytmetycznej z próby bez znajomości odchylanie standardowego σ Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Rozkłady niektórych statystyk Jeśli Z12 i Z 22 są zmiennymi losowymi o rozkładzie χ2 z n1 i n2 stopniami swobody odpowiednio, to zmienna n2 Z 12 f ( x) F= n1Z 22 ma rozkład Fishera-Snedecora z n1 i n2 stopniami swobody (19.9) Własność 0 x n2 E(F ) = dla n2 > 2 Rys.19.3. Gęstość rozkładu F-S n2 − 2 (19.10) Twierdzenie Jeśli t jest zmienną losową o rozkładzie Studenta z n stopniami swobody, to zmienna losowa F = t2 ma rozkład Fishera-Snedecora z n1 = 1 i n2 = n stopniami swobody Opracowała Joanna Banaś Metody probabilistyczne i statystyka Wykład 6 Dziękuję za uwagę Opracowała Joanna Banaś