Elementy statystyki opisowej, podstawowe pojęcia statystyki

Transkrypt

Elementy statystyki opisowej, podstawowe pojęcia statystyki
Metody probabilistyczne i statystyka
Wykład
Elementy statystyki opisowej,
podstawowe pojęcia statystyki
matematycznej
Dr Joanna Banaś
Zakład Badań Systemowych
Instytut Sztucznej Inteligencji i Metod Matematycznych
Wydział Informatyki Politechniki Szczecińskiej
6
Metody probabilistyczne i statystyka
Wykład 6
18. Elementy statystyki opisowej
Statystyka z łac. status (państwo) – od niemieckiego uczonego Gottfrieda
Achenwalla z połowy XVIII w. – oznaczało
gromadzenie
przetwarzanie
wykorzystywanie
danych przez państwo
Wykorzystanie spisów ludności i zasobów materialnych do celów
fiskalnych i wojennych ( Chiny 2000 lat p.n.e. oraz starożytny Rzym)
Cel analizy statystycznej
przetworzenie dużej liczby danych do przejrzystej postaci
interpretacja danych
uogólnienie danych
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Populacja generalna
Populacja (zbiorowość) generalna – zbiór
elementów (jednostek statystycznych),
podlegających badaniu ze względu na jedną lub
więcej cech, o ile
istnieje co najmniej jedna właściwość (cecha) wspólna
dla wszystkich jego elementów, kwalifikująca je do tego
zbioru
istnieje co najmniej jedna właściwość, ze względu na
którą elementy tego zbioru mogą różnić się między sobą
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Cechy statystyczne
Rodzaje cech statystycznych
mierzalne (ilościowe) – np. wzrost, waga, wiek – dadzą wyrazić się
za pomocą jednostek miary w skali
przedziałowej – jednostki można uporządkować i określić różnice
między nimi
ilorazowej – jednostki można uporządkować i określić różnice oraz
stosunki między nimi
niemierzalne (jakościowe) – nie dadzą się jednoznacznie
scharakteryzować za pomocą liczb, można je wyrazić w skali
nominalnej – jednostki są przydzielane do odpowiednich kategorii – np.
płeć, miejsce pracy, miejsce urodzenia, grupa krwi
porządkowej – jednostki można uporządkować – np. wykształcenie, czy
cechy, których natężenie określane jest stopniowaniem przymiotników
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Badania statystyczne
Rodzaje badań statystycznych
kompletne (pełne, całkowite, wyczerpujące) – zbadane są wszystkie
jednostki danej populacji – np. spis powszechny, ewidencja urodzeń
i zgonów
częściowe (niepełne) – zbadany jest skończony podzbiór populacji
generalnej, zwany populacją próbną lub próbką
Wady badań kompletnych
kosztowność
czasochłonność
niecelowość przy badaniach niszczących
niewykonalność z powodu nieskończonej liczby jednostek
zbiorowości generalnej, np. w statystyce demograficznej
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Populacja próbna
Populacja próbna stanowi dobrą reprezentację populacji generalnej, gdy
zróżnicowanie wartości cechy w populacji próbnej i generalnej jest
podobne
Osiąga się to przez losowanie, które może być
niezależne (ze zwracaniem)
zależne (bez zwracania)
indywidualne (losujemy jeden element)
zespołowe (losujemy grupę elementów)
jednostopniowe
wielostopniowe
nieograniczone (z całej populacji)
ograniczone (z części populacji)
Próbka losowa prosta – losowanie jednostek populacji jest
indywidualne, nieograniczone i niezależne
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Szereg statystyczny, statystyka opisowa
Szereg statystyczny, próbka wartości cechy, n-elementowa próbka
statystyczna – skończony ciąg wartości cechy (x1,…, xn) otrzymany dla
próbki losowej
Szereg statystyczny prosty – szereg statystyczny uporządkowany
niemalejąco
Szereg rozdzielczy punktowy – różnym wartościom cechy skokowej
przyporządkowujemy liczbę ich wystąpień lub częstości względne
Szereg rozdzielczy przedziałowy – wartościom cechy ciągłej
przyporządkowujemy liczbę ich wystąpień w określonych przedziałach
zmienności lub częstości względne
Liczba klas k ∈ 12 n , n lub k ≤ 5ln n lub k ≤ 1 + 3,322ln n
Statystyka opisowa – wstępne opracowanie próbki bez posługiwania się
rachunkiem prawdopodobieństwa
Opis statystyczny jest badaniem wystarczającym, gdy zbadana jest cała
zbiorowość generalna
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Statystyka a rachunek prawdopodobieństwa
Tablica 18.1. Analogie statystyki i rachunku prawdopodobieństwa
Rachunek
prawdopodobieństwa
Zbiór zdarzeń
elementarnych
Zmienna losowa
Prawdopodobieństwo
Funkcja gęstości
Dystrybuanta
Statystyka
Populacja generalna
Cecha mierzalna
Częstość względna
Łamana częstości
Dystrybuanta empiryczna
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
19. Podstawowe pojęcia i rozkłady statystyki
matematycznej
Statystyka matematyczna – opis i analiza zjawisk masowych
przy użyciu metod rachunku prawdopodobieństwa
Założenia i cel
brak pełnej znajomości rozkładu zmiennej losowej (cechy
statystycznej)
uogólnienie wyników badania próbnego na całą populację
Najważniejsze formy wnioskowania statystycznego
estymacja (ocena) nieznanych parametrów, bądź ich funkcji, które
charakteryzują rozkład badanej cechy populacji na podstawie
rozkładu empirycznego
weryfikacja hipotez statystycznych, tj. sprawdzanie określonych
przypuszczeń wysuniętych w stosunku do parametrów lub
rozkładów populacji generalnej
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Statystyczna próba i próbka
X – zmienna losowa, określona na przestrzeni
probabilistycznej
Ciąg zmiennych losowych (X1,…, Xn) nazywamy
n-elementową statystyczna próbą prostą dla zmiennej
losowej X, jeśli
(19.1) zmienne X1,…, Xn są niezależne
(19.2) rozkład każdej zmiennej Xn , i = 1,…,n jest taki
sam jak rozkład zmiennej X
Ciąg (x1,…, xn) dowolnych wartości zmiennych losowych
X1,…, Xn nazywamy n-elementową statystyczną próbką
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Pojęcie statystyki
(X1,…, Xn) – próba statystyczna dla zmiennej losowej X
Statystyka to dowolna funkcja tej próby, tj. zmienna losowa Un = g (X1,…, Xn)
gdzie g : » n → R jest funkcją borelowską
Pewne założenia pozwalają określić rozkłady niektórych statystyk
(19.3) Twierdzenie
Jeśli X1,…, Xn są niezależnymi zmiennymi losowymi o rozkładzie N(m,σ), to
średnia arytmetyczna z próby
1 n
X = ∑ i =1 X i
n

σ 
ma rozkład normalny N  m,

n

(19.4) Wniosek
Ze wzrostem liczebności próby, odchylenie standardowe statystyki X maleje
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Rozkłady niektórych statystyk
Jeśli U1,…, Un są niezależnymi zmiennymi losowymi o rozkładzie
N(0,1), to statystyka
χ 2 = U 12 + U 22 + ... + U n2
jest zmienną losową o rozkładzie χ2 z n stopniami swobody
(19.5) Własności
Eχ 2 = n
a)
b)
D 2 χ 2 = 2n
c)
f ( x)
n =1
n=3
Rozkład χ2 jest zbieżny
do rozkładu normalnego
n − duże
0
x
Rys.19.1. Wykres gęstości rozkładu χ2
w zależności od n
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Rozkłady niektórych statystyk
U – zmienna losowa o rozkładzie normalnym N(0,1), Z 2 – zmienna
losowa o rozkładzie χ2 z n stopniami swobody
Jeśli zmienne U i Z są niezależne, to zmienna losowa
U
t=
n
Z
ma rozkład Studenta z n stopniami swobody
f ( x)
(19.6) Własności
Et = 0
a)
b)
Rozkład Studenta jest zbieżny
do rozkładu normalnego N(0,1)
N (0,1)
gęstość
rozkładu
Studenta
0
x
Rys.19.2. Porównanie rozkładu
normalnego i Studenta
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Rozkłady niektórych statystyk
(19.7) Twierdzenie
Jeśli X1,…, Xn są niezależnymi zmiennymi losowymi o rozkładzie
normalnym N(m,σ) oraz
2
1 n
1 n
2
X = ∑ i =1 X i i S = ∑ i =1 ( X i − X )
n
n
to zmienna losowa
X −m
t=
n −1
S
ma rozkład Studenta z n – 1 stopniami swobody
(19.8) Wniosek
Gosset (pod pseudonimem Student) umożliwił badanie średniej
arytmetycznej z próby bez znajomości odchylanie standardowego σ
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład 6
Rozkłady niektórych statystyk
Jeśli Z12 i Z 22 są zmiennymi losowymi o rozkładzie χ2 z n1 i n2
stopniami swobody odpowiednio, to zmienna
n2 Z 12
f ( x)
F=
n1Z 22
ma rozkład Fishera-Snedecora
z n1 i n2 stopniami swobody
(19.9) Własność
0
x
n2
E(F ) =
dla n2 > 2
Rys.19.3. Gęstość rozkładu F-S
n2 − 2
(19.10) Twierdzenie
Jeśli t jest zmienną losową o rozkładzie Studenta z n stopniami
swobody, to zmienna losowa
F = t2
ma rozkład Fishera-Snedecora z n1 = 1 i n2 = n stopniami swobody
Opracowała Joanna Banaś
Metody probabilistyczne i statystyka
Wykład
6
Dziękuję za uwagę
Opracowała Joanna Banaś