Metody analizy struktury zbiorowości
Transkrypt
Metody analizy struktury zbiorowości
Statystyka Opisowa z Demografia˛ oraz Biostatystyka Opisowa analiza struktury zjawisk statystycznych Aleksander Denisiuk [email protected] Elblaska ˛ Uczelnia Humanistyczno-Ekonomiczna ul. Lotnicza 2 82-300 Elblag ˛ Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 1 Opisowa analiza struktury zjawisk statystycznych Najnowsza wersja tego dokumentu dostepna ˛ jest pod adresem http://denisjuk.euh-e.edu.pl/ Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 2 Rozkład empiryczny • przyporzadkowanie ˛ kolejnym wartościom zmiannej xj odpowiadajaych ˛ im liczebnośi nj ◦ zamiast liczebnośi używane sa˛ także cz˛estotliwości wzgledne ˛ wj , wj = Pnj nk Pnj nk · 100% • odzwierciadla strukture˛ badanej zbiorowości z punktu widzenia określonej cechy • ustalany na podstawie konkretnych obserwacji Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 3 Rozkład empiryczny • cechy skokowej, cechy ciagłej ˛ ◦ jednomodalny ◦ bimodalny ◦ wielomodalny Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 4 Rozkład jednomodalny • symetryczny • normalny • asymetryczny ◦ prawostronny ◦ lewostronny • zbiorowości jednorodne Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 5 Rozkład empiryczny • skrajnie asymetryczny • siodłowy • zbiorowości skrajnie zróznicowane Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 6 Opisowe charakterystyki • miary średnie • miary rozproszenia • miary asymetrii • miary koncentracji Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 7 Opisowe charakterystyki • sa˛ bardziej syntetycznymi sposobami opisu rozkładów, niż forma graficzna lub tabelaryjna • pozwalaja˛ w sposób syntetyczny określić właściwości badanych rozkładów • pozwalaja˛ porównać: ◦ dwie różne zbiorowości pod wzgledem ˛ tej samej cechy badania ◦ różne cechy tej samej zbiorowości Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 8 Miary średnie • klasyczne ◦ średnia arytmetyczna ◦ średnia harmoniczna ◦ średnia geometryczna • pozycyjne ◦ dominanta (modalna, wartość najcz˛estsza) ◦ kwantyle • kwartyle • kwintyle • decyle • centyle (percentyle) Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 9 Średnia arytmetyczna • średnia nieważona (zwykła) • x̄ = x1 +x2 +···+xN N N P = xi i=1 N • średnia ważona ◦ wagi — liczebności wariantów ◦ x̄ = x1 n1 +x2 n2 +···+xk nk N k P = xi ni i=1 N Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 10 Średnia arytmetyczna. Przykład • osoba przepracowała w pieciu ˛ kolejnych dniach liczbe˛ godzin: 8, 3, 2, 10, 7. ◦ średnio 6 godzin • oblicz średnia˛ arytmetyczna˛ liczby dzieci na utrzymaniu zaobserwowanej w grupie liczacej ˛ 82 osób liczba dzieci ilość pracowników 0 34 1 26 2 11 3 10 4 1 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 11 Średnia arytmetyczna. Przykład, cd • osoba przepracowała w pieciu ˛ kolejnych dniach liczbe˛ godzin: 8, 3, 2, 10, 7. ◦ średnio 6 godzin • oblicz średnia˛ arytmetyczna˛ liczby dzieci na utrzymaniu zaobserwowanej w grupie liczacej ˛ 82 osób liczba dzieci ilość pracowników xi ni 0 34 0 1 26 26 2 11 22 3 10 30 4 1 4 ◦ średnio 1 dziecko Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 12 Szeregi rozdzielcze przedziałowe • środki przedziałów x̂ = • x̄ = x̂1 n1 +x̂2 n2 +···+x̂k nk N x− +x+ 2 k P = • wskaźniki struktury wi = • x̄ = k P x̂i ni i=1 N ni N · 100 x̂i wi i=1 100 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 13 Szeregi rozdzielcze. Przykład • średnia liczb podmiotów publicznych w gminach wiejsckich liczba podmiotów 5–9 10–14 15–19 20–24 25–29 liczba gmin 22 37 17 3 2 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 14 Szeregi rozdzielcze. Przykład, cd • średnia liczb podmiotów publicznych w gminach wiejsckich xD –xG 5–9 10–14 15–19 20–24 25–29 ni 22 37 17 3 2 x̂i 7 12 17 22 27 x̂i ni 154 444 289 66 54 ◦ x̄ = 12, 4 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 15 Średnia arytmetyczna • x̄i — średnia grupy i • średnia dla wszystkich grup łacznie: ¯= ˛ x̄ k P x̄i ni i=1 N Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 16 Średnia arytmetyczna. Właściwości • jest wypadkowa˛ wszystkich wartości zmiennych, oraz xmin 6 x̄ 6 xmax • suma odchyleń poszczególnych wartości od średniej arytmetycznej jest równa zeru N P ◦ (xi − x̄) = 0 (szereg wiliczajacy) ˛ i=1 ◦ ◦ k P (xi − x̄)ni = 0 (szereg rozdzielczy punktowy) i=1 k P (x̂i − x̄)ni = 0 (szereg rozdzielczy przedziałowy) i=1 • jeżeli wszystkie wartości pomniejszyć (powiekszyć, ˛ pomnożyć, podzielić) przez stała, ˛ to średnia arytmetyczna zostanie pomniejszona (powiekszona, ˛ pomnożona, podzielona) przez te˛ stała. ˛ Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 17 Średnia arytmetyczna. Właściwości, cd • jeżeli liczebności poszczególnych wariantów cechy sa˛ jednakowe, to średnia arytmetyczna równa sie˛ ilorazowi sumy wartości wariantów i ich liczby • suma wartości zmiennej jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowej, N P xi = N x̄ (szereg i=1 wiliczajacy) ˛ • jeżeli wszystkie wartości pomniejszyć (powiekszyć, ˛ pomnożyć, podzielić) przez stała, ˛ to średnia arytmetyczna zostanie pomniejszona (powiekszona, ˛ pomnożona, podzielona) przez te˛ stała. ˛ • na poziom śreniej arytmetycznej silny wpływ wywieraja˛ warości ekstremalne Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 18 Średnia arytmetyczna. Ograniczenia • jest miara˛ prawidłowa˛ tylko w odniesieniu do zbiorowości jednorodnych • w miare˛ wzrostu asymetrii i zróżnicowania, dla rozkładów bimodalnych i wielomodalnych średnia arytmetyczna traci poznawcza˛ wartość • nie można obliczyć dla szeregu o przedniałach otwartycch ◦ można domykać przedziały otwarte, jeżeli liczba jednostek w nich nie przekracza 5% Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 19 Średnia harmoniczna • jest odwrotnościa˛ średniej arytmetycznej odwrotności wartości zmiennych H = N N P 1 i=1 xi • dla szeregów rozdzielczych punktowych H = k P N 1 xi i=1 • dla szeregów rozdzielczych przedziałowych H = ni k P N 1 x̂i i=1 ni Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 20 Średnia harmoniczna • stosuje sie, ˛ jeżeli wartości podane sa˛ w jednostkach wzglednych ˛ (km/h, kg/osobe), ˛ wagi — w jednostkach, wystepuj ˛ acych ˛ w licznikach ◦ predkość ˛ (km/h), wagi w km ◦ gestość ˛ zaludnienia (obob/km2 ), wagi w osobach Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 21 Średnia harmoniczna. Przykład • załóżmy, że gestość ˛ zaludnienia w dwu 60-tysiecznych ˛ miastach wynosi odpowiednio 400 osób/km2 oraz 600 osób/km2 • jaka jest przecietna ˛ gestość ˛ zaludnienia? • (odp.: 480 osób/km2 ) Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 22 Średnia geometryczna √ • x̄g = n x1 x2 . . . xN = s N p • x̄g = N xn1 xn2 . . . xnk = 1 2 k N Q xi i=1 s N k Q i=1 xni i • stosuje sie˛ przy badaniu średniego tempa zmian zjawisk Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 23 Dominanta (modalna, wartość najczestsza) ˛ • taka wartość zmiennej, która w danym rozkładzie wystepuje ˛ najcz˛eściej ◦ tylko dla rozkładów jednomodalnych • w szeregach wyliczalnych i rozdzielczych punktowych jest wartościa˛ cechy • w szeregach rozdzielczych przedziałowych można określić tylko przedział ◦ konkretna wartość dominanty oblicza sie˛ jako nD −nD−1 D = xD + (nD −nD−1 )+(nD −nD+1 ) iD ◦ albo metoda˛ graficzna˛ • rozkład empiryczny jest jednomodalny • asymetria rozkładu jest umiarkowana • przedział w którym wystepuje ˛ dominanta oraz dwa sasiaduj ˛ ace ˛ maja˛ jednakowe rozpietości ˛ Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 24 Dominanta. Przykład • w przykładzie 12 dominanta˛ jest 0 dzieci • w przykładzie 14 dominanta˛ jest 12 podmiotów publicznych Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 25 Kwantyle • wartości, które dziela˛ zbiorowość na kokreślone cz˛eści pod wzgledem ˛ liczby jednostek ◦ szewregi musza˛ być uporzadkowane ˛ • kwartyle • decyle • centyle (percentyle) Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 26 Kwartyle • kwartyl pierwszy (dolny) —25% • kwartyl drugi (mediana, wartość środkowa) —50% • kwartyl trzeci (górny) —75% Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 27 Mediana • szeregi wyliczalne: Me = ( gdy N jest nieparzyste x N +1 , 1 2 2 x N + x N +1 , 2 2 gdy N jest parzyste • szeregi rozdzielcze punktowe: kumulacja Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 28 Mediana. Przykład • czas dojazdu do pracy: 35, 5, 20, 15, 30, 10, 60, 20, 45, 60 ◦ mediana: 25 minut • w przykładzie 12 ◦ mediana: 1 dziecko Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 29 Kwartyle. Szeregi rozdzielcze przedziałowe • Q1 = xQ1 + N 4 − k−1 P ni i=1 nQ1 • Q2 = M e = x M e + • Q3 = xQ3 + 3N 4 − k−1 P i=1 nQ3 iQ1 N 2 − k−1 P i=1 nM e ni iM e ni iQ3 • gdzie ◦ Q1 , Q2 , Q3 — odpowiednie kwartyle ◦ xQ1 , xM e , xQ3 — dolne granice przedziałów, w których znajduja˛ sie˛ odpowiednie kwartyle ◦ nQ1 , nM e , nQ3 — liczebności tych przedziałów ◦ iQ1 , iM e , iQ3 — rozpietości ˛ przedziałów ◦ k−1 P ni — sumy liczebności do klasy, w której znajduje sie˛ i=1 kwartyl Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 30 Uwagi o średnich • kwartyle moga˛ być wykorzystywane we wszystkich przypadkach • decyle i centyle oreślane sa˛ w sposób podobny • średnia arytmetyczna, dominanta i mediana sa˛ powiazane ˛ pewnymi zależnościami ◦ w przypadku umiarkowanie asymetrycznego rozkładu x̄ − D = 3(x̄ − M e) Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 31 Miary zmienności • dyspesja (rozproszenie) — zróżnicowanie jednostek ze wzgledu ˛ na wartości badanej cechy • miary pozycyjne ◦ empiryczny obszar zmienności (rozstep, ˛ amplituda wachań) ◦ odchylenie ćwiartkowe • miary klasyczne ◦ odchylenie standardowe ◦ wariancja ◦ odchylenie przecietne ˛ • współczynnik zmienności Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 32 Miary zmienności • bezwzgledne ˛ (absolutne) ◦ obszar zmienności ◦ wariancja ◦ odchylenie stadardowe ◦ odchylenie przecietne ˛ ◦ odchylenie ćwiartkowe • wzgledne ˛ (relatywne) ◦ współczynnik zmienności Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 33 Empiryczny obszar zmienności • R = xmax − xmin ◦ szereg wyliczalny ◦ szereg rozdzilczy — tylko przybliżono ◦ przedziały otwarte — niemożliwe ◦ wstepna ˛ orientacja Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 34 Odchylenie przecietne ˛ • d= 1 N • d= 1 N • d= 1 N N P i=1 k P i=1 k P i=1 |xi − x̄| |xi − x̄|ni |x̂i − x̄|ni Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 35 Odchylenie ćwiartkowe • Q= Q3 −Q1 2 • typowy obszar zmienności ◦ M e − Q 6 xtyp 6 M e + Q Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 36 Wariancja • s2 = 1 N • s2 = 1 N s2 1 N • = N P (xi − x̄)2 i=1 k P (xi − x̄)2 ni i=1 k P (x̂i − x̄)2 ni i=1 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 37 Wariancja. Właściwości • s2 = x2 − x̄2 i • jeżeli zbiorowość podzielić na k grup, to s2 = s2i + s2 (x̄i ) = k P i=1 s2i ni N k P + (x̄i −x̄)2 ni i=1 N • nieujemna i mianowana • wariancja obliczona na podstawie szeregów rozdzielczych przedziałowych jest zawyżona ◦ poprawka Shepparda s2 = 1 N k P (x̂ − x̄)2 ni − i=1 i2 12 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 38 Odchylenie standardowe √ • s = s2 • obszar typowy x̄ − s < xtyp < x̄ + s • odchylenia standardowe, ćwiartkowe oraz przecietne: ˛ Q<d<s Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 39 Odchylenie standardowe. Właściwości • obliczane na podstawie wszystkich obserwacji w danym szeregu • nie zmienia sie, ˛ jeżeli liczebności szeregu wyrazić w liczbach wglednych ˛ (procentach) • nie zmienia sie, ˛ jeżeli do wszystkich wartości zmiennej dodać pewna˛ stała˛ • jeżeli wszystkie wartości zmiennej pomnożyć przez pewna˛ dodatnia˛ stała, ˛ to odchylenie standardowe pomnoży sie˛ przez te˛ sama˛ stała˛ Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 40 Reguła trzech sigm • wprzypadku rozkładu normalnego (zbliżonego do normalnego) ◦ blisko trzecia cz˛eść obserwacji różni sie˛ od średniej arytmetycznej o wiecej ˛ niż ±s ◦ około jedna na 20 obserwacji przekracza te˛ średnia˛ od wielkość ±2s ◦ tylko jedna na 370 obserwacji przekracza średnia˛ arytmetyczna˛ o ±3s Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 41 Współczynnik zmienności • miara bezwzgledna ˛ • jest ilorazem bezwzglednej ˛ miary dyspersji oraz odpowiednich średnich ◦ klasyczne: • Vs = s · 100% x̄ • Vd = d · 100% x̄ ◦ pozycyjne: • VQ = Q · 100% Me • VQ1 Q3 = Q3 −Q1 Q3 +Q1 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 42 Współczynnik zmienności. Przykład • średnie miesieczne ˛ wpływy za świadczenie usług nolcegowych w trzech hotelach A, B i C były równe: x̄A = 600 000 zł., x̄B = 300 000 zł., x̄C = 500 000 zł. • odchylenia standardowe wynosiły sA = 110 000 zł., sB = 90 000 zł., sA = 120 000 zł. • w którym hotelu wystepuje ˛ najmniejsza dyspersja? ◦ Vs (A) = 110 · 100% = 18,3% ◦ Vs (B) = ◦ Vs (C) = 600 90 300 120 500 · 100% = 30,0% · 100% = 24,0% Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 43 Miary asymetrii • w rozkładach symetrycznych trzy średnie sa˛ równe: x̄ = D = M e • jeżeli x > M e > D, to rozkład charakteryzuje sie˛ asymetria˛ prawostronna˛ • jeżeli x < M e < D, to — asymetria˛ lewostronna˛ Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 44 Wskaźnik skośności (asymetrii) • Ws = x̄ − D ◦ w przypadku symetrii Ws = 0 ◦ w przypadku asymetri lewostronnej Ws < 0 ◦ w przypadku asymetri prawostronnej Ws > 0 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 45 Wskaźnik skośności a kwartyle • w przypadku symetrii (Q3 − Q2 ) − (Q2 − Q1 ) = 0 • w przypadku asymetri lewostronnej (Q3 − Q2 ) − (Q2 − Q1 ) < 0 • w przypadku asymetri prawostronnej (Q3 − Q2 ) − (Q2 − Q1 ) > 0 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 46 Wskaźnik skośności • jest bezwzgledn ˛ a˛ miara˛ aymetrii • określa jedynie kirunek asymetrii Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 47 Współczynnik asymetrii (skośności) • jest miara˛ niemieanowana˛ i unormowana˛ 1. As = 2. As = 3. As = x̄−D s x̄−D d (Q3 −Q2 )−(Q2 −Q1 ) (Q3 −Q2 )+(Q2 −Q1 ) = Q3 +Q1 −2M e 2Q • współczynniki 1 i 2 sa˛ wzajemie zamienne • (pozycyjny) współczynnik 3 jest stosowany, gdy nie możńa obliczyć dominanty czy średniej arytmetycznej Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 48 Współczynnik asymetrii. Przykład Wiek w latach xi−1 − xi 15–25 25–35 35–45 45–55 55–65 Razem: Liczba zatrudnionych ni 14 32 26 7 3 82 x̂i 20 30 40 50 60 × • D = 32,5 • As = 0,182 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 49 Współczynnik asymetrii. Przedział otwarty Miasta o liczbie ludności Liczba miast Skumulowana liczba miast xi−1 − xi ni ns i <2 000 43 43 2 000–4 999 235 278 5 000–9 999 181 459 10 000–19 999 179 638 20 000–49 999 139 777 50 000–99 999 51 828 100 000–199 999 22 850 200 000 i wiecej ˛ 20 870 Razem: 870 × • A(Q) = 0,463 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 50 Moment centralny rzedu ˛ trzeciego • moment trzeci • m3 = 1 N N P (xi − x̄)3 ni i=1 ◦ dla szeregów symetrycznych m3 = 0 ◦ dla lewostronnej asymetrii m3 < 0 ◦ dla prawostronnej asymetrii m3 > 0 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 51 Moment standardyzowany rzedu ˛ trzeciego • moment wzgledny ˛ • a3 = m3 s3 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 52 Moment trzeci. Przykład • w przykładzie 12: ◦ x̄ = 1 ◦ s = 1,07 ◦ m3 = 1,02 ◦ a3 = 0,833 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 53 Miary koncentracji • nierównomierny podział zjawiska w zbiorowości ◦ nierównomierny podział łacznego ˛ funduszu cechy pomiedzy ˛ poszczególne jednostki zbiorowości • koncentracja zbiorowości wokół średniej (kurtoza) • brak koncentracji • zupełna koncentracja Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 54 Wielobok koncentracji Lorenza • na osi odcietych ˛ — skumulowane czestości wzgledne ˛ (w %) • na osi rz˛ednych — procentowe skumulowane cz˛estości wzgledne ˛ łacznego ˛ funduszu cechy • krzywa Lorenza • przekatna ˛ kwadratu: linia równomiernego rozdziału • powierzchnia koncentracji • współczynnik koncentracji Lorenza k = a 5000 , gdzie a jest polem powierzchni koncentracji ◦ jest miara˛ niemianowana, ˛ 06k61 ◦ jeżeli k = 0, brak koncentracji ◦ jeżeli k = 1, to koncentracja zupełna Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 55 Wielobok koncentracji. Przykład Gminy o liczbie ludności (w tys.) Liczba gmin Łaczna ˛ liczba ludności poniżej 2 15 23,4 2–5 490 1 972,5 5–7 663 3 951,3 7–10 551 4 551,0 powyżej 10 351 4 364,3 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 56 !" # $ Wielobok koncentracji. Przykład • a = 1055, 395, k = 0,21 • koncentracja nie jest duża Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 57 Koncentracja obserwacji wokół średniej • należy porównać rozkład z normalnym • wykres bardziej wysmukły, niż krzywa normalna ◦ wieksze ˛ skupienie wartości wokół średniej ◦ leptokurtyczny rozkład • wykres bardziej spłaszczony, niż krzywa normalna ◦ mniejsza koncentracja wartości wokół średniej ◦ platokurtyczny rozkład Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 58 Miara nateżenia ˛ koncentracji wokół średniej • moment centralny czwartego rz˛edu m4 = 1 N k P (xi − x̄)4 ni i=1 • standardyzowany moment centralny czwartego rz˛edu a4 = m4 a4 ◦ dla rozkładu normalnego a4 = 3 ◦ dla rozkładu spłaszczonego a4 < 3 ◦ dla rozkładu wysmukłego a4 > 3 • dla rozkładów jednomodalnych określany jest eksces: a4 − 3 Statystyka Opisowa z Demografia˛ oraz Biostatystyka – p. 59