slajdy 6
Transkrypt
slajdy 6
Mikroekonometria
6
Mikołaj Czajkowski
Wiktor Budziński
'Nietypowe' zmienne objaśniane
Problemy mikroekonometryczne – często zmienna
objaśniana nie jest ciągła lub jej wartość nie ma
bezpośredniej interpretacji ilościowej
Zmienną objaśnianą jakiś wskaźnik o ocenzurowanych
wartościach – np. decyzja o zakupie, głosowanie, wybór
spośród dostępnych alternatyw, deklarowany poziom jakiejś
wielkości (w podanej skali) itp.
Wynikiem optymalizacji może być rozwiązanie brzegowe
Estymatory MNK nie są zgodne -> estymacja MNW
czaj.org
'Nietypowe' zmienne objaśniane
Przykłady modeli dla nieciągłych zmiennych objaśnianych
Wybór binarny (ang. binary choice)
Wybór jednej z dwóch możliwości
Np. podjęcie działania czy nie – dojazd transportem publicznym, kupno
ubezpieczenia
0/1 oznacza nie/tak
Wybór wielomianowy (ang. multinomial choice)
Wybór jednej z więcej niż dwóch możliwości
Tej, która dostarcza największej użyteczności
Pozwala modelować preferencje konsumentów
Np. wybór marki, produktu, sposobu dojazdu do pracy
0/1 oznacza nie wybraną/wybraną alternatywę
czaj.org
'Nietypowe' zmienne objaśniane
Przykłady modeli dla nieciągłych zmiennych objaśnianych
Wybór uporządkowany (ang. ordered choice)
Wybór jednej z wielkości na podanej skali
Ujawnia siłę preferencji
Wartości liczbowe są na skali porządkowej, nie absolutnej
Np. ocena filmu, własnego stanu zdrowia, zadowolenia z produktu, miejsce
w rankingu
4 oznacza lepiej niż 2, ale niekoniecznie 2 razy lepiej
Liczność zdarzeń (ang. event counts)
Obserwowane są wielkości całkowite
Np. liczba wizyt u lekarza, w parku narodowym, na basenie, liczba
zachorowań, aresztowań, dzieci, liczba wadliwych sztuk w procesie
produkcyjnym w ciągu roku
czaj.org
Modele binarne
Obserwujemy wynik (Y = 0 lub Y = 1)
Interesuje nas jak można go przewidywać
Prawdopodobieństwo Y = 0 / prawdopodobieństwo Y = 1
Funkcja zmiennych objaśniających X, Pr(Y) = Xβ
Jakie powinny być parametry (β)?
Jaka jest interpretacja takiego modelu?
Jaki jest wzór na to prawdopodobieństwo, jako funkcja Xβ?
W jaki sposób wykorzystać dane (obserwacje) do oszacowania β?
czaj.org
Modele binarne – modele dla zmiennej ukrytej
Modele binarne można zinterpretować jako modele
funkcji wskaźnikowej
Wyjaśniana jest losowa, ciągła zmienna y* ale obserwowana
jest tylko zmienna binarna y, która przyjmuje wartość 0 lub 1 w
zależności od tego, czy y* przekracza wartość graniczną (np.,
po normalizacji, 0)
∗
y = β′X + ε
y
∗
nie jest obserwowalne, obserwujemy tylko:
Pr [ y = 1|X ] = Pr y ∗ > 0
= Pr [β′X + ε > 0]
= Pr [ −ε < β′X ]
= F ( β′X )
jeśli y ∗ > 0
jeśli y ∗ ≤ 0
F jest dystrybuantą ε
1
y=
0
Zwykle o gęstości symetrycznej
względem 0
Pozostaje tylko wybrać
odpowiedni rozkład ε
czaj.org
Modele dla zmiennej ukrytej
Modele funkcji wskaźnikowej
Np. obserwujemy 1 gdy student nigdy nie miał żadnych warunków, 0
jeśli miał
Tworzymy funkcję wskaźnikową, w której y wyjaśniane jest
zmiennymi socjodemograficznymi studentów X (wiek, płeć, IQ,
dochód, rok studiów, …) i stałą
∗
′
Jeśli wybierzemy jakiś rozkład ε to wzór
na prawdopodobieństwo (dystrybuantę)
będzie znany
Stała pozwala znormalizować wartość
graniczną do 0
y =β X +ε
1
y=
0
Pr [ y = 1|X ] = Pr y ∗ > 0
O tym za chwilę -> logit, probit
Znając wzór na to prawdopodobieństwo
możemy zastosować jakąś metodę estymacji
parametrów β, która pozwala nam znaleźć takie
ich oszacowania, żeby nasz model najlepiej pasował do
obserwowanych wyników
jeśli y ∗ > 0
jeśli y ∗ ≤ 0
= Pr [β′X + ε > 0]
= Pr [ −ε < β′X ]
= F ( β′X )
O tym już było -> maksymalizacja funkcji największej wiarygodności
czaj.org
Modele binarne – normalizacja składnika losowego
Wariancja przyjętego rozkładu składnika losowego nie ma
znaczenia
y = 1 ⇔ β′X + ε > 0
ε ma średnią = 0 (jeśli model ma stałą to to też nie ma znaczenia) i
jakąś wariancję σ (nie wiadomo jaką)
Model będzie ten sam jeśli policzymy
y =1 ⇔
Co jest tożsame z
β′X
σ
+
ε
>0
σ
y = 1 ⇔ γ′X + w > 0
Gdzie w to jakiś rozkład o średniej 0 i wariancji 1
Można przyjąć wariancję = 1, przeskalują się tylko parametry, model
ten sam
Normalizacja wariancji (lub jednego z parametrów) jest konieczna dla
identyfikowalności modelu
czaj.org
Logit / probit
Typowo zakładane – składnik losowy (ε) ma rozkład:
Logistyczny
x−μ
exp −
σ
f (x) =
2
x − μ
σ 1 + exp −
σ
Nie ma to znaczenia, bo najwyżej parametry β będą większe, żeby
poziom 'losowości' był odpowiedni
Dystrybuanta
Λ(x) =
( x − μ )2
f (x) =
exp −
2
σ
2
σ 2π
1
Zakładamy rozkład standardowy (μ = 0, σ = 1)
Normalny
exp ( x )
1 + exp ( x )
Dystrybuanta
x
Φ ( x ) = φ ( z ) dz
−∞
Mamy wzór na Pr, który możemy wykorzystać w estymacji!
-> Model logit
-> Model probit
czaj.org
Rozkład logistyczny vs. normalny
czaj.org
Logit / probit / liniowy model prawdopodobieństwa
1.5
Predicted Probabilities Across Models
Actual Data (jittered)
1
Probit
0
.5
OLS
-.5
Predicted probability
Logit
-2
0
2
4
Log relative price (lnrelp)
czaj.org
Logit / probit – który wybrać?
Rozkład logistyczny – przypomina normalny (symetryczny
dzwon, trochę grubsze ogony), ale ma wzór na dystrybuantę w
postaci zamkniętej
Probit
Upraszcza obliczenia / umożliwia rozwiązanie analityczne
Pozwala interpretować parametry jako stosunek log-oddsów
Może być bardziej uzasadniony w przypadku normalnego rozkładu
zmiennej ukrytej
Praktycznie nie ma różnicy
Istnieją testy dla porównywania niezagnieżdżonych modeli, ale w tym
przypadku prawie zawsze nie dają jednoznacznego wyniku
Ponieważ logit ma grubsze ogony, w próbach w których obserwacje
są bardzo niesymetryczne (znacznie więcej 0 lub 1) lub jest bardzo
duża wariancja ważnej zmiennej objaśniającej – różnice mogą być
większe
czaj.org
Logit / probit – parametry
Ponieważ logit i probit wykorzystują różne funkcje
prawdopodobieństwa, oszacowania parametrów będą
różne
Jako 'reguła kciuka':
βˆlogit
βˆprobit
≈ 4 βˆMNK
≈ 2,5βˆ
βˆlogit
≈ 1,6 βˆprobit
MNK
Ale to oczywiście bardziej skomplikowane
Absolutne wartości parametrów i tak nie mają znaczenia
Nie tak jak w MNK!
Dlaczego? Bo parametry wykorzystywane w innych funkcjach
Jeśli już, to lepiej porównywać efekty krańcowe (pochodne)
Jak zmienne objaśniające wpływają na zmianę prawdopodobieństwa
danego wyboru
czaj.org
Logit / probit i inne modele dla wyboru binarnego
Inne rozkłady składnika losowego, które nie zakładają
symetryczności:
Gumbel, Gompit, Gompertz (ε ma rozkład wartości ekstremalnych)
CDF ( x ) = exp ( − exp ( − x ) )
Complementary log log
CDF ( x ) = 1 − exp ( − exp ( − x ) )
I inne (np. arctangens, burr (scobit), …)
Wyniki mogą się czasem znacznie różnić od wyników logitu i
probitu
Przydatne, gdy jeden z wyników jest rzadki
Np. mały odsetek 'tak' w próbie
czaj.org
Standardowy rozkład wartości ekstremalnych
czaj.org
Funkcje gęstości
.4 1 9
.3 3 5
PDF
.2 5 1
.1 6 8
.0 8 4
.0 0 0
-3
-2
-1
0
1
2
3
Z
D P R OB I T
D L OGI T
D C L OGL OG
D GOM P I T
czaj.org
Dystrybuanty
1 .0 0
.8 9
.7 8
CDF
.6 6
.5 5
.4 4
.3 3
.2 2
.1 1
.0 0
-3
-2
-1
0
1
2
3
Z
P R OB I T
L OGI T
C L OGL OG
GOM P I T
czaj.org
Estymacja – metoda największej wiarygodności
Zaobserwowaliśmy (Yi , X i ) , dla i = 1,..., N
Zmienna zależna (Yi) ma rozkład Bernoulliego (binarny z 1
powtórzeniem)
Funkcja prawdopodobieństwa masy
f (Yi |X i ) = piYi (1 − pi )
1 −Yi
Co się dzieje z tą funkcją gdy Yi = 1 ? A gdy Yi = 0 ?
Zawsze dostajemy pi lub (1 − pi )
U nas pi = F ( β′X ) więc
f (Yi |X i ) = F ( β′X i ) i (1 − F ( β′X i ) )
Y
1 −Yi
czaj.org
Estymacja – metoda największej wiarygodności
Funkcja prawdopodobieństwa masy
f (Yi |X i ) = F ( β′X i ) i (1 − F ( β′X i ) )
1 −Yi
Y
Obserwacje są niezależne. Jaka jest szansa, że dostaniemy
taki zbiór obserwacji, jaki mamy?
N
L ( β|dane ) = ∏ F ( β′X i ) i (1 − F ( β′X i ) )
Y
1 −Yi
i =1
Funkcja wiarygodności (ang. likelihood function)
Chcemy znaleźć takie β, żeby zmaksymalizować tę funkcję
Czyli, żeby nasz model miał takie parametry, żeby przewidywał
takie prawdopodobieństwa, które dają największą szansę
takiego wyniku, jaki dostaliśmy
czaj.org
Estymacja – metoda największej wiarygodności
Szukamy maksimum funkcji wiarygodności:
N
L ( β|dane ) = ∏ F ( β′X i ) i (1 − F ( β′X i ) )
Y
1 −Yi
i =1
Jest ono w tym samym punkcie, co maksimum logarytmu z
funkcji wiarygodności (logarytm to funkcja monotonicznie
rosnąca), a wygodniej maksymalizować coś takiego:
N
(
ln L ( β|dane ) = Yi ln F ( β′X i ) + (1 − Yi ) ln (1 − F ( β′X i ) )
i =1
)
W praktyce – dość prosto się liczy
Dla każdej obserwacji wziąć prawdopodobieństwo uzyskanego wyniku (tak
lub nie)
Zsumować
Zmaksymalizować funkcję po β
czaj.org
Estymacja – metoda największej wiarygodności*
Maksymalizacja
Liczymy pochodne
− f ( β′X i )
∂ ln L N Yi f ( β′X i )
=
+ (1 − Yi )
X i
∂β
1 − F ( β′X i )
i =1 F ( β′X i )
gdzie f ( β′X i ) jest funkcją gęstości, f ( β′X i ) = ∂F ( β′X i ) ∂ ( β′X i )
W zależności od wybranej formy F dostajemy np. logit lub
probit
czaj.org
Estymacja – metoda największej wiarygodności*
Dla modelu logit warunki konieczne to:
∂ ln L N
= (Yi − Λ ( β′X i ) ) X′i = 0
′
∂β
i =1
(
)
Czyli średnie oczekiwane prawdopodobieństwa muszą być
równe udziałowi 1 w obserwacjach
Pomyśl o (Yi − Λ ( β′X i ) ) jak o resztach w MNK
Hesjan też jest dość prosty do wyznaczenia:
N
∂ 2 ln L
H=
= − Λ ( β′X i ) (1 − Λ ( β′X i ) ) X′i X i
∂β′∂β
i =1
(
)
Do optymalizacji można wykorzystać metodę Newtona
czaj.org
Estymacja – metoda największej wiarygodności*
Dla modelu probit warunki konieczne to:
−φ ( β′X i )
φ ( β′X i )
∂ ln L
X′i +
X′i = 0
=
′
′
′
∂β Yi = 0 1 − Φ ( β X i ) Yi =1 Φ ( β X i )
A ponieważ jeśli rozkład jest symetryczny to 1 − F ( β′X i ) = F ( −β′X i )
∂ ln L N ( 2Yi − 1 ) φ ( ( 2Yi − 1 ) β′X i )
=
X′i = 0
∂β′ i =1
Φ ( ( 2Yi − 1 ) β′X i )
Hesjan modelu probit, korzystając z tego, że
dφ ( z )
dz
= − zφ ( z )
N ( 2Y − 1 ) φ ( 2Y − 1 ) β′X
′
(
∂ 2 ln L
i
i
i ) ( 2Yi − 1 ) φ ( ( 2Yi − 1 ) β X i )
= − −
+ β′X i X′i X i
H=
′X i )
′X i )
∂β′∂β
Φ
−
Φ
−
2
Y
1
2
Y
1
β
β
(
)
(
)
(
(
i =1
i
i
Do optymalizacji można wykorzystać metodę Newtona
czaj.org
2015-11-05 17:25:32
Macierz AVC estymatora MNW*
Jeśli znamy postać wartości oczekiwanej Hesjanu LL, to:
∂ 2 lnL ( θ 0 )
AVC ( θ 0 ) = −E 0
∂θ ∂θ ′
0
0
Można oszacować dla θ̂
Niestety zwykle jest to trudna nieliniowa funkcja danych o
nieznanej wartości oczekiwanej
Alternatywa 1:
−1
()
∂ ln L θˆ
∧
AVC θˆ = −
ˆ ∂θˆ ′
∂
θ
()
2
−1
Po prostu bierzemy Hesjan
Dla niektórych modeli wyznaczenie Hesjanu może być
skomplikowane lub czasochłonne
czaj.org
Macierz AVC estymatora MNW*
Aternatywa 2:
∧
∧
N
ˆ
AVC θ = gˆ i gˆ ′i
i =1
()
−1
gdzie
gˆ i =
(
∂ ln f X i , θˆ
∂ ln θˆ
)
Nie wymaga żadnych innych obliczeń poza tymi, które i tak
trzeba wykonać maksymalizując funkcję LL
Zawsze nieujemnie określony
Nazywany estymatorem BHHH
czaj.org
Estymacja – metoda największej wiarygodności
Estymację robią za nas zwykle pakiety statystyczne
Hesjan modelu logit/probit jest ujemnie określony
Funkcja LL jest globalnie wklęsła
Istnieje globalne maksimum
Estymator MNW jest zgodny
Ale jak widać jest to dość proste, da się policzyć na piechotę
Estymator MNK nie jest
Parametry mają asymptotyczny rozkład normalny
Asymptotyczna macierz wariancji-kowariancji
(ang. asymptotic variance covariance matrix, AVC) może być
oszacowana jako odwrotność hesjanu dla optymalnych
oszacowań MNW
Stąd mamy błędy standardowe parametrów
czaj.org
Przykład – posiadanie kochanka
Wczytaj projekt me.affairs.lpj
1.
2.
3.
Dane z ankiety 6366 mężatek (magazyn
Redbook)
Ile % kobiet w próbie miało
kiedykolwiek romans?
Sprawdź, jakie zmienne mogą
pomóc to przewidywać
LOGIT
; ... $
►
OLS – podaje także oszacowania
liniowego modelu
prawdopodobieństwa (używane jako
wartości startowe)
czaj.org
Przykład – posiadanie kochanka
Interpretacja wyników
Wartość funkcji LL
Wartość funkcji LL0
Liczba zmiennych
Liczba obserwacji
Oszacowania parametrów
Błędy standardowe
Statystyka z, p-value
95% przedział ufności
Asymptotyczna macierz wariancji-kowariancji
Logl_obs – indywidualny wkład obserwacji do funkcji LL
czaj.org
Wartość funkcji LL zawsze ujemna
Funkcja LL:
N
(
ln L ( β|dane ) = Yi ln F ( β′X i ) + (1 − Yi ) ln (1 − F ( β′X i ) )
i =1
)
Logarytm z prawdopodobieństwa (<1) zawsze ujemny
Funkcja LL zawsze ujemna
Osiąga teoretyczne maksimum w 0
czaj.org
Przykład 2 – zakup eko-jabłek
Wczytaj projekt me.apples.lpj
Oszacuj model, w którym gotowość
do zakupu dodatnich ilości ekojabłek wyjaśniana jest przez:
1.
2.
3.
Poziom edukacji respondenta
Cenę zwykłych jabłek
Cenę eko-jabłek
To, czy wybór dokonywany jest w sezonie
To czy respondent był mężczyzną
Dochód rodziny
Liczbę członków rodziny w każdej
kategorii wiekowej
Co dzieje się z modelem, jeśli
dodatkowo uwzględnić wielkość
rodziny?
czaj.org
Pomiar 'dopasowania' modelu
Po estymacji modelu zwykle raportowane są:
Wartość funkcji LL w optimum (w punkcie konwergencji)
Wartość funkcji LL 'w 0' (model wykorzystujący tylko stałą)
Odpowiada założeniu, że wszystkie parametry w modelu nieistotne
Nie ma miary R2 z MNK
Pewnym rozwiązaniem jest Pseudo-R2 (kilka wersji)
Miary oparte na wartości funkcji LL (wiele wersji):
1 − ln L ( β )
McFadden's pseudo-R =
Im model lepiej dopasowany tym R2 bliższe 1
2
ln L ( Y )
= 1 − ln L ln L0
∈[0,1)
Ale przedział między 0 a 1 nie ma interpretacji naturalnej
Nie wiemy, gdzie jest zero
Z powodu istnienia składnika losowego model nie osiąga 1
czaj.org
Pomiar 'dopasowania' modelu
Kryterium informacyjne Akaike (AIC)
AIC = 2k − 2ln L ( β )
AIC skorygowane (dla skończonej próby)
AICc = AIC +
2k ( k + 1 )
N − k −1
Bayesowskie kryterium informacyjne (BIC, Schwarza)
BIC = k ln N − 2ln L ( β )
Znormalizowane – podzielone przez N
Jak w modelu liniowym – nie jest to kryterium 'statystycznego'
porównania, ale często używane
Mówi, który model lepiej pasuje do danych
Nie mówi czy dobrze, o ile lepiej i czy istotnie lepiej
W porównaniu z pseudo-R2 przynajmniej bierze pod uwagę liczbę
zmiennych objaśniających
czaj.org
Pomiar 'dopasowania' modelu
Miary oparte na przewidywaniu prawdopodobieństw
(
1 N
BenAkiva i Lerman's pseudo-R = Yi Fˆ ( X i β ) + (1 − Yi ) 1 − Fˆ ( X i β )
N i =1
2
(
))
Średnie prawdopodobieństwo poprawnych predykcji
Problem gdy obserwacje w próbie są niesymetryczne
Miary oparte na przewidywaniu wyników
Tabela poprawnych i niepoprawnych predykcji
Błędy I i II typu – trade-off
Ile % poprawnych predykcji ma naiwna reguła Yi = 1?
; output = IC
; summarize
; limit = 0.5
czaj.org
Inne miary 'dopasowania'
ln L
Estrella's pseudo-R 2 = 1 −
ln
L
0
−2ln L0 N
R 2 − ML = 1 − exp ( − 2 (ln L0 − ln L ) N )
Efron = 1 − i =1
N
(
Yi − Pˆi
) (Y − Y )
2
i =1
N
Veal = McFadden's-R 2
−1
2ln L0
(
N
2
i
N
2
−
McFadden'sR
L
2ln
0
)
(
Cramer = średnia Pˆi |Yi = 1 − średnia Pˆi |Yi = 0
)
czaj.org
Przykład – eko-jabłka c.d.
1.
Sprawdź który model najlepiej dopasowany do danych
►
►
►
►
►
►
2.
►
Logit
Probit
Gompertz
Comploglog
Arctangent
Burr
Czy można to zrobić w oparciu o miary 'dopasowania'?
Inne subkomendy
► Keep = ... – zachowuje przewidywane wartości Yi
► Prob = ... – zachowuje prawdopodobieństwa
► Res = ... – zachowuje reszty {-1,1}
► List – wyświetla to wszystko
czaj.org
Praca domowa ME.6 – wydatki na lekarza w USA
Wczytaj projekt me.usahealth.lpj
Sprawdź czy następujące zmienne
mogą pomóc przewidzieć, czy ktoś
skorzystał z pomocy lekarskiej
1.
2.
‒
‒
‒
3.
Udział własny w kosztach opieki
medycznej
Stan zdrowia
Czynniki socjodemograficzne
Wybierz najlepszy model
Do przygotowania w grupach
trzyosobowych
czaj.org
2015-11-05 17:25:32