slajdy 11 - Czaj.org
Transkrypt
slajdy 11 - Czaj.org
Mikroekonometria
11
Mikołaj Czajkowski
Wiktor Budziński
Modele binarne – dane panelowe
Co jeśli mamy do dyspozycji dane panelowe?
Kilka obserwacji od tych samych respondentów, w różnych
punktach czasu (np. ankieta realizowana co roku)
Yit∗
Yit
= X it β + ε it
= 1 ( X it β + ε it > 0 )
; i = 1,..., N ; t = 1,..., Ti
Możemy spodziewać się korelacji składników losowych (ε) dla
tych samych osób / grup (nawet jeśli pomiędzy
osobami/grupami nadal będą niezależne)
Połączenie wszystkich danych i zignorowanie korelacji
powoduje problemy (estymator ML nie będzie zgodny)
Estymacja wszystkich korelacji wymaga szacowania
prawdopodobieństwa z Ti-mianowego rozkładu
Trudne z uwagi na charakter obserwowalnej zmiennej (0 lub 1) i
zwykle niewielką liczbę obserwacji dla osoby (Ti)
czaj.org
Modele binarne – dane panelowe
Alternatywna specyfikacja
Yit∗
= X it β + υit + ui
Yit
∗
it
= 1 (Y > 0 )
; i = 1,..., N ; t = 1,..., Ti
mierzy nieobserwowalną, specyficzną dla osoby
heterogeniczność
Forma zależności między ui a X it daje model z efektami
'losowymi' lub 'stałymi'
ui
Model z efektami losowymi – ui i X it niezależne
Narzuca restrykcje na rozkład heterogeniczności w populacji
Model z efektami stałymi – ui i X it mogą być skorelowane
Brak restrykcji, ale może powodować problem przypadkowych parametrów
Forma modelu nie oznacza, że efekty są takie czy inne – to tylko wybór
ekonometrycznego podejścia do problemu
czaj.org
Modele binarne – dane panelowe*
Model efektów losowych
Model efektów losowych zakłada, że
ε it = υit + ui
υit
i ui to niezależne zmienne losowe
E (υit |X ) = 0 ; Cov (υit ,υ js |X ) = Var (υit |X ) = 1 if i = j i t = s (0 w p.p.)
E ( ui |X ) = 0 ; Cov ( ui , u j |X ) = Var ( uit |X ) = σ u2 if i = j (0 w p.p.)
Cov (υit , u j |X ) = 0
Dla danych przekrojowych (cross-section, bez panelu)
krańcowe prawdopodobieństwo to:
Ui
Pr (Yi |X i ) = f ( ε i ) dε i
Li
( Li ,Ui ) = ( −∞ , −X i β )
gdzie
( Li ,Ui ) = ( −X i β, ∞ )
jeśli Yi = 0
jeśli Yi = 1
Probit – Φ ( ( 2Yi − 1) X i β ) , logit – Λ ( ( 2Yi − 1) X i β )
czaj.org
Modele binarne – dane panelowe*
Model efektów losowych
W ogólnym przypadku (przy braku restrykcji) wkład osoby (grupy)
i do funkcji LL to łączne prawdopodobieństwo Ti obserwacji
(
UiTi
Ui 1
) ... f (ε
Pr Yi 1 ,...,YiTi |X =
LiTi
i1
)
,..., ε iTi dε i 1 ...ε iTi
Li 1
Całkowanie takiej funkcji zwykle jest 'mało praktyczne'
Dla modelu efektów losowych można jednak dostać funkcje gęstości
poszczególnych υit wyciągając ui z łącznej gęstości ( ε i 1 ,..., ε iT , ui ) :
(
) (
)
i
f ε i 1 ,..., ε iTi , ui = f ε i 1 ,..., ε iTi |ui f ( ui )
(
) f (ε
f ε i 1 ,..., ε iTi =
i1
−∞
Wtedy dostajemy:
(
∞
UiTi
Ui 1 ∞
)
,..., ε iTi |ui f ( ui ) dui
Ti
) ... ∏ f (ε
Li = Pr Yi 1 ,...,YiTi |X =
LiTi
Li 1 −∞ t =1
it
|ui ) f ( ui ) dui dε i 1 ...ε iTi
czaj.org
Modele binarne – dane panelowe*
Model efektów losowych
Przedziały całkowania są niezależne, więc można
odwrócić kolejność
UiTi Ui 1 Ti
Li = Pr Yi 1 ,...,YiTi |X = ... ∏ f ( ε it |ui ) dε i 1 ...ε iTi
Li 1 t =1
−∞ LiTi
(
)
∞
f ( ui ) dui
A teraz elementy w nawiasie są niezależne, więc
Ti Uit
Li = Pr Yi 1 ,...,YiTi |X = ∏ f ( ε it |ui ) dε it f ( ui ) dui
−∞ t =1 Lit
(
)
∞
Wewnętrzna całka to to samo co dla zwykłego probit/logit
Zewnętrzna – wymaga założenia o rozkładzie ui
Inne metody estymacji (przybliżania wartości całek)
Kwadratura Gaussa-Hermite’a
Maksymalizacja symulowanej wartości funkcji ML (o tym później)
czaj.org
Przykład – opieka zdrowotna w Niemczech
1.
Wczytaj projekt me.gerhealth.lpj
2.
Skonstruuj model, w którym odbycie wizyty u lekarza
(Y = 1(docvis > 0)) wyjaśniane jest przez stałą, wiek, dochód, posiadanie
dzieci, liczbę lat edukacji i bycie w małżeństwie
Skonstruuj model traktując wszystkie obserwacje jako niezależne
1.
Dlaczego współczynniki przy dochodzie są takie dziwne?
Skonstruuj model efektów losowych
2.
Czy korelacje są istotne?
Dlaczego model konwerguje dłużej?
Porównaj wyniki
3.
Charakterystyki modeli, parametry, efekty krańcowe
SETPANEL
;
;
MODEL ;
;
;
group = <zmienna identyfikująca osoby>
pds = <liczba obserwacji dla osoby (zmienna)> $
...
panel
random effects $
czaj.org
Modele binarne – dane panelowe
Model efektów stałych
Model efektów losowych nakłada pewne restrykcje
Określony rozkład ui
Stałe korelacje pomiędzy okresami
Model efektów stałych
Yit∗
Yit
= α i dit + X it β + ε it
= 1 (Y > 0 )
∗
it
; i = 1,..., N ; t = 1,..., Ti
dit = 1 dla respondenta i, 0 w p.p. (w modelu jedna stała dla
każdej osoby)
Xit nie zawiera teraz stałej
Model wymaga estymacji dodatkowych N-1 parametrów!
Mogą ich być tysiące
czaj.org
Modele binarne – dane panelowe
Model efektów stałych
Funkcja LL dla modelu efektów stałych
N
T
ln L = lnPr (Yit |α i + X it β )
i =1 t =1
Krańcowe prawdopodobieństwo (Pr) może mieć jedną z form
poznanych wcześniej (np. logit, probit, …)
Funkcja nieco trudniejsza w estymacji (z powodu rozmiaru),
ale nie to jest głównym problemem
Problemy statystyczne
czaj.org
Modele binarne – dane panelowe
Model efektów stałych
Możliwe problemy statystyczne
W praktyce – zwykle Ti jest stałe i … małe
Każde αi szacowane na podstawie Ti obserwacji
Model może nie konwergować
Estymator β także może nie być zgodny, bo jest funkcją α
Obciążenie rzędu 100% (T = 2) – 10% (T = 8)
Problem przypadkowych parametrów
Model jest nieidentyfikowalny jeśli występują w nim zmienne
objaśniające, które nigdy nie zmieniają się z okresu na okres
Model jest nieidentyfikowalny dla obserwacji, dla których
zmienna objaśniana ma tę samą wartość w każdym okresie
(m.in. dla obserwacji dla których Ti = 1)
czaj.org
Przykład – opieka zdrowotna w Niemczech
Skonstruuj model efektów stałych
3.
Czy wszystkie obserwacje zostały wykorzystane?
MODEL
4.
;
;
;
;
Grupy o tej samej wartości zmiennej objaśnianej we wszystkich Ti
...
rhs = ... ? należy pominąć stałą
panel
fixed effects$
Skonstruuj model z efektem stałym dla osób i lat
jednocześnie
; time effects (= <zmienna określająca nr okresu>)
czaj.org
Praca domowa ME.11 (grupy 3-4-osobowe)
Dane zawarte w me.usahealth.lpj pochodzą z eksperymentu
społecznego w USA, w którym rodziny losowo przyporządkowano
do różnych rodzajów ubezpieczeń medycznych i przez kilka lat
zbierano dane o tym, jak z nich korzystają. Celem badania było
sprawdzenie, w jaki sposób wysokość udziału własnego
(coinsurance rate) wpływa na korzystanie z usług medycznych.
Proszę to zweryfikować.
1.
1.
2.
3.
4.
Uwzględniając panelowy charakter danych, skonstruuj model efektów
losowych wyjaśniający to, czy osoba skorzystała w danym roku z
wizyty u lekarza (mdu > 0).
Uwzględniając panelowy charakter danych, skonstruuj model efektów
losowych wyjaśniający to, czy osoba poniosła jakiekolwiek wydatki na
pozaszpitalną opiekę medyczną (med > 0).
Zbadaj, czy w powyższych modelach istnieją statystycznie istotne
efekty stałe dla lat. Czy w poszczególnych latach prawdopodobieństwa
wizyty u lekarza lub poniesienia kosztu na opiekę medyczną były takie
same?
Czy cel badania można osiągnąć stosując model efektów stałych?
czaj.org
Wybór uporządkowany – dane panelowe
Efekty stałe
yit∗ = δ i + X it β + ε it
yit = j dla α j −1 < yit∗ < α j
P ( yit = j |X i ) = F ( j , α , δ i + X it β ) − F ( j − 1, α , δ i + X it β )
Estymacja nie jest dużo bardziej skomplikowana
Funkcja ML jest wklęsła
Problemem – mała próba (problem przypadkowych
parametrów)
czaj.org
Case study – analiza odpowiedzi na pytania
światopoglądowe dotyczące Morza Bałtyckiego
Wykorzystaj zbiór me.baltic.lpj do przeanalizowania, jakie
charakterystyki respondentów pozwalają wyjaśnić ich odpowiedzi
na pytanie o ocenę stanu ekologicznego Bałtyku (envw)
2.
2.
Uzupełnij model o efekty stałe dla poszczególnych krajów (pseudo-panel)
ORDERED; lhs = ... ? zmienna o wartościach od 0 do J-1
; rhs = ...
(; model = logit ? opcjonalnie - domyślnie probit)
; ... $
►
►
Ręcznie:
► Dodaj zmienne binarne dla krajów (zamiast stałej)
Automatycznie (tu nie zadziała – zbyt dużo 'okresów'):
► Oszacuj model bez efektów stałych
► Oszacuj model z '; fixed effects'
► Dodaj '; pds = ...' - liczba obserwacji dla klastra (muszą
być po kolei; liczba lub zmienna)
► Ewentualnie '; time = ...' - efekty stałe dla okresów ('=
...' jest opcjonalne, zmienna z numerem okresu obserwacji)
czaj.org
Wybór uporządkowany – dane panelowe
Efekty losowe
yit∗ = X it β + ε it + ui
ui N ( 0,σ 2 )
yit = j dla α j −1 < yit∗ < α j
P ( yit = j |X i , ui ) = F ( j , α , X it β + ui ) − F ( j − 1, α , X it β + ui )
Prawdopodobieństwo jest warunkowe po ui, które jest
zmienną losową – trzeba całkować
Estymacja – jak dla modeli binarnych z efektami losowymi
Symulacje lub kwadratura Gaussa-Hermite’a
ORDERED; ...
; pds = ... ? lub ; panel
; ... $
? niedodanie '; fixed effects' oznacza model efektów losowych
czaj.org
Przykład – wybór uporządkowany – dane panelowe
Dla me.baltic.lpj model z efektami losowymi nie zadziała
(ponad 1000 obserwacji dla jednego klastru – zbyt
skomplikowana funkcja łącznego prawdopodobieństwa)
Przykładowy kod – dla projektu me.gerhealth.lpj
skonstruowano model, w którym satysfakcja z własnego stanu
zdrowia (hstat) wyjaśniana jest przez dochód, posiadanie
dzieci i liczbę lat edukacji
Model efektów stałych
Model efektów losowych
czaj.org
Modele liczności zdarzeń – dane panelowe
Dane panelowe – 2 standardowe podejścia
log ( λit ) = α i + X it β ( +ε it dla neg-bin )
Model efektów stałych
αi estymowane dla każdego respondenta osobno
Model nie wymaga zmienności yit w grupie
Wymaga, żeby co najmniej jedno yit było >0
Nie może zawierać stałej
Identyfikacja za pomocą innej postaci funkcyjnej
Model efektów losowych
exp (α i ) Γ (θ ,θ )
E ( exp (α i ) ) = 1
var ( exp (α i ) ) = 1 θ
Dla modelu ujemnego dwumianowego – parametr dyspersji losowy,
specyficzny dla grup (respondentów)
czaj.org
Modele liczności zdarzeń – dane panelowe
Modele liczności zdarzeń uwzględniające panelową
strukturę danych w NLOGIT
►
Zdefiniuj panelową strukturę danych ('SETPANEL')
W modelu:
► '; panel'
Dotyczy modeli efektów stałych, efektów losowych,
parametrów z heterogenicznością preferencji (o tym
później)
Wykorzystanie bezwarunkowego estymatora - '; FEM'
► Teoretycznie bardziej poprawny (brak pewnych
uproszczeń), ale problem przypadkowych parametrów
Dwupoziomowe efekty stałe – '; time = ...'
►
►
►
►
czaj.org
Praca domowa ME.11 (grupy 3-4-osobowe) – c.d.
2.
Wykorzystując projekt me.gerhealth.lpj, uwzględniając
panelowy charakter danych sprawdź jakie zmienne
pozwalają wyjaśnić liczbę wizyt respondentów u lekarza
czaj.org
10.12.2015 16:52:45