imię, nazwisko, nr indeksu: Ekonometria — ćwiczenia Kolokwium 2

Transkrypt

imię, nazwisko, nr indeksu: Ekonometria — ćwiczenia Kolokwium 2
Ekonometria
Kolokwium 22/05/05
imię, nazwisko, nr indeksu:
Ekonometria — ćwiczenia
Kolokwium 2 semestr
22/05/05
Zadanie 1
/ 4 pkt
Zadanie 2
/ 4 pkt
Zadanie 3
/ 3 pkt
Zadanie 4
/ 7 pkt [1/1/1/2/2]
Zadanie 5
/ 4 pkt
Razem
Skala ocen:
do 8,80
08,85-12,05
12,10-14,25
14,30-16,45
16,50-18,65
18,70 +
/22 pkt
punktów
punktów
punktów
punktów
punktów
punktów
2
3
3+
4
4+
5
Regulamin i informacje dodatkowe
• Przed przystąpieniem do rozwiązywania kolokwium należy podpisać pracę.
• Każda zauważona próba ściągania będzie karana podpisem osoby pilnującej złożonym na pracy. Pierwszy podpis oznacza utratę jednego punktu. Drugi podpis oznacza
podzielenie wyniku punktowego przez 2. Trzeci podpis jest równoznaczny z odebraniem pracy i poinformowaniem władz wydziału o zaistniałej sytuacji.
• Zastrzegam sobie prawo do obniżenia progów wymaganych do otrzymania ocen.
• Osoby rażąco naruszające dyscyplinę i przeszkadzające w przeprowadzeniu kolokwium mogą zostać wyproszone z sali. O zaistniałym fakcie zostaną poinformowane
władze dziekańskie.
Powodzenia :-)
Ekonometria
Kolokwium 22/05/05
Teoria
Należy odpowiedzieć na 2 wybranie pytania. W przypadku udzielenia odpowiedzi na
więcej pytań należy zaznaczyć które mają być sprawdzane, w przeciwnym przypadku ocenione zostaną dwa pierwsze w kolejności udzielania odpowiedzi.
1. Estymator Least Absolute Deviation (LAD) jest zdefiniowany następująco:
X
LAD : β
| yi − Xβ |
min
Pokaż, że estymator LAD jest estymatorem M. Wiedząc, że estymator MNK jest
zgodny pokaż, że estymator LAD jest zgodny.
2. Na czym polega problem identyfikacji w modelu nielosowej selekcji
3. Co to jest obciążenie Lovella. Oblicz ile będzie wynosił prawdziwy poziom istotności
jeśli do wyjaśnienia zmiennej y wybierzemy 2 regresory spośród 5, a nominalny
poziom istotności wynosi 5 %.
Rozwiązanie
1. Estymatory M, to estymatory minimalizujące funkcję celu. Ponieważ estymator LAD
minimalizuję sumę
P modułów jest estymatorem klasy M. Wiemy, że estymator MNK
dany wzorem (y − i − Xβ)2 . Jest więc kwadratem normy euklidesowej (drugiej).
Estymator LAD jest równoważny normie 1. Ponieważ normy są równoważne to minimum będzie niezależne od normy.
2. Model Heckmana jest dwurównaniowy. Składa się z równania selekcji i równania
zjawiska. Jeżeli w obu równaniach występuje ten sam zestaw zmiennych niezależnych
X to model redukuje się do Tobitu, ponieważ:
di = Xi0 γ + ui
yi = Xi0 β + εi
ponieważ zmienna di jest równa 1 gdy yi > y ∗ . Parametry modelu są trudne do
zidentyfikowania, ponieważ równanie probitowe może być zbliżone do równania liniowego, a jeśli oba równania są liniowe to nie możemy jednoznacznie zidentyfikować
parametrów bez nałożenia dodatkowych ograniczeń na parametry.
3. Obciążenie Lovella występuje gdy wybieramy model regresji spośród grupy modeli
”konkurencyjnych”. W takim przypadku rzeczywisty poziom istotności będzie wyższy od nominalnego. Częściej będziemy podejmować błędne decyzje.
α∗ ≈ 1 − (1 − α)
c
5
= 1 − (1 − 0.05)
k
2
Ekonometria
Kolokwium 22/05/05
Zadanie 1.
Na podstawie danych BAEL 2000 oszacowano model wyjaśniający fakt posiadania
pracy dodatkowej za pomocą charakterystyk społeczno-demograficznych respondenta: płci
(0 oznacza kobietę), w latach, dochodu gospodarstwa, posiadania rodziny na utrzymaniu
oraz wykształcenia (dwie zmiennne 0-1). Otrzymano wyniki
Logit estimates
Number of obs =
28248
LR chi2(5)
= 430.24
Prob > chi2
= 0.0000
Log likelihood = -1665.117
Pseudo R2
= 0.1144
------------------------------------------------------------dodatkowa | Odds Ratio
Std. Err.
z
P>|z|
-------------+----------------------------------------------plec |
3.847853
.4666835
11.11
0.000
wiek |
.9652003
.0036769
-9.30
0.000
rodzina |
6.078828
1.025346
10.70
0.000
wyzsze |
6.079864
1.123512
9.77
0.000
srednie |
1.971332
.2638736
5.07
0.000
------------------------------------------------------------Marginal effects after logit
y = Pr(dodatkowa) (predict)
= .00096351
------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z|
X
---------+--------------------------------------------------plec*|
.0027338
.00043
6.38
0.000
0
wiek | -.0000341
.00001
-6.21
0.000
46.1379
rodzina*|
.004865
.00075
6.48
0.000
0
wyzsze*|
.004866
.00125
3.90
0.000
0
srednie*|
.0009341
.00028
3.36
0.001
0
-------------------------------------------------------------
Przyjmując poziom istotności 5 % dokonaj interpretacji wyników oraz zbadaj istotność oraz łączną istotność modelu. Wartości krytyczne: χ2 (2) = 5.99, χ2 (5) = 11.07.
Wiedząc, że wartość funkcji logarytmu wiarogodności dla modelu bez wykształcenia wynosi −1706.83 przeprowadź odpowiedni test badający czy te zmienne są istotne zapisując
hipotezę zerową i alternatywną.
Rozwiązanie
1. Mężczyźni mają prawie 4 kronie większą szansę na posiadanie dodatkowej pracy niż
kobiety, wraz z wiekiem maleje szansa na posiadanie dodatkowej płacy o 4 % z każdym przeżytym rokiem, posiadanie rodziny zwiększa 6 krotnie szansę na posiadanie
pracy dodatkowej, legitymowanie się wyższym wykształceniem zwiększa 6 krotnie
szansę na posiadanie pracy dodatkowej w stosunku do wykształcenia podstawowego,
legitymowanie się średnim wykształceniem zwiększa 2 krotnie szansę na posiadanie
pracy dodatkowej w stosunku do wykształcenia podstawowego,
2. Wszystkie zmienne są łącznie istotne, świadczą o tym statystyki |z| > 2. Są również
łącznie istotne ponieważ wartość statystyki LR > χ2 (5) = 11.07, a jej p-value wynosi
0.
3.
H0 : βwyzsze = βsrednie = 0
H1 : ¬H0
LR = 2(L1 − L0 ) = 2(−1665 + 1706) = 82 > χ2 (2) = 5.99
Wobec tego odrzucamy H0 o nieistotności zmiennych związanych z poziomami wykształcenia.
Ekonometria
Kolokwium 22/05/05
Zadanie 2.
Jesteś pracownikiem firmy ubezpieczeniowej. Na podstawie następujących danych dotyczących liczby wypadków drogowych powodowanych przez klientów firmy:
0, 1, 2, 0, 0, 1, 3, 1, 0, 1, 2, 0, 1, 1, 0, masz oszacować przeciętną liczbę wypadków.
1. wyprowadź estymator metodą momentów dla liczby wypadków. Podpowiedź:
P∞ λx Rozpocznij od wyprowadzenia wzoru na wartość oczekiwaną wiedząc że i=0 x! = eλ
2. wyprowadź wzór na estymator największej wiarogodności
3. opracuj procedurę dla programu Stata, która może być wykorzystana dla analizy 1
mln obserwacji.
Rozwiązanie
1. Liczbę wypadków dobrze przybliża rozkład Poissona.
EX =
∞
X
λ2
λ3
λx
x e−λ = 0 + 1λe−λ + 2 e−λ + 3 e−λ + . . . =
x!
2!
3!
i=0
λ2
λ
= λ(e−λ + 2 e−λ + 3 e−λ + . . .) = λ
2!
3!
I przyrównujemy średnią próbkową do średniej z populacji.
P
xi
13
EM M (λ) =
=
n
15
2.
λxi −λ
e
xi !
X
X
X
lnL =
xi lnλ −
ln(xi !) −
λ
P
P
∂lnL
xi
xi
13
=
−n=0
→λ=
=
∂λ
λ
n
15
L = Πni=1
3.
program define poisson
version 8
args lnf theta
tempvar lambda
quietly gen double ‘lambda’ = exp(‘theta)
quietly replace ‘lnf’= -‘lambda’+$ML_y1*ln(‘lambda’)
end
Ekonometria
Kolokwium 22/05/05
Zadanie 3.
Wskaż model, który według Ciebie jest najbardziej odpowiedni do analizy następujących problemów społeczno-ekonomicznych. Uzasadnij swój wybór.
(a) stopień zadowolenia z życia mierzony za pomocą siedmiostopniowej skali
(b) wysokość zarobków mężczyzn
(c) długość pozostawania na bezrobociu
Rozwiązanie
(a) Stopień zadowolenia z życia mierzony za pomocą siedmiostopniowej skali może być
modelowany za pomocą jednego z modeli dla dyskretnej uporządkowanej zmiennej zależnej. Ankiety psychologiczne i socjologiczne zakładają, że respondent jest
w stanie wartościować swoje odpowiedzi, wobec tego budując model powinniśmy
wykorzystać tą informację.
(b) Wysokość zarobków meżczyzn jest cechą charakterystycznej subpopulacji - pracujących mężczyzn. Powinniśmy użyć modelu Heckmana. Bycie mężczyzną jest czynnikiem niezależnym od badanej osoby, ale fakt pracowania zależy od respondenta.
(c) Długość pozostawania na bezrobociu, jest okresem czasu. Jest to liczba rzeczywista
(wielkość jest ciągła), ograniczona z dołu. Wobec tego powinniśmy użyć modelu dla
zmiennej ocenzurowanej, czyli tobitu.
Ekonometria
Kolokwium 22/05/05
Zadanie 3.
Wskaż model, który według Ciebie jest najbardziej odpowiedni do analizy następujących problemów społeczno-ekonomicznych. Uzasadnij swój wybór.
(a) ilość izb w mieszkaniu
(b) wysokość zarobków kobiet
(c) wydatki na zakup sprzętu audio-video poniesione w ostatnim roku
Rozwiązanie
(a) Ilość izb w mieszkaniu jest dana liczbą naturalną. Z reguły mieszkanie liczy od 1 do
5 izb, więc zarówno średnia jak i wariancja powinny zawierać się w przedziale 2-3.
Wobec tego rozsądnym wyborem jest model Poissona.
(b) Wysokość zarobków kobiet jest cechą charakterystycznej subpopulacji - pracujących
kobiet. Powinniśmy użyć modelu Heckmana. Bycie kobietą jest czynnikiem niezależnym od badanej osoby, ale fakt pracowania zależy od respondenta.
(c) Nie wszystkie osoby w ostatnim roku poniosły wydatki na zakup sprzętu audiovideo.W zbiorze możemy oczekiwać wielu obserwacji o wartości zero. Wobec tego,
by uzyskać dobre oszacowania, powinniśmy użyć modelu tobitowego.
Ekonometria
Kolokwium 22/05/05
Zadanie 4.
Oszacowano na podstawie próby reprezentatywnej model Heckmana dla zależności
między wysokością oferowanej przez rynek płacy a charakterystykami respondenta. W
równaniu regresji umieszczono wiek i płeć, a w równaniu selekcji wiek, płeć (1 mężczyzna,
2 kobieta) i dochód pozapłacowy. Zarówno płaca jak i dochód pozapłacowy zostały zlogarytmowane. Uzyskane oszacowania parametrów modelu i efektów cząstkowych znajdują
się poniżej.
Heckman selection model
Number of obs =
1470
(regression model with sample selection) Censored obs
=
837
Uncensored obs =
633
Wald chi2(2)
= 36.92
Log likelihood = -1351.816
Prob > chi2
= 0.0000
---------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
-------------+-------------------------------------------------lrincome
|
age | -.0038008
.0030392
-1.25
0.211
_Isex_2 | -.2935203
.0483514
-6.07
0.000
_cons |
5.494951
.1011862
54.31
0.000
-------------+-------------------------------------------------select
|
_Isex_2 | -.2672067
.0718456
-3.72
0.000
age | -.0358237
.0023274
-15.39
0.000
lextincome |
-.450367
.0527881
-8.53
0.000
_cons |
4.132161
.3303863
12.51
0.000
-------------+-------------------------------------------------/athrho |
.5645339
.1583798
3.56
0.000
/lnsigma | -.5155443
.0505479
-10.20
0.000
-------------+-------------------------------------------------rho |
.5113336
.1169695
sigma |
.5971755
.030186
lambda |
.3053559
.0831266
---------------------------------------------------------------LR test of indep. eqns.(rho = 0):chi2(1)=11.82 Pr > chi2 =0.0006
---------------------------------------------------------------Marginal effects after heckman
y = E(lrincome|Zg>0) (predict, ycond)
= 5.4370371
---------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z|
X
---------+-----------------------------------------------------age |
.003688
.00224
1.64
0.100
47.4558
_Isex_2*| -.2380003
.04373
-5.44
0.000
.57415
lextin~e |
.0941472
.02617
3.60
0.000
5.58034
---------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
Marginal effects after heckman
y = Pr(select) (predict, psel)
= .40729903
---------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z|
X
---------+-----------------------------------------------------age |
-.013904
.00089 -15.65
0.000
47.4558
_Isex_2*| -.1038767
.0279
-3.72
0.000
.57415
lextin~e | -.1747977
.02055
-8.51
0.000
5.58034
---------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
Marginal effects after heckman
y = E(lrincome*|Pr(select)) (predict, yexpected)
=
2.2145
Ekonometria
Kolokwium 22/05/05
---------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z|
X
---------+-----------------------------------------------------age | -.0740944
.00486 -15.26
0.000
47.4558
_Isex_2*| -.6656166
.1532
-4.34
0.000
.57415
lextin~e | -.9120358
.10958
-8.32
0.000
5.58034
---------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
1. Sprawdź istotność oraz łączną istotność zmiennych w modelu α = 0.05. Oceń dopasowanie modelu do danych empirycznych.
2. Podaj interpretację ekonomiczną wielkości oszacowanych parametrów modelu.
3. Podaj interpretację ekonomiczną efektów cząstkowych dla wieku w pierwszej, drugiej
i trzeciej tablicy efektów cząstkowych.
4. Zinterpretuj wyliczoną wielkość parametru ρ i wyjaśnij, czy jest ona zgodna z intuicją. Przeprowadź test na korelację między efektami błędami losowymi w równaniu
płac i równaniu selekcji i wyjaśnij jego znaczenie praktyczne.
5. Podaj ekonomiczne i ekonometryczne powody, dla których zmienna dochód pozapłacowy (lrincome) nie została umieszczona w równaniu regresji.
Rozwiązanie
1. W równaniu zjawiska zmienną nieistotną okazał się wiek [−1.25, p-value0.211 > 0.05].
Pozostałe zmienne w modelu są istotne. Łącznie wszystkie zmienne w modelu są
istotne [36.92, p-value0.000 < 0.05].
2. Oszacowany model opisuje wpływ czynników na ofertę płacy. Każdy dodatkowy rok
życia obniża oferowaną płacę o 0.38%. Kobietom oferowana jest płaca o 29% niższa
niż mężczyznom.
3. Osoby, które pracują z każdym dodatkowym rokiem życia otrzymują ofertę płacy o
0.37% niższą. Dodatkowy rok życia obniża prawdopodobieństwo posiadania pracy o
1.4%. Oczekiwany dochód z pracy spada z każdym rokiem życia o 7.4%.
4. Parametr ρ mierzy stopień korelacji między nieobserwowalnymi czynnikami w równaniu płac i partycypacji w rynku pracy. W modelu korelacja ta wyszła dodatnia.
Ponieważ oczekujemy, że czynniki, które pozytywnie wpływają na prawdopodobieństwo posiadania pracy wpływają także pozytywnie na wysokość płacy, więc dodatni
znak tego oszacowania tego parametru jest zgodny z intuicją. By przeprowadzić test
patrzymy na statystykę LR dla H0 : ρ = 0. Wielkość statystyki testowej równa 11.82
i wartość p − value = 0.0006 < 0.05 skłaniają nas do odrzucenia H0 i przyjęcia
hipotezy alternatywnej, że istnieje niezerowa korelacja między błędami losowymi w
równaniach. Praktyczne znaczenie tego testu wiąże się z tym, że w razie prawdziwości H − 0 : ρ = 0 można do oszacowania równania regresji zastosować zwykłe
MNK.
5. Z punktu widzenia ekonomii dla pracodawcy jest nieistotne jaki dochód pozapłacowy
osiąga pracownik. W równaniu oferty płacy ta zmienna nie powinna się pojawiać. Z
drugiej strony z przyczyn ekonometrycznych bardzo pożądane jest, by w równaniu
selekcji pojawiały się zmienne nie pojawiające się w równaniu zjawiska. Tylko w tym
przypadku można uzyskać precyzyjne oszacowania parametrów.
Ekonometria
Kolokwium 22/05/05
Zadanie 5.
Rozważ następujący model:
yi = exp (α + βxi ) + ui ,
i = 1, . . . , n
ε ∼ N 0, σ 2 I
1. Znajdź warunki pierwszego rzędu na estymatory M N W parametrów α i β
2. Jakie własności będą miały uzyskane w ten sposób estymatory?
3. Wyprowadź statystykę LM dla hipotezy β = 0. Przedyskutuj zalety statystyki LM
w stosunku do statystyki Walda i statystyki LR.
4. Wyjaśnij, czy model ten można przekształcić do modelu, który można oszacować za
pomocą M N K.
Rozwiązanie
1.
yi ∼ N (exp(α + βxi ), σ 2 I)
Więc funkcja gęstości jest dana przez
(
[yi − exp (α + βxi )]2
f (yi ) = √
exp −
2σ 2
2πσ 2
1
)
X [yi − exp (α + βxi )]2
n
n
ln f (y1 . . . yn ) = − ln (2π) − ln σ 2 −
2
2
2σ 2
n
X
∂ ln f
[yi − exp (α + βxi )] exp (α + βxi ) xi
=
∂β
σ2
i=1
n
X
yi exp (α + βxi ) xi =
i=1
n
X
exp (2α + 2βxi ) xi
i=1
n
X [yi − exp (α + βxi )]2
n 1
∂ ln f
=
−
+
∂σ 2
2 σ2
2σ 4
i=1
n
X
c2 = 1
σ
[yi − exp (α + βxi )]2
n
i=1
2. Dla spełnionych założeń M N W estymator ten będzie estymatorem zgodnym ponieważ estymatory M N W są zgodne.
3. Statystykę LM można policzyć w następujący sposób:
(a) oszacować model, w którym zakładamy, że H0 : β = 0. Taki model ma postać
yi = exp (α) + ui jest więc zwykłym model liniowym, w którym występuje
jedynie stała α∗ = exp (α). Po oszacowaniu α
b∗ za pomocą M N K znajdujemy
∗
oszacowanie α
b = ln (b
α ). Oznaczmy reszty z M N K jako u
bi = yi − α
b ∗ = yi −
exp (b
α).
Ekonometria
Kolokwium 22/05/05
(b) Liczymy gradienty funkcji wiarogodności dla modelu bez ograniczeń dla wartości oszacowanych w modelu z ograniczeniami (wektory score):
[yi − exp (b
α)] exp (b
α) xi
∂ ln fi u
bi α
b∗ xi
=
=
β=0
∂β α=αb
s2
s2
σ 2 =s2
∂ ln fi ∂σ 2 β=0
α=α
b
σ 2 =s2
"
2 #
1 1
[yi − exp (b
α)]2
1
u
bi
=− 2 +
=− 2 1−
4
2s
2s
2s
s
(c) Znajdujemy statystykę LM przy jako sumę wartości dopasowanych w regresji
score’ów na 1.
Statystykę tą można znaleźć przy zastosowaniu M N K. Statystyki LR i W
wymagałyby oszacowania modelu nieliniowego.
4. Nie, modelu tego nie da się sprowadzić do liniowości.