Metody systemowe i decyzyjne w informatyce
Transkrypt
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce
Ćwiczenia – lista zadań nr 2
autorzy: A. Gonczarek, J.M. Tomczak
Metody estymacji
Zad. 1
Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym z parametrem
θ ∈ [0, 1], gdzie zmienna x przyjmuje wartość 1, jeśli pojawiająca się wiadomość jest spamem.
Pewien użytkownik otagował N wiadomości. Korzystając z metody największej wiarygodności
wyznaczyć estymator parametru θ.
Zad. 2
Populacja studentów Politechniki Wrocławskiej została podzielona na trzy grupy:
1. Studenci osiągający średnią do 3.5.
2. Studenci osiągający średnią od 3.5 do 4.5.
3. Studenci osiągający średnią powyżej 4.5.
Populacja studentów opisana jest wektorem losowym x = (x1 x2 x3 )T , przyjmującym trzy wartości
(1 0 0)T , gdy student należy do pierwszej grupy, (0 1 0)T , gdy student należy do drugiej grupy i
(0 0 1)T , gdy student należy do trzeciej grupy. Rozkład zmiennej x wyraża się za pomocą rozkładu wielopunktowego o wektorze parametrów θ = (θ1 θ2 θ3 )T . Z populacji studentów wybrano N
obserwacji. Korzystając z metody największej wiarygodności wyliczyć estymator parametrów θ.
Zad. 3
Alarm samochodowy uzależnia swoje działanie od czujnika badającego poziom ultradźwięków w
kabinie. Czujnik przed rozpoczęciem działania wymaga kalibracji. Przyjęto, że pomiary dokonywane przez czujnik są realizacjami zmiennej losowej x o rozkładzie normalnym N (x|µ, σ 2 ). Dokonano
N pomiarów, gdy w kabinie nie występował żaden ruch. Korzystając z metody największej wiarygodności wyznaczyć estymatory parametrów µ i σ 2 .
Zad. 4
Charakterystyka wybranego słowa wypowiadanego przez człowieka opisana jest wektorem losowym cech x = (x1 . . . xD )T przyjmującym wartości z wielowymiarowego rozkładu normalnego
1
N (x|µ, Σ). Pobrano N próbek danego słowa wypowiadanego przez różne osoby. Korzystając z
metody największej wiarygodności wyznaczyć estymatory µ i Σ. Jaka przykładowa metoda może
być zastosowana do ekstrakcji wektora cech x z fali dźwiękowej?
Zad. 5
Niech zmienna losowa x ∈ {0, 1} oznacza odpowiednio porażkę lub zwycięstwo Śląska Wrocław
w meczu. Zmienna x opisana jest rozkładem dwupunktowym B(x|θ). Zebrano wyniki N spotkań.
Przyjmując rozkład a priori Beta(θ|a, b), wyznaczyć estymator MAP (maksymalnego a posteriori )
parametru θ. Jak można zinterpretować parametry a i b?
Teoria decyzji
Zad. 6 (regresja)
Dla zmiennych losowych x, y ∈ R o łącznym rozkładzie prawdopodobieństwa p(x, y) wyznaczyć
optymalny model y(x) minimalizujący ryzyko (średnią stratę) w podejmowaniu decyzji. Przyjąć
kwadratową funkcję straty
1
L(y, y) = (y − y)2 .
2
Zad. 7 (klasyfikacja)
Dla zmiennych losowych x ∈ R, y ∈ {1, . . . , L} o łącznym rozkładzie prawdopodobieństwa p(x, y)
wyznaczyć optymalny model y(x) minimalizujący ryzyko (średnią stratę) w podejmowaniu decyzji.
Przyjąć zero-jedynkową funkcję straty
L(y, y) =
0, y = y
1, y 6= y
.
Zad. 8
Zmienna losowa T ∈ {0, 1} oznacza czy zajazd udostępnia pokoje dla turystów, zmienna S ∈ {0, 1}
oznacza czy jest sezon turystyczny, zmienna L ∈ {0, 1} oznacza czy jest ładna pogoda. Dane są
następujące prawdopodobieństwa p(T = 1|S = 1, L = 1) = 0.9, p(T = 1|S = 0, L = 1) = 0.3 oraz
p(S = 1|L = 1) = 0.2. Należy wyznaczyć p(T = 1|L = 1) i p(T = 0|L = 1) i na tej podstawie
podjąć decyzję czy zajazd udostępnia pokoje dla turystów, jeśli wiemy, że jest ładna pogoda.
Model regresji liniowej
Zad. 9
Na przełomie roku zebrano N obserwacji D = {(xn , yn )}N
n=1 , gdzie xn oznacza cenę euro, a yn cenę
dolara. Przyjmując model
y = φ(x)T w + ε,
2
gdzie w = (w0 . . . wM −1 )T , φ(x) = (φ0 (x) . . . φM −1 (x))T , ε ∼ N (ε|0, σ 2 ). Korzystając z metody
największej wiarygodności dopasować model regresji liniowej do ciągu obserwacji D – wyznaczyć
estymatory w i σ 2 . Jaką dodatkową informację wnosi ten model w porównaniu do modelu z zadania
4 (lista nr 2)?
Zad. 10
Dla problemu jak w zadaniu 10 dodatkowo przyjąć, że znany jest rozkład a priori wektora parametrów w, p(w) = N (w|0, α2 I), gdzie α jest znane. Ponadto znamy wartość σ 2 . Korzystając ze
wzoru Bayesa wyznaczyć rozkład a posteriori p(w|D), a następnie wyznaczyć estymator wektora
parametrów maksymalizujący ten rozkład (estymator MAP ). Jaki jest związek podanego podejścia
z zadaniem najmniejszych kwadratów z regularyzacją Tichonowa?
3
DODATEK
Rozkład dwupunktowy:
B(x|θ) = θx (1 − θ)1−x ,
gdzie x ∈ {0, 1} i θ ∈ [0, 1]
E[x] = θ
Var[x] = θ(1 − θ)
Rozkład wielopunktowy:
M(x|θ) =
D
Y
xd
θd ,
gdzie xd ∈ {0, 1} i θd ∈ [0, 1] dla każdego d = 1, 2, . . . , D,
d=1
D
X
θd = 1
d=1
E[xd ] = θd
Var[xd ] = θd (1 − θd )
Rozkład normalny:
(x − µ)2
1
exp −
N (x|µ, σ 2 ) = √
2σ 2
2π σ
E[x] = µ
Var[x] = σ 2
Rozkład normalny wielowymiarowy:
1
1
1
T −1
N (x|µ, Σ) =
exp − (x − µ) Σ (x − µ) ,
(2π)D/2 |Σ|1/2
2
gdzie x jest wektorem D-wymiarowym, µ – D-wymiarowy wektor średnich, Σ – macierz D × D
kowariancji
E[x] = µ
Cov[x] = Σ
Rozkład beta:
Γ(a + b) a−1
x (1 − x)b−1 ,
Beta(x|a, b) =
Γ(a)Γ(b)
gdzie x ∈ [0, 1] oraz a > 0 i b > 0, Γ(x) =
E[x] =
a
a+b
Var[x] =
Z ∞
tx−1 e−t dt
0
ab
(a+b)2 (a+b+1)
Rozkład brzegowy:
Dla rozkładu ciągłego:
p(x) =
Z
p(x, y)dy
i dla rozładu dyskretnego:
p(x) =
X
y
4
p(x, y)
Rozkład warunkowy:
p(y|x) =
p(x, y)
p(x)
Rozkład brzegowy i warunkowy dla wielowymiarowego rozkładu normalnego:
Załóżmy, że x ∼ N (x|µ, Σ), gdzie
x=
xa
xb
,
µ=
µa
µb
Σ=
,
Σa Σc
ΣTc Σb
,
wtedy mamy następujące zależności:
p(xa ) = N (xa |µa , Σa ),
p(xa |xb ) = N (xa |µ̂a , Σ̂a ), gdzie
µ̂a = µa + Σc Σ−1
b (xb − µb ),
T
Σ̂a = Σa − Σc Σ−1
b Σc .
Twierdzenie Bayesa:
p(y|x) =
p(x|y)p(y)
p(x)
Estymator największej wiarygodności:
Danych jest N niezależnych realizacji D = {x1 . . . xN } wektora losowego x o rozkładzie p(x|θ).
Funkcją wiarygodności nazywamy następującą funkcję:
p(D|θ) =
N
Y
p(xn |θ).
n=1
Zlogarytmowaną funkcję p(D|θ) możemy określić zależnością:
log p(D|θ) =
N
X
log p(xn |θ).
n=1
Estymatorem największej wiarygodności nazywamy θM L takie, że
p(D|θM L ) = max p(D|θ).
θ
Estymator maksymalnego a posteriori :
Dane są rozkład a priori p(θ) parametru θ oraz N niezależnych realizacji D = {x1 . . . xN } wektora
losowego x o rozkładzie p(x|θ). Estymatorem maksymalnego a posteriori (MAP) nazywamy θM AP
maksymalizujący rozkład a posteriori :
p(θM AP |D) = max p(θ|D).
θ
5
Ryzyko w podejmowaniu decyzji:
Ryzyko (średnią stratę) definiujemy jako następujący funkcjonał:
R[y] =
ZZ
L(y, y(x)) p(x, y)dxdy,
gdzie L(·, ·) oznacza funkcję straty.
Wybrane własności wektorów i macierzy:
Dane są wektory x, y i macierz A symetryczna i dodatnio określona. Zachodzą wtedy następujące
własności:
∂
(x − y)T A(x − y) = −2A(x − y)
∂y
∂(x − y)T A−1 (x − y)
= −A−1 (x − y)(x − y)T A−1
∂A
∂ ln det(A)
= A−1
∂A
6