μ - Krzysztof Slot
Transkrypt
μ - Krzysztof Slot
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Statystyczne metody
przetwarzania danych
Cechy i przestrzenie cech
Krzysztof Ślot
Instytut Informatyki Stosowanej
Politechnika Łódzka
1
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Wprowadzenie
• Etapy procedury rozpoznawania
– Przetwarzanie wstępne, obejmuje ekstrakcję obiektu z tla
– Projektowanie systemu rozpoznawania
– Klasyfikacja, wykorzystująca wybrane cechy i zbudowane modele klas
Przygotowanie
danych
Zebranie i etykietowanie przykładów
Określenie zbiorów: treningowego i testowego
Projektowanie
systemu
Określ reprezentację ilościową
obiektów
Określ sposób modelowania klas
Przedmiot
Określenie strategii klasyfikacji
wykładu
Oblicz cechy
Trenuj klasyfikator
Klasyfikuj
Implementacja
2
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Wprowadzenie
• Unifikacja różnych typów zadań
– Analiza przynależności do klasy przeprowadzana w przestrzeniach cech
Akwizycja i przetwarzanie
wstępne
Cechy: ilościowa
reprezentacja obiektów
f
f
F1 f 0 , f1 ... f n1
F2
F
EEG
0
0
, f1 ... f n1
, f1 ... f n1
F f 0 , f1 ... f m1
Reprezentacja w
przestrzeni cech
T1
Chory
Ok
Mowa
F f 0 , f1 ... fo1
‘a’
‘e’
‘o’
3
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Cechy i przestrzenie cech
y AL / R x 3 BL / R x 2 CL / R x DL / R
d LP
• Definicje
– Cecha: charakterystyka ilościowa
– Przestrzeń cech: przestrzeń metryczna
wyznaczona przez cechy
d3
d4
• Przestrzenie cech dla rozpoznawania
•
•
Powinny być ‘najlepsze’
(‘dyskryminatywne’)
Typowo brak wskazówek wyboru cech
(które, ile)
Wektor cech
h
w
, A , BLL, CLL, DLL, ARR, BRR, CRR, DRR,]w, h,]d1, d 2 , dOBL , dOBP ]
[[ddLP
LP] LL
Staje się coraz dłuższy …
np. kilkaset tysięcy elementów (Eigenfaces)
• Wymiar wektora – wymiar przestrzeni cech
•
Wielowymiarowe przestrzenie cech
4
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Opis obiektów = przestrzeń wielkowymiarowa?
• Hipoteza
•
Użyć wszystkich możliwych do wyznaczenia cech (ponieważ nie
wiadomo, które są ważne)
d : 12.35 12.2 12.4
Wzorzec
AL : 2.3 1.9 4.3
Obiekt 1
:
w : 6 8.6 8.1
:
− Brak zgodności obiektów z wzorcem dla różnych cech
Podobieństwo
D (d w d x )2 ( ALw ALx )2
− „Zła” cecha to ‘szum’ obliczania podobieństwa:
losowe wartości miary podobieństwa (D)
Obiekt 2
99% fiasko
5
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Opis obiektów = przestrzeń wielkowymiarowa?
• Hipoteza
•
Użyć wszystkich dobrych cech (np. 100)
d / dN
d / d
K
_
LP
d / d N : 1.35 1.29 1.34
d / d K _ LP : 3.2 3.4 3.7
:
− Wyniki obliczania podobieństwa jest wiarygodny, ale …
Kolor oczu (różne oświetlenie)
X
Oczy
3D : : 0.1pr./komórkę
4D : : 0.01pr./komórkę
Hue
Y
Złe modele
Hue
Skóra
‘Modele’ biometryczne 1D osób
(100 próbek/klasę, 10 przedz. -> 10p/p)
‘Modele’ 2D (100 p/k,10 prz.: 1p/p)
Klątwa
wymiarowości
6
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Redukcja wymiarowości problemu rozpoznawania
• Wymiar przestrzeni cech powinien być jak najmniejszy
– Dostępny zbiór cech będzie typowo nadmiarowy, będzie zawierał cechy
dobre, złe i średnie
– Konieczne będzie dokonanie redukcji tego zbioru w oparciu o odpowiednio
sformułowane kryteria
• Redukcja wymiarowości
– Poszukiwanie niskowymiarowej reprezentacji obiektów
D
d
,
d D
F f 0 , f1... f D1 ξ 0 , 1...d 1
• Strategie redukcji
wymiarowości
– Selekcja cech
– Ekstrakcja cech
Selekcja liniowa
Ekstrakcja liniowa
Ekstrakcja nieliniowa
Weryfikacja wiarygodności
7
Statystyczne metody przetwarzania danych
Krzysztof Ślot, 2014
Selekcja cech
• Sformułowanie problemu
– Znajdź podzbiór oryginalnego, nadmiarowego zbioru cech, zapewniający
największą skuteczność rozpoznawania (cechy najlepsze)
• Zagadnienia cząstkowe
1. Ocena jakości zbioru cech
2. Sposób generacji podzbiorów do sprawdzenia
1. Kryteria oceny jakości podzbioru
– Ocena skuteczności klasyfikacji
– Prognozowanie skuteczności (miary statystyczne)
• Ocena skuteczności klasyfikacji
– Narzucające się kryterium
– Ocena pośrednia: wikła ocenę jakości cech i jakości przyjętej metody
klasyfikacji, jest złożona obliczeniowo (dla każdego zbioru konieczne
tworzenie osobnego systemu klasyfikacji i ocena wyników jego działania)
8
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Statystyczne kryteria selekcji cech
• Właściwości
– Zalety: prostota koncepcyjna i efektywność obliczeniowa
– Wady: używanie założeń ograniczających ogólność rozważań
• Wskazówki wyboru przestrzeni cech
– Dobra przestrzeń zapewnia dobrą separację klas (próbek klas)
– Dobra separacja: ‘chmury’ próbek danej klasy znajdują się w odrębnych
(możliwych do (łatwego) rozdzielenia) regionach przestrzeni cech
• Podstawowe statystyki
rozkładów 1D
– Średnia (arytmetyczna,
geometryczna)
– Wariancja
– Inne momenty zwykłe
– Inne momenty centralne
– ...
n 1
E ( X ) p( xi )xi
i 0
1 n 1
xi
n i 0
1 n 1
G xi
n i 0
2 E ( X )2 E ( X )2 2
s E( X )
3
Przykład:
oblicz
podstawowe
statystyki
zbioru
A 1,2,3,4,5
9
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech w przestrzeni 1D
• Założenia
– Obiekty są opisane za pomocą jednej cechy, rozważamy 2 klasy
– Celem jest ocena ‘separowalności’ (możliwości separacji) klas
• Kryterium statystyczne
– Dobra separacja: wartości średnie klas leżą daleko od siebie, wariancje w
obrębie klas są jak najmniejsze
Współczynnik dyskryminacji liniowej Fishera:: 1D, 2 klasy
Sb – rozrzut między-klasowy, Sw rozrzut wewnątrz-klasowy
F = 2.5
p(x)
0
2 1
Przykład
Sw
| m A mB |
A B
F = 1.6
p(x)
5
2 1
F
Sb
0
5
2 2.5
2 2.5
xA = { (-1, 0}, (1, 1), {0, 0)}, xB = { (2, -1}, (0, 0), {-2, -2)}
10
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech w przestrzeniach n-wymiarowych
• Statystyczna reprezentacja danych w n-wymiarach
– Wartość średnia: wektor
– Zmienność: macierz kowariancji
Przykłady
klasy A
E ( x0 )
Średnia μ E ( X ) :
E ( xn 1 )
x00 x01 x0m
X A : , : ,... :
x 0 x1 x m
n 1 n 1 n 1
n 1
Kowariancja
Cov( X ) E[(X μ)( X μ) ] p(xi )(xi μ)( xi μ)T
Macierz kowariancji
T
i 0
002 c00
c01
...
Cov( X ) c10
112 c11 ...
...
...
...
11
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera dla n-D
• Założenia: 2 klasy, 2D
– Jak określić odległość między klasami (dla 1D: moduł różnicy średnich)?
– Jak opisać zmienność w obrębie klasy(1D: suma odchyleń)?
• Rozrzut międzyklasowy dla 2 klas w
przestrzeni 2D
Sb || μ A μB ||
– Odległość między wartościami średnimi
(długość wektora)
• Rozrzut wewnątrzklasowy
dla 2 klas, 2D
a0 b0
a0b1 b0 a1 a b ab sin(a, b)
a
b
1 1
02 ... c0n
c
S det( C ) det :
:
w
cn 0 ... n2
Wyznacznik macierzy kowariancji
det
xA = { (-1, 0, -1}, (1, 1, 1), {0, 0, 0)}
Objętość równoległościanu wyznaczonego
przez wektory (kolumny) macierzy
kowariancji
12
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera dla n-D
• Przypadek 2D, 2 klasy
– Kryterium separowalności (Fishera) – analogiczna zasada: relacja między
rozrzutami: międzyklasowym i wewnątrzklasowym
Macierz rozrzutu
Macierz kowariancji
c
c
C E[ x μ
c
x
c
μ
]
c T
c
N
S
i 1
c
Xi
μ
c
c
Xi
μ
c T
• Alternatywne formy współczynnika Fishera
Dokładna
estymacja
rozrzutu
F
Sm
Sw
A
B
|| μ μ ||
A
B
det(S S )
Zgrubna
estymacja
F
Sm
Sw
A
B
|| μ μ ||
A
B
Tr (S S )
• Wyrażenia są ogólne i dotyczą zmiennych n-wymiarowych
13
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera dla n-D
• Przypadek najogólniejszy: wiele klas, n-wymiarów
– Idea kryterium bez zmian: relacja rozrzutu międzyklasowego do wewnątrzklasowego
• Rozrzut wewnątrzklasowy
– Miara identyczna jak poprzednio – suma wyznaczników lub śladów
indywidualnych macierzy rozrzutu
C
S w det (S )
i 1
i
C
lub
S w Tr (S )
i
i 1
• Rozrzut międzyklasowy
– Konieczna redefinicja (mamy do czynienia z wieloma wartościami
średnimi)
14
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Współczynnik Fishera
• Rozrzut międzyklasowy dla wielu klas i przestrzeni n-D
– Idea: potraktowanie wartości średnich klas jako próbek nowego,
hipotetycznego rozkładu i określenie rozrzutu wewnątrzklasowego tego
rozkładu
μB
B
μ
μA
A
C
μC
Współczynnik Fishera
C-klas, n-wymiarów
Rozrzut międzyklasowy
E
μE
C
~
i
i
SB μ μ μ μ
i 1
μD
D
μi
F
Sm
Sw
Średnia klasy ‘i’
~
det( S B )
C
det (S )
i 1
i
,
μ
F
T
Średnia
rozkładu
Sm
Sw
~
Tr ( S B )
C
i
Tr (S )
i 1
15
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech z użyciem wsp. Fishera
• Właściwości
– Prosta i szybka procedura
– Zakłada, że rozkłady próbek klas mają charakter Gaussowski
Klasy separowalne nieliniowo
Wartość współczynnika Fishera
sugeruje brak możliwości separacji klas
16
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Selekcja cech
• Zasadnicze zagadnienia problematyki selekcji cech
– Wybór optymalnej przestrzeni cech (omówiony)
– Określenie systematycznej metody tworzenia podzbiorów cech
• Generacja podzbiorów zbioru cech
– Selekcja wymaga sprawdzenia każdego podzbioru
– Generacja wszystkich podzbiorów: zadanie o wykładniczej złożoności
obliczeniowej
• Przykład
– Liczność zbioru cech: 100
– Cel: wybór optymalnej przestrzeni cech, co najwyżej 10-cio wymiarowej
– Liczba wszystkich podzbiorów:
100 100
100
...
1 2
10
100 100 99 98 ...91
17 1012
1 2 ... 10
10
17
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Algorytmy generacji podzbiorów
• Metoda B-B
– Budowa drzewa poszukiwań
– „Przycinanie” drzewa – usuwanie węzłów z pewnością prowadzących do
gorszych podzbiorów
Podzbiór cech
112
Ocena podzbioru
1. Sprawdzenie dowolnego podzbioru o założonej liczności Sk
2. ‘Wspięcie się’ do wierzchołka z rejestracją kosztu dla kolejnych warstw
3. Ekspansja w dół: jeżeli koszt dla podzbioru większy niż dowolny dotąd
zarejestrowany, usuń dalsze poddrzewo,
18
Statystyczne metody przetwarzania danych
Krzysztof Ślot, 2014
Metoda B-B generacji podzbiorów
•
Przykład
1. Jakość podzbioru startowego
o docelowej liczności = 50
2. Ekspansja korzenia do
poziomu, w którym znaleziono
gorszy podzbiór (48), usunięcie
poddrzewa (o ile nie przekroczono
ustalonej głębokości
3. Wybór innego podzbioru o
docelowej liczebności
4. Iteracyjne powtarzanie
procedury
Cechy i przestrzenie cech
19
Krzysztof Ślot, 2014
Statystyczne metody przetwarzania danych
Metoda selekcji przyrostowej
• Założenie
– Monotoniczność funkcji celu (liczniejszy podzbiór ma lepsze właściwości)
• Selekcja przyrostowa (Sequential forward selection - SFS)
– Iteracyjne powiększanie najlepszego podzbioru o liczności n o kolejny
element, dający najlepszy podzbiór n+1 - elementowy
t 0 : F0 {}
i D : F' Ft , fi t 1
t 1
F
t 1
t 1
F fi , i : FLD(F fi ) max
t
t
Koniec
?
STOP
t t 1
• Selekcja redukcyjna (Sequential Backwards selection - SBS)
– Iteracyjna redukcja zbioru o liczności n o kolejny element, dający najlepszy
podzbiór n-1 - elementowy
• Złożoność obliczeniowa
n (n 1) ...(n k 1) k n
n!
(n k )! k!
20