Laboratorium 2 (LDA, QDA, regresja w klasyfikacji) 2.1 Zbiór danych

Transkrypt

Laboratorium 2 (LDA, QDA, regresja w klasyfikacji) 2.1 Zbiór danych
DATA MINING 2016/2017
Laboratorium 2 (LDA, QDA, regresja w klasyfikacji)
2.1
Zbiór danych wine.data zawiera dane dotyczące wyników chemicznej analizy win pochodzących
z tego samego regionu Włoch, ale od trzech różnych plantatorów (Barolo, Grignolino, Barbera).
W zbiorze mamy m.in zmienne:
• V1- zmienna grupująca, przyjmuje wartości 1, 2, 3 (numer plantatora),
• V2- zawartość alkoholu,
• V8- zawartość flawanoidów,
• inne (dokładny opis na http://archive.ics.uci.edu/ml/datasets/Wine).
a) Zastosować losowy podział danych na próbę testową i treningową. Zbiór treningowy będzie
używany do dopasowania modelu, natomiast na zbiorze testowym będzie wykonywana predykcja.
b) Skorzystać z funkcji lda(MASS) oraz qda(MASS) i utworzyć regułę dyskryminacyjną przy
wykorzystaniu dwóch atrybutów: V2 i V8, na podstawie zbioru treningowego. Dla każdego
obiektu (z danych treningowych i testowych) wypisać prawdopodobieństwo zaklasyfikowania do
jednej z trzech klas (skorzystaj z funkcji predict.lda, predict.qda).
c) Zaklasyfikować wszystkie obiekty ze zbioru testowego stosując wyznaczone reguły, sporządzić
tabele klasyfikacji. Obliczyć procent poprawnych klasyfikacji na zbiorze testowym.
d) Zaprezentować graficznie sposób w jaki dokonujemy klasyfikacji obiektów za pomocą funkcji
lda i qda (patrz Rysunki 1,2 ), można wykorzystać funkcje contour i expand.grid.
LDA Classification
●
5
4
●
Flavanoids
●
3
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●●
●
●
2
●
●
●
●
●
●
1
●
●●
●●
●●
● ●
●●
●
●●
●● ●●
●
● ●
● ●
●●●
●
●
●
●
●
●
●
11
12
●●
●●
●
●
●
● ● ● ● ●●
● ●
●
●
●●
●● ●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
V1
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
● ● ●●
●
●
●●
●
●
●
●
●
● ● ●●●
1
●
2
●
3
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●●
●
● ●●
●
●
13
●
●
14
15
Alcohol
Rysunek 1: Klasyfikacja za pomocą liniowej funkcji dyskryminacyjnej.
QDA Classification
●
5
4
●
Flavanoids
●
3
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●●
●
●
2
●
●
●
●
●
●
1
●
●●
●●
●●
● ●
●●
●
●●
●● ●●
●
● ●
● ●
●●●
●
●
●
●
●
●
●
●●
●●
●
●
●
● ● ● ● ●●
● ●
●
●
●●
●
●●
●● ● ●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
V1
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
● ● ●●
●
●
●●
●
●
●
●
●
● ● ●●●
●
1
●
2
●
3
●
●
●
●
●
●
●
●● ●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●●
●
● ●●
●
●
●
●
11
12
13
14
15
Alcohol
Rysunek 2: Klasyfikacja za pomocą kwadratowej funkcji dyskryminacyjnej.
2.2
Zaimplementuj i przetestuj na zbiorze danych z poprzedniego zadania metodę klasyfikacji opartą
o wielowymiarowy model regresji. Porównaj wyniki z tymi otrzymanymi dla LDA i QDA.
2.3
Zbiór danych skoringowych kredit.asc zawiera informację o klientach banku. Zmienna kredit zawiera informację czy klient spłacił kredyt (wartość 1) czy nie spłacił kredytu (wartość 0). Każdy
z klientów jest opisany w terminach punktów skoringowych. Dokładny opis danych znajduje się
na stronie http://www.ipipan.eu/~teisseyrep/DM/DANE/kredit.htm.
a) Zastosować losowy podział danych na próbę testową i treningową. Zbiór treningowy będzie
używany do dopasowania modelu, natomiast na zbiorze testowym będzie wykonywana predykcja.
b) Zbudować klasyfikator na podstawie wszystkich atrybutów używając funkcji lda(MASS) i
qda(MASS). Wypisać tabelę klasyfikacji na zbiorze testowym i podać procent poprawnych klasyfikacji.
c) Używając procedury stepclass(klaR) (z opcją direction=”backward”) dokonać eliminacji zmiennych. Dla otrzymanego modelu wypisać tabelę klasyfikacji na zbiorze testowym i podać
procent poprawnych klasyfikacji.