Laboratorium 2 (LDA, QDA, regresja w klasyfikacji) 2.1 Zbiór danych
Transkrypt
Laboratorium 2 (LDA, QDA, regresja w klasyfikacji) 2.1 Zbiór danych
DATA MINING 2016/2017 Laboratorium 2 (LDA, QDA, regresja w klasyfikacji) 2.1 Zbiór danych wine.data zawiera dane dotyczące wyników chemicznej analizy win pochodzących z tego samego regionu Włoch, ale od trzech różnych plantatorów (Barolo, Grignolino, Barbera). W zbiorze mamy m.in zmienne: • V1- zmienna grupująca, przyjmuje wartości 1, 2, 3 (numer plantatora), • V2- zawartość alkoholu, • V8- zawartość flawanoidów, • inne (dokładny opis na http://archive.ics.uci.edu/ml/datasets/Wine). a) Zastosować losowy podział danych na próbę testową i treningową. Zbiór treningowy będzie używany do dopasowania modelu, natomiast na zbiorze testowym będzie wykonywana predykcja. b) Skorzystać z funkcji lda(MASS) oraz qda(MASS) i utworzyć regułę dyskryminacyjną przy wykorzystaniu dwóch atrybutów: V2 i V8, na podstawie zbioru treningowego. Dla każdego obiektu (z danych treningowych i testowych) wypisać prawdopodobieństwo zaklasyfikowania do jednej z trzech klas (skorzystaj z funkcji predict.lda, predict.qda). c) Zaklasyfikować wszystkie obiekty ze zbioru testowego stosując wyznaczone reguły, sporządzić tabele klasyfikacji. Obliczyć procent poprawnych klasyfikacji na zbiorze testowym. d) Zaprezentować graficznie sposób w jaki dokonujemy klasyfikacji obiektów za pomocą funkcji lda i qda (patrz Rysunki 1,2 ), można wykorzystać funkcje contour i expand.grid. LDA Classification ● 5 4 ● Flavanoids ● 3 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● 2 ● ● ● ● ● ● 1 ● ●● ●● ●● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● 11 12 ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● V1 ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●●● 1 ● 2 ● 3 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● 13 ● ● 14 15 Alcohol Rysunek 1: Klasyfikacja za pomocą liniowej funkcji dyskryminacyjnej. QDA Classification ● 5 4 ● Flavanoids ● 3 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● 2 ● ● ● ● ● ● 1 ● ●● ●● ●● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● V1 ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●●● ● 1 ● 2 ● 3 ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● 11 12 13 14 15 Alcohol Rysunek 2: Klasyfikacja za pomocą kwadratowej funkcji dyskryminacyjnej. 2.2 Zaimplementuj i przetestuj na zbiorze danych z poprzedniego zadania metodę klasyfikacji opartą o wielowymiarowy model regresji. Porównaj wyniki z tymi otrzymanymi dla LDA i QDA. 2.3 Zbiór danych skoringowych kredit.asc zawiera informację o klientach banku. Zmienna kredit zawiera informację czy klient spłacił kredyt (wartość 1) czy nie spłacił kredytu (wartość 0). Każdy z klientów jest opisany w terminach punktów skoringowych. Dokładny opis danych znajduje się na stronie http://www.ipipan.eu/~teisseyrep/DM/DANE/kredit.htm. a) Zastosować losowy podział danych na próbę testową i treningową. Zbiór treningowy będzie używany do dopasowania modelu, natomiast na zbiorze testowym będzie wykonywana predykcja. b) Zbudować klasyfikator na podstawie wszystkich atrybutów używając funkcji lda(MASS) i qda(MASS). Wypisać tabelę klasyfikacji na zbiorze testowym i podać procent poprawnych klasyfikacji. c) Używając procedury stepclass(klaR) (z opcją direction=”backward”) dokonać eliminacji zmiennych. Dla otrzymanego modelu wypisać tabelę klasyfikacji na zbiorze testowym i podać procent poprawnych klasyfikacji.