Projekt z eksploracji danych PDF
Transkrypt
Projekt z eksploracji danych PDF
Eksploracja danych
Piotr Lipiński
Projekt z eksploracji danych
Celem projektu jest rozwiązanie wybranego praktycznego
problemu analizy danych przy użyciu znanych metod
eksploracji danych (poznanych na wykładzie lub poza nim).
Kluczowym elementem projektu jest kreatywność w analizie
danych (pomysłowość, dociekliwość, własna interpretacja
problemu, właściwy dobór metod, itp.).
Projekty należy wykonywać pod nadzorem prowadzącego
zajęcia, samodzielnie lub w grupie dwuosobowej.
Efekt końcowy wykonania projektu powinien zawierać:
oryginalne analizowane dane (jeśli nie zostały dostarczone przez
prowadzącego zajęcia)
pośrednie dane przetworzone (z różnych etapów analizy, jeśli ich
otrzymanie jest czasochłonne)
oprogramowanie (skrypty, programy, narzędzia)
raport końcowy (zwięzły i krótki, ale wyczerpujący)
Piotr Lipiński, Wykład z eksploracji danych
1
Projekt z eksploracji danych
Raport powinien zawierać:
opis danych i badanego zagadnienia
szczegółowy opis użytych metod (jeśli nie są to klasyczne metody
omówione na wykładzie)
szczegółowy opis implementacji użytych metod (jeśli nie jest ona
oczywista)
szczegółowy opis uzyskanych wyników
wnioski końcowe, podsumowanie, perspektywy rozwoju
Projekt zostanie oceniony w skali od 0 do 30 punktów:
wybór metod i narzędzi (5 punktów)
efektywność implementacji (5 punktów)
otrzymane wyniki końcowe i cząstkowe (5 punktów)
"wnikliwość analizy danych" (5 punktów)
raport końcowy (5 punktów)
całokształt rozwiązania problemu (5 punktów)
Piotr Lipiński, Wykład z eksploracji danych
Projekt z eksploracji danych
Terminy:
ustalenie tematu projektu i składu grupy – 9 stycznia
przedstawienie podejścia do problemu – 9 i 12 stycznia
przedstawienie wyników cząstkowych – 23 i 26 stycznia
przedstawienie raportu końcowego – koniec semestru
konsultacje, pytania, inne ustalenia z prowadzącym zajęcia – cały
czas, osobiście lub emailem
Piotr Lipiński, Wykład z eksploracji danych
2
Projekt z eksploracji danych
Proponowane tematy (można też zgłaszać własne propozycje):
systemy rekomendujące
proponuje tę część tematów jako „wersję podstawową”, czyli projekt dla osób, które nie mają czasu/nie
chcą wchodzić w bardziej złożone zagadnienia
(co nie znaczy, że osoby, które mają więcej czasu nie będą miały tutaj pola do popisu)
radziłbym wybrać zbiór danych MovieLens lub Million Song / Last FM, bo są one na tyle duże, że
zapewniają ciekawą zabawę i możliwość otrzymania ciekawych wyników
grupowanie i klasyfikacja danych
proponuje tę część tematów jako projekt dla osób bardziej dociekliwych i dysponujących większą ilością
czasu
projekt wiąże się też z ryzykiem, że otrzymane wyniki mogą być słabsze niż dla tematów standardowych
osoby zainteresowane projektem związanym z LOB lub analizą cyklu życia produktów zapraszam do
kontaktu osobistego lub emailem (dane nie są publicznie dostępne i proszę ich nie rozpowszechniać)
własne pomysły mile widziane
osoby zainteresowane innymi tematami proszę o kontakt osobisty lub emailem w celu ustalenia zakresu
projektu
Ciekawe projekty mogą
mogą być
być punktem wyjś
wyjścia do prac dyplomowych, projektó
projektów licencjackich, itp.
Piotr Lipiński, Wykład z eksploracji danych
Projekt z eksploracji danych
system rekomendujący
na przykład dla filmów na danych MovieLens
(http://grouplens.org/datasets/movielens)
na przykład dla książek na danych BookCrossing
(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)
na przykład dla dowcipów na danych Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
Million Song Dataset Challenge (https://www.kaggle.com/c/msdchallenge)
Event Recommendation Engine Challenge (https://www.kaggle.com/c/eventrecommendation-engine-challenge)
Last.fm (różne zbiory danych)
(http://labrosa.ee.columbia.edu/millionsong/lastfm)
Piotr Lipiński, Wykład z eksploracji danych
3
MovieLens
MovieLens 100K
MovieLens 1M
MovieLens 10M
This data set contains 10000054 ratings and 95580 tags applied to 10681
movies by 71567 users of the online movie recommender service MovieLens.
Users were selected at random for inclusion. All users selected had rated at
least 20 movies. Unlike previous MovieLens data sets, no demographic
information is included. Each user is represented by an id, and no other
information is provided.
(http://grouplens.org/datasets/movielens)
Piotr Lipiński, Wykład z eksploracji danych
BookCrossing
BX-Users
Contains the users. Note that user IDs (`User-ID`) have been anonymized and
map to integers. Demographic data is provided (`Location`, `Age`) if
available. Otherwise, these fields contain NULL-values.
BX-Books
Books are identified by their respective ISBN. Invalid ISBNs have already
been removed from the dataset. Moreover, some content-based information is
given (`Book-Title`, `Book-Author`, `Year-Of-Publication`, `Publisher`),
obtained from Amazon Web Services. Note that in case of several authors,
only the first is provided. URLs linking to cover images are also given,
appearing in three different flavours (`Image-URL-S`, `Image-URL-M`,
`Image-URL-L`), i.e., small, medium, large. These URLs point to the
Amazon web site.
BX-Book-Ratings
Contains the book rating information. Ratings (`Book-Rating`) are either
explicit, expressed on a scale from 1-10 (higher values denoting higher
appreciation), or implicit, expressed by 0.
(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)
Piotr Lipiński, Wykład z eksploracji danych
4
Jester
3 Data files contain anonymous ratings data from 73,421 users.
Data files are in .zip format, when unzipped, they are in Excel (.xls)
format
Ratings are real values ranging from -10.00 to +10.00 (the value "99"
corresponds to "null" = "not rated").
One row per user
The first column gives the number of jokes rated by that user. The next
100 columns give the ratings for jokes 01 - 100.
The sub-matrix including only columns {5, 7, 8, 13, 15, 16, 17, 18, 19,
20} is dense. Almost all users have rated those jokes.
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
Piotr Lipiński, Wykład z eksploracji danych
Projekt z eksploracji danych
grupowanie i klasyfikacja danych
rozszerzenie grupowanie punktów na wielospektralnych zdjęciach satelitarnych
CIFAR-10 lub CIFAR-100
SVHN (The Street View House Numbers)
(http://ufldl.stanford.edu/housenumbers/)
może wymagać dodatkowej wiedzy o bardziej zaawansowanych klasyfikatorach
(m.in. SVM)
analiza ruchu internetowego
na przykład w Anonymous Microsoft Web Data (z UCI)
na przykład w MSNBC.com Anonymous Web Data (UCI)
na przykład w NASA HTTP
(http://ita.ee.lbl.gov/html/contrib/NASA-HTTP.html)
Web Usage Mining Using APRIORI and FP Growth Algorithms
Bayesian Approach to Filtering Junk E-Mail
grupowanie lub klasyfikacja oparta na atrybutach
może wymagać dodatkowej wiedzy o bardziej zaawansowanych klasyfikatorach
(m.in. SVM)
na przykład na danych Animals with Attributes
(http://attributes.kyb.tuebingen.mpg.de)
Piotr Lipiński, Wykład z eksploracji danych
5
Projekt z eksploracji danych
klasyfikacja LOB Data
wejście: imbalance lub LOB
dwie klasy: wzrost lub spadek mid-price
grupowanie LOB Data
wyznaczyć grupy podobnych LOB (wzorce LOB, stany rynku)
pożądane własności:
stałość wzorców (rynek nie powinien „skakać między stanami/wzorcami”)
powtarzalność wzorców (rynek powinien wracać do wcześniejszych
stanów/wzorców)
dokładny opis tematów był przedstawiony na zajęciach
Osoby zainteresowane projektem zapraszam do kontaktu osobistego lub emailem w celu ustalenia szczegółów
(m.in. otrzymania danych, które nie są publicznie dostępne i których proszę nie rozpowszechniać).
Piotr Lipiński, Wykład z eksploracji danych
Projekt z eksploracji danych
grupowanie cykli życia produktów (na podstawie danych o historii
ich sprzedaży)
dokładny opis tematów był przedstawiony na zajęciach
Osoby zainteresowane projektem zapraszam do kontaktu osobistego lub emailem w celu ustalenia szczegółów
(m.in. otrzymania danych, które nie są publicznie dostępne i których proszę nie rozpowszechniać).
Piotr Lipiński, Wykład z eksploracji danych
6