Autoreferat
Transkrypt
Autoreferat
Autoreferat 1 Imi¦ i Nazwisko: Marcin Sydow 2 Posiadane dyplomy, stopnie naukowe: • magister matematyki, Wydziaª Matematyki, Informatyki i Mechaniki, Uniwersytet Warszawski, 1997 • doktor nauk technicznych w zakresie informatyki, Instytut Podstaw Informatyki, Polska Akademia Nauk, 2004: Link Analysis of the Web Graph. Measurements, Models and Algorithms for Web Information Retrieval 3 Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych: • Instytut Podstaw Informatyki, Polska Akademia Nauk, adiunkt, od 2010 • Polsko-Japo«ska Wy»sza Szkoªa Technik Komputerowych, adiunkt, od 2004 • Polsko-Japo«ska Wy»sza Szkoªa Technik Komputerowych, asystent, 19992004 • Politechnika Warszawska, Wydziaª Fizyki Teoretycznej i Matematyki Stosowanej, asystent, 1997-1998 4 Wskazanie osi¡gni¦cia wynikaj¡cego z art. 16 ust. 2 ustawy z dnia 14 marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w zakresie sztuki (Dz. U. nr 65, poz. 595 ze zm.): 4.1 Tytuª osi¡gni¦cia naukowego: Dywersykacja informacji w wybranych zadaniach selekcji, wyszukiwania i prezentacji informacji w semantycznych grafach wiedzy i wyszukiwarkach internetowych 1 4.2 1. Cykl 6 publikacji stanowi¡cych osi¡gni¦cie naukowe: [SPS13] M.Sydow, The Notion of Diversity in M.Pikuªa, R.Schenkel Graphical Entity Summarisation on Semantic Knowledge Graphs Journal of Intelligent Information Systems, Volume 41, Issue 2, pp. 109-149, ISSN 0925-9902, DOC: 10.1007/s10844-013-0239-6, Springer, 2013. (na li±cie JCR Wkªad wªasny: 20 cytowa« 2. [KKRS13] i w bazie 70% Web of Science, Impact Factor: 0.632) (M.Pikuªa: 20%, R.Schenkel: 10%) (Google Scholar), 2 cytowania (Web of Science) W.Kosi«ski, T.Ku±mierczyk, P.Rembelski, M.Sydow Appli- cation of Ant-Colony Optimisation to Compute Diversied Entity Summarisation on Semantic Knowledge Graphs , Science and Information Systems, Volume 1, pp. (also: Proc. of International IEEE AAIA 2013/FedCSIS Conference, ISBN 978-1-4673-4471-5), PTI/IEEE, 2013. (obecna w bazie Wkªad wªasny: 3. Annals of Computer 69-76, ISSN 2300-5963, 40% Web of Science) (W.Kosi«ski,T.Ku±mierczyk po 25%, P.Rembelski 10%) [Syd14a] M.Sydow Approximation Guarantees for Max Sum and Max Min Facility Dispersion with Parameterised Triangle Inequality and Applications in Result Diversication Mathematica Applicanda vol. 42(2), pp. (extended journal version) 241257, Print ISSN: 1730-2668, On-line ISSN: 2299-4009, DOI: 10.14708/ma.v42i0.547, PTM, 2014. Wkªad wªasny: 4. [MSS14] 100% S.Metzger, R.Schenkel, M.Sydow Aspect-based Similar En- tity Search in Semantic Knowledge Graphs with Diversity-awareness and Relaxation Proceedings of the IEEE/WIC/ACM WI-IAT 2014 (Intern. Joint Conference on Web Intelligence and Intell. Agent Techn.), pp. 60-69, ISBN 978-1-4799-4143-8, DOI 10.1109/WI-IAT.2014.17, IEEE Computer Society, 2014. Wkªad wªasny: 1 cytowanie 5. 25% (S.Metzger: 50%, R.Schenkel: 25%) (Google Scholar) [SBCD09] M.Sydow, F.Bonchi, C.Castillo, D.Donato ical Query Decomposition Proc. Optimising Top- of WSCD09 (collocated with ACM WSDM 2009 Conference) pp. 43-47, ISBN 978-1-60558-434-8, DOI: 10.1145/1507509.1507516, ACM, 2009. Wkªad wªasny: 5 cytowa« 6. 65% (F.Bonchi 15%, C.Castillo 10%, D.Donato 10%) (Google Scholar) [SCW12] M.Sydow, K.Ciesielski, J.Wajda Introducing Diversity to Log-based Query Suggestions to Deal with Underspecied User Queries , LNCS Vol. 7053, pp. 251-264 (Proc. of Intern. SIIS 2011 Con- ference, Revised Selected Papers), ISBN 978-3-642-25260-0, Springer, 2012. (Web of Science) 6 cytowa« Wkªad wªasny: (Google Scholar), 55% (K.Ciesielski: 20%, Wajda: 25%) 2 cytowania 2 (Web of Science) 4.3 Ogólne omówienie celu naukowego ww. prac, wyników oraz ich zastosowa«. Przedmiotem osi¡gni¦cia jest stworzenie i eksperymentalna ewaluacja nowych technik tzw. dywersykacji informacji, co ma zastosowanie w interaktywnych sys- temach informacyjnych, w których: • system ma dokona¢ selekcji i prezentacji u»ytkownikowi niewielkiego zbioru reprezentatywnych informacji, tak aby najlepiej speªni¢ jego potrzeb¦ informacyjn¡; • system musi dokona¢ selekcji spo±ród du»ej liczby obiektów potencjalnie speªniaj¡cych potrzeb¦ u»ytkownika, przy czym istnieje wiele mo»liwych interpretacji potrzeby informacyjnej u»ytkownika. Istotne jest to, »e liczba obiektów, które nale»y wybra¢ i zaprezentowa¢ jest niewielka w porównaniu z liczb¡ obiektów potencjalnie speªniaj¡cych potrzeb¦ u»ytkownika. Przykªadem takiego systemu jest wyszukiwarka WWW, gdzie u»ytkownik formuªuje zwykle krótkie i wieloznaczne zapytanie oczekuj¡c krótkiej listy (np. 10) dokumentów WWW, które w jak najwi¦kszej cz¦±ci trafnie speªni¡ jego potrzeb¦ informacyjn¡ wyra»on¡ przez zapytanie, przy czym liczba dost¦pnych dokumentów jest ogromna (np. rz¦du sposobów. 109 ) a zapytanie mo»e by¢ interpretowane na wiele Innym przykªadem jest system automatycznie podsumowuj¡cy tekst, gdzie zadaniem jest wygenerowanie krótkiego podsumowania skªadaj¡cego si¦ z niewielkiej w porównaniu z wyj±ciowym tekstem liczby zda«, które reprezentatywnie podsumuj¡ jak najwi¦cej jego aspektów. W zadaniach tego typu znajduj¡ zastosowanie techniki polegaj¡ce na celowej i kontrolowanej dywersykacji zwracanych wyników, tak aby niewielki zwracany u»ytkownikowi zbiór reprezentowaª jak najwi¦cej mo»liwych aspektów lub interpretacji potrzeby informacyjnej u»ytkownika, aby w efekcie w tym niewielkim zbiorze zawrze¢ obiekty, które faktycznie oka»¡ si¦ trafne dla u»ytkownika. Nowatorsko±¢ osi¡gni¦cia polega m.in. na rozwini¦ciu i adaptacji istniej¡cych technik dywersykacji do nowych zada«, w których techniki takie nie byªy do tej pory stosowane, a tak»e na zaproponowaniu nowych pomysªów. W szczególno±ci, w pracach innych badaczy dywersykacji podlegaªy do tej pory gªównie obiekty tekstowe (dokumenty, zdania) natomiast zaproponowane przez autora rozwi¡zania dotycz¡ zupeªnie innych i czasem nowych obiektów takich jak np. elementy semantycznych grafów wiedzy lub podpowiedzi zapyta« w wyszukiwarkach WWW. W zwi¡zku z tym zaprojektowano te» zupeªnie nowe elementy technik, adekwatne do nowych danych i zada«. Stworzone techniki dywersykacji dotycz¡ nast¦puj¡cych nowych zastosowa«: • zdywersykowane podsumowywanie encji w semantycznych grafach wiedzy [SPS13, KKRS13, SPS12, Syd14c, SPS11, SPS10b, Syd11, SPS10a, SPSS10] • wybór encji podobnych do zadanych (w semantycznych grafach wiedzy) [SCSS15, MSS13, MSS14] • automatyczne generowanie zdywersykowanych warkach internetowych [SMN + podpowiedzi zapyta« w wyszuki- 15, SCW12, SBCD09, MNSS13]. 3 Spo±ród wybranych 6 prac stanowi¡cych osi¡gni¦cie, 3 dotycz¡ semantycznych grafów wiedzy. Przy czym, spo±ród tych 3, 2 prace [SPS13, KKRS13] dotycz¡ zdywersykowanych podsumowa« encji, a 1 praca [MSS14] zdywersykowanego wyboru (sugerowania u»ytkownikowi) wej±ciowych. zbioru encji podobnych do zadanych encji Nast¦pnie, 2 prace [SCW12, SBCD09] dotycz¡ generowania zdy- wersykowanych podpowiedzi zapyta« w wyszukiwarkach internetowych, natomiast 1 praca [Syd14a] zawiera pewne pomocnicze wyniki teoretyczne, maj¡ce po- tencjalne zastosowania we wszystkich technikach dywersykacji, które mog¡ by¢ wywiedzione z problemu dyspersji (ang. facility dispersion ), w szczególnosci w rozwa»anych w pozostaªych pracach cyklu. Wymienione 6 publikacji stanowi¡cych osi¡gni¦cie naukowe stanowi jedynie wybór reprezentuj¡cy znacznie liczniejszy zbiór okoªo 20 prac autora dotycz¡cych tematyki dywersykacji. Lista pozostaªych prac autora z lat 2008-2015 pozwi¡zanych z tematyk¡ dywersykacji wymieniona jest w sekcji 5. Prace o tej tematyce stanowi¡ okoªo 30% caªego dorobku publikacyjnego (ok. 65 prac) autora. Autor niezale»nie od tego zajmowaª si¦ licznymi innymi tematami badawczymi, co opisane jest w sekcji 5. 4.4 Krótkie omówienie poszczególnych prac stanowi¡cych osi¡gni¦cie 4.4.1 Zdywersykowane podsumowania encji w semantycznych grafach wiedzy (praca [SPS13]) Podstawowy w¡tek osi¡gni¦cia reprezentuje publikacja [SPS13], gdzie opisany jest oryginalnie zaproponowany przez autora problem grafowego podsumowania encji Graphical Entity Summarisation GES ) w semantycznych grafach wiedzy (ang. i jednocze±nie zaproponowane i badane jest podej±cie oparte na tego problemu DIVERSUM (ang. Termin encja (ang. dywersykacji do diversied entity summarisation ). entity ) jest podstawowym terminem z dziedziny baz danych, stanowi¡cym reprezentacj¦ w bazie danych abstrakcyjnego lub rzeczywistego obiektu z modelowanej dziedziny (np. osoba, kraj, partia polityczna, etc.). Natomiast podsumowanie encji, poprzez analogi¦ do np. podsumowywania tek- stu, stanowi proces selekcji (spo±ród wielu dost¦pnych w bazie) niewielkiego zbioru reprezentatywnych informacji dotycz¡cych danej encji i prezentacji ich w zwartej formie u»ytkownikowi. W przypadku semantycznych grafów wiedzy, informacje dotycz¡ce danej encji nazywane s¡ te» faktami. Fakt w takiej bazie reprezentowany jest przez par¦ w¦zªów (reprezentuj¡cych encje) poª¡czon¡ kraw¦dzi¡ (reprezentuj¡c¡ jak¡± relacj¦ mi¦dzy encjami, np. (Chopin, pochodzi z , Polski). Zazwyczaj caªkowita liczba faktów dost¦pnych w bazie dotycz¡cych danej encji (np. sªynnego polityka, pa«stwa, etc.) jest zbyt du»a do ªatwego przyswoje- nia dla u»ytkownika, wi¦c podsumowanie encji (wyselekcjonowany zbiór faktów) stanowi u»yteczne narz¦dzie we wszelkich systemach analitycznych, czy sªu»¡cych do przegl¡dania lub wyszukiwania informacji w semantycznych bazach danych. Powy»ej opisane zadanie speªnia dwa warunki opisane na pocz¡tku sekcji 4.3 stanowi wi¦c naturalne pole zastowa« dla technik dywersykacji. Obliczone przez system podsumowanie zwracane jest w formie grafu i przed- stawiane u»ytkownikowi w formie gracznej, co stanowi nowo±¢, gdy» w istniej¡- 4 cych wcze±niej systemach dotycz¡cych semantycznych grafów wiedzy, wynik prezentowany byª w formie elementów tekstu (np. systemu YAGO [yag]). + wyszukiwarka NAGA [KSI 08] dla Wszystkie wymienione wy»ej cechy badanego problemu sprawiaj¡, »e praca [SPS13] jest oryginaln¡ syntez¡ i rozwini¦ciem kilku innych niezale»nie istniej¡cych pomysªów i stanowi pioniersk¡ prac¦ dotycz¡c¡ tak uj¦tego problemu. Zawarto±¢ pracy [SPS13]: We wst¦pnych cz¦±ciach pracy [SPS13] omówiona jest motywacja, podany przykªadowy konkretny scenariusz zastosowania praktycznego proponowanego rozwi¡zania i wyja±nienie modelu semantycznego grafu wiedzy. Dokonany jest te» przegl¡d literatury dotycz¡cej dziedzin, których syntez¦ stanowi ta praca: podsumowa« tekstów, i istniej¡cych technik dywersykacji informacji w innych dziedzinach. Omówiony jest te» kontekst zagadnienia wyszukiwania informacji (ang. IR - information retrieval ) stanowi¡cy inspiracj¦ dla oryginalnych idei autora przy rozwi¡zywaniu omawianego nowego problemu. Nast¦pnie opisane s¡ 2 zaproponowane przez autora algorytmy pozwalaj¡ce efektywnie rozwi¡za¢ proponowany problem. Pierwszy algorytm (nazwany PRE- CIS) pozwala efektywnie oblicza¢ zadane podsumowanie encji uwzgl¦dniaj¡c 2 kryteria doboru faktów (kraw¦dzi grafu semantycznego): trafno±¢ (ang. relevance ) i wa»no±¢ (ang. importance ). Algorytm PRECIS nie uwzgl¦dnia kryterium dywersykacji i jest u»yty w dalszej cz¦±ci pracy jako algorytm referencyjny do porównania wyników z algorytmem uwzgl¦dniaj¡cym dywersykacj¦. Algorytm jest autorskim rozwini¦ciem i adaptacj¡ klasycznego algorytmu Dijkstry znajdowania najkrótszych ±cie»ek z jednym ¹ródªem w grafach [Dij59] na przypadek semantycznych (multi-)grafów wiedzy i z odpowiednim rozbudowaniem poj¦cia odlegªo±ci. W tym zachªannym algorytmie elementy podsumowania dodawane s¡ sukcesywnie a» do uzyskania zadanego rozmiaru w kolejno±ci od najbli»szych do najdalszych w sensie odpowiednio zdeniowanej odlegªo±ci od podsumowywanego w¦zªa. Nast¦pnie opisany jest drugi zaproponowany przez autora efektywny algorytm (nazywany w tej pracy DIVERSUM) dla rozwa»anego problemu. Algorytm ten uwzgl¦dnia 4 kryteria doboru faktów do podsumowania: trafno±¢, dywersykacja, popularno±¢ i wa»no±¢. Nast¦pnie przedstawiono wyniki obiektywnej eksperymentalnej ewaluacji na danych z semantycznego grafu wiedzy YAGO [yag] przy u»yciu zaproponowanej miary jako±ci oraz innego eksperymentu ewaluacyjnego porównuj¡cego wyniki obu algorytmów przy u»yciu informacji dost¦pnej w serwisie Wikipedia [wik]. Do ewaluacji porównawczej u»yto algorytmu PRECIS jako rozwi¡zania referencyjnego. Oprócz tego przedstawiono wyniki kolejnej serii eksperymentów subiektywnej ewaluacji z u»yciem opinii ekspertów oraz z udziaªem u»ytkowników, w których zastosowano techniki tzw. crowdsourcingu. Technika ta polega na masowym zlecaniu wykonywania drobnych zada« niezidentykowanej szerokiej grupie ludzi za po±rednictwem specjalnego portalu WWW, np. mechanical turk [mtu]. Dla zwi¦kszenia wiarygodno±ci wyników eksperymentów subiektywnych, ukryto przed u»ytkownikami oceniaj¡cymi algorytmy fakt stosowania podej±cia opartego na dywersykacji w jednym z algorytmów a wyniki byªy przedstawiane w losowej kolejno±ci. Dodatkowo, zastosowano opcjonalne pole tekstowe, w którym u»ytkownicy mogli wyrazi¢ w formie otwartych komentarzy opinie o ocenianych wynikach. U»ytkown- 5 icy samodzielnie podkre±lali w owych komentarzach, »e preferuj¡ wyniki bardziej zró»nicowane. We wszystkich wymienionych eksperymentach wykazano przewag¦ podej±cia uwzgl¦dniaj¡cego dywersykacj¦ wyników. Potwierdza to gªówn¡ tez¦ pracy, »e dywersykacja wyników w badanym problemie jest podej±ciem po»¡danym, poprawia jako±¢ wyników i zwi¦ksza satysfakcj¦ u»ytkowników z dziaªania systemu. Jednocze±nie eksperymenty w pracy [SPS13] ujawniªy jako dodatkowy wynik, »e stopie« dywersykacji wyników zwracanych przez algorytm DIVERSUM jest potencjalnie zbyt wysoki, mimo ogólnie pozytywnego efektu zastosowania dywer- sykacji do problemu GES. Dokªadniej, poprzez dychotomiczne podej±cie, tj ±cisªe unikanie redundancji w algorytmie DIVERSUM, niemo»liwe jest subtelne odzwierciedlenie rozkªadu relacji b¦d¡cych udziaªem podsumowywanej encji. W konkluzji pracy [SPS13] zauwa»a si¦ wi¦c, »e dalsze ulepszenie algorytmu DIVERSUM polegaªoby na wprowadzeniu parametru, dzi¦ki któremu mo»liwe byªoby kontrolowanie stopnia dywersykacji. W takim uj¦ciu, poprzednie podej±cia brak dywersykacji (algorytm PRECIS) i maksymalna dywersykacja (algorytm DIVERSUM, unikaj¡cy jakichkolwiek powtórze«) postrzegane by¢ mog¡ jako skrajne podej±cia i mimo przewagi drugiego z nich, po»¡dane byªoby rozwi¡zanie po±rednie, najlepiej z mo»liwo±ci¡ stopniowania. Praca nad publikacj¡ [SPS13] rozwijana byªa w intensywnej wspóªpracy z Max Planck Institut fuer Informatik, w Saarbruecken, w Niemczech w ramach zespoªu, który rozwija m.in. semantyczny graf wiedzy YAGO [yag]. Autor odbyª te» w jej ramach kilka sta»y/wizyt naukowych w tym o±rodku w latach 2009, 2010 i 2013. Na nansowanie jednego z nich autor uzyskaª stypendium DAAD w roku 2010. Wyniki wcze±niejszych etapów pracy nad publikacj¡ [SPS13] prezentowane byªy na licznych konferencjach mi¦dzynarodowych takich jak ACM CIKM 2009, IEEE ICDE 2010, IMCSIT 2010, ECIR 2011, ISMIS 2012. Praca [SPS13] poprzez postawienie i zarazem rozwi¡zanie nowego problemu w krótkim czasie od ukazania si¦ doczekaªa si¦ cytowa« (ok. 25 cytowa«) na konferencjach i w czasopismach specjalistycznych dotycz¡cych tej problematyki. Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [MSS14] wygraª konkurs NCN na nansowanie grantem N N516 481940, którego autor byª kierownikiem. 4.4.2 DIVERSUM jako problem optymalizacyjny (praca [KKRS13]) Ze wzgl¦du na obserwacj¦ wymienion¡ pod koniec sekcji 4.4.1, w pracy [KKRS13], która stanowi cz¦±¢ opisywanego osi¡gni¦cia i jest naturaln¡ kontynuacj¡ pracy [SPS13], zaproponowano ulepszony algorytm DIVERSUM, w którym stopie« dywersykacji mo»e by¢ kontrolowany za pomoc¡ parametru σ ∈ R+ w ten sposób, »e im wi¦ksza jego warto±¢ tym bardziej zdywersykowane s¡ wyniki (dla σ=0 algorytm nie uwzgl¦dnia dywersykacji i zachowuje si¦ podobnie do algorytmu PRECIS). W tym celu zaadaptowano do problemu GES techniki dywersykacji wyników stosowane nieco wcze±niej przez innych autorów [GS09], ale w dziedzinie wyszukiwania dokumentów www, a oparte na badanym jeszcze wcze±niej w dziedzinie bada« operacyjnych problemie dyspersji (ang. Facility Dispersion FD ) [CH96]. 6 W problemie FD chodzi o rozmieszczenie przestrzenne k ∈ N+ obiektów poprzez wybranie spo±ród wielu potencjalnych lokalizacji niewielkiego zbioru lokalizacji tak, aby byªy one mo»liwie rozrzucone w sensie odlegªo±ci. parami wszystkich potencjalnych lokalizacji. Podane s¡ odlegªo±ci Stopie« rozrzucenia przestrzennego wybranych lokalizacji mierzony jest odpowiedni¡ funkcj¡ celu a zadanie sformuªowane jest jako optymalizacja (maksymalizacja) tej funkcji. W pracy [GS09] autorzy zaproponowali postawienie problemu dywersykacji wyników wyszukiwania w sieci WWW jako problemu optymalizacyjnego b¦d¡cego niejako rozszerzeniem dwóch wariantów problemu Facility Dispersion. W pracy [KKRS13] autor zaproponowaª z kolei adaptacj¦ techniki dywersykacji wyników wyszukiwania przedstawion¡ przez innych badaczy w [GS09] do problemu GES, czyli do zaprojektowania ulepszonej wersji algorytmu DIVERSUM. W pracy [KKRS13] zdeniowano problem zdywersykowanego podsumowywania encji w semantycznych grafach wiedzy rozszerzaj¡c specykacj¦ problemu GES imp o zaªo»enie, »e dost¦pna jest funkcja wa»no±ci faktu w kontek±cie podsumowywanej encji q (ang. oraz funkcja niepodobie«stwa par faktów podsumowuj¡cych encj¦ q. importance ) danego diss (ang. dissimilarity ) Przy takich zaªo»eniach zdeniowano na nowo ten problem jako optymalizacj¦ nast¦puj¡cej funkcji celu: objq (S) = (k − 1) X X impq (d) + 2σ dissq (d1 , d2 ), (1) d1 6=d2 ∈S d∈S która wyra»a parametryzowan¡ kombinacj¦ ª¡cznej warto±ci wa»no±ci oraz zdywersykowania danego zbioru faktów Celem jest znalezienie zbioru warto±¢ funkcji celu objq (S). S S. zawieraj¡cego k faktów, który maksymalizuje Pierwszy skªadnik we wzorze (1) odpowiada za sum¦ wa»no±ci wybranych faktów, natomiast drugi za ich wzajemne sumaryczne niepodobie«stwo parami. Intuicja jest taka, »e maksymalizuj¡c drugi czªon eliminujemy redundancj¦ czyli zbyt du»e wzajemne podobie«stwo wybranych elementów, co równowa»ne jest ich zdywersykowaniu. Wspóªczynniki zadanie odzwierciedli¢ fakt, »e istnieje dokªadnie ze zbioru k−1 oraz 2 maj¡ za k(k−1)/2 par ró»nych elementów k -elementowego. W ten sposób zdeniowano nowy w porównaniu do [SPS13] sposób otrzymywania zdywersykowanych podsumowa« encji w semantycznych grafach wiedzy (jako optymalizacj¦ w/w funkcji), w którym mo»liwe jest kontrolowanie stopnia dywersykacji za pomoc¡ parametru σ tak jak planowano w konkluzji pracy [SPS13]. Optymalizacja tak zdeniowanej funkcji celu jest równowa»na optymalizacji w zadaniu Max Sum Facility Dispersion (co pokazano m.in. w [GS09]), a wi¦c w sensie zªo»ono±ci obliczeniowej jest zadaniem NP-trudnym. Wobec tego w pracy [KKRS13] autor niniejszego autoreferatu w celu efektywnego rozwi¡zania tak postawionego trudnego zadania obliczeniowego zaproponowaª jako narz¦dzie obliczeniowe heurystyk¦ optymalizacji mrówkowej ACO (ang. Ant Colony Optimi- 1 sation ) do znajdowania rozwi¡zania przybli»onego. Zagadnieniem interesuj¡cym naukowo samym w sobie jest sposób obliczania funkcji imp (wa»no±ci pojedynczego faktu w kontek±cie podsumowywanej encji q 1 Zagadnienia teoretyczne i implementacyjne samej heurystyki ACO nie stanowi¡ cz¦±ci niniejszego osi¡gni¦cia naukowego i zostaªy wykonane przez wspóªautorów publikacji [KKRS13]. 7 w problemie GES) oraz diss (niepodobie«stwa parami dwóch faktów w kontek±cie 2 podsumowywanej encji). Zagadnienie obliczania tych funkcji zasªuguje na odd- zielne badania i zakªada si¦, »e funkcje imp oraz diss s¡ dane. imp pracy [KKRS13] autor zaproponowaª tutaj dla funkcji Jednak na potrzeby algorytm bª¡dzenia losowego w grae wiedzy z powrotami w oparciu o intuicj¦, »e fakty wa»ne dla danej encji q to te, które b¦d¡ cz¦sto odwiedzane rozpocz¦tego w wierzchoªku blisko±¢ topologiczn¡. q w procesie bª¡dzenia i z powrotami do tego wierzchoªka, z uwagi na Funkcj¦ diss z kolei obliczano na podstawie statystyk wspóªwyst¦powania w grae faktów (kraw¦dzi) o danych etykietach w incydencji z ró»nymi encjami (zgodnie z intuicj¡, »e im rzadziej kraw¦dzie o danych etykietach s¡ wspóªincydentne z dan¡ encj¡ tym bardziej s¡ niepodobne do siebie). Nast¦pnie opisane wy»ej podej±cie zaimplementowano i dokonano ewaluacji empirycznej na zbiorze danych YAGO [yag]. W tym celu zdeniowano kilka obiek- tywnych miar b¦d¡cych adaptacj¡ miar precyzji (ang. precision ) i peªno±ci (ang. recall ) do rozwa»anego problemu. Porównano wyniki tego nowego podej±cia do wyników algorytmów PRECIS i DIVERSUM oraz do zbioru referencyjnego stworzonego na podstawie Wikipedii. Wg wszystkich wykonanych eksperymentów przedstawionych w [KKRS13] nowo zaproponowane podej±cie do dywersykacji podsumowa« encji, polegaj¡ce na maksymalizacji funkcji opisanej równaniem (1), dla pewnej warto±ci parametru σ , byªo w stanie osi¡gn¡¢ najlepsze wyniki spo±ród wszystkich testowanych algorytmów, w tym PRECIS i DIVERSUM, omówionych wcze±niej. Co wa»ne, wyniki algorytmu DIVERSUM mogªy by¢ polepszone przez nowy algorytm tylko dla odpowiednio wysokiej warto±ci parametru σ, czyli przy odpowiednio wysokim stopniu dywersy- kacji wyników. Eksperymenty te jeszcze raz potwierdziªy, »e wprowadzenie nowego mechanizmu dywersykacji umo»liwiªo dalsze (w stosunku do algorytmu DIVERSUM z pracy [SPS13]) polepszenie jako±ci wyników wg wszelkich przyj¦tych obiektywnych miar ewaluacyjnych w problemie podsumowania encji w semantycznych grafach wiedzy. Wyniki przedstawione w pracy [KKRS13] prezentowane byªy na mi¦dzynarodowej konferencji IEEE AAIA/FedCSIS 2013. Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [MSS14] wygraª konkurs NCN na nansowanie grantem N N516 481940, którego autor byª kierownikiem. 4.4.3 Wyniki dotycz¡ce efektywnej aproksymacji rozwi¡za« problemów dywersykacji sformuªowanych na bazie problemu Facility Dispersion (praca [Syd14a]) Kontynuacj¡ pracy [KKRS13], w której zdeniowano zdywersykowany problem GES jako optymalizacj¦ funkcji opisanej równaniem (1), jest publikacja [Syd14a]. W pracy tej bada si¦ pewne algorytmiczne aspekty problemu efektywnego znajdowania przybli»onych rozwi¡za« dla zadania Max Sum i Max Min Facility Dispersion. Poniewa», jak przypomniano w sekcji 4.4.2, problem obliczania zdyw- ersykowanych podsumowa« encji w formie rozwa»anej w [KKRS13] jest algorytmicznie równowa»ny problemowi Max Sum Facility Dispersion, wyniki pracy 2 Przypomnie¢ przy tym nale»y przyj¦te w tej pracy wa»ne zaªo»enie o korzystaniu wyª¡cznie z danych zawartych w danym grae wiedzy, bez mo»liwo±ci korzystania z danych zewn¦trznych. 8 [Syd14a] maj¡ potencjalne zastosowania praktyczne w problemie b¦d¡cym przedmiotem opisywanego osi¡gni¦cia. Co wi¦cej, wyniki te maj¡ potencjalne zastosowania w wielu innych zagadnieniach zwi¡zanych z dywersykacj¡ w sformuªowaniach wywiedzionych z problemów Max Sum i Max Min Facility Dispersion, w szczególno±ci w problemie dywersykacji wyników wyszukiwania www (ang. result diver- sication ) [GS09]. Dokªadniej, w pracy [Syd14a] dowodzi si¦, »e NP-trudne problemy Max Sum i 3 Max Min Facility Dispersion mo»na w czasie wielomianowym aproksymowa¢ 2 wspóªczynnikiem , gdy funkcja odlegªo±ci α zowan¡ nierówno±¢ trójk¡ta: d(·, ·) speªnia nast¦puj¡c¡ ze parametry- d(x, y) + d(y, z) ≥ αd(x, z), dla ka»dej trójki elementów x, y, z rozwa»anego zbioru uniwersalnego. Wyniki te uogólniaj¡ znane wcze±niej wyniki dotycz¡ce przypadku zwykªej nierówno±ci trójk¡ta, tj α = 1, na dowoln¡ warto±¢ α ∈ [0, 2] czyli w zakresie od tzw metryki dyskretnej do semi-metryki. Co wa»ne, dodatkow¡ warto±¢ wyników pracy [Syd14a] stanowi zawarte w niej cz¦±ciowe rozwi¡zanie problemu naukowego postawionego niedawno przez innego naukowca w pracy prezentowanej na mi¦dzynarodowej konfenecji PODS 2012 [BLY12]. j¡co: Problem postawiony na ko«cu tej pracy sformuªowany zostaª nast¦pu- czy mo»liwe jest odniesienie wspóªczynnika aproksymacji do parametru uogólnionej nierówno±ci trójk¡ta, któr¡ speªnia funkcja odlegªo±ci w tym problemie? (tªum. z ang. autora). Omawiana praca [Syd14a] w sposób jasny daje odpowied¹ na to pytanie w szczególnym przypadku (autor [BLY12] rozwa»aª ogólniejszy przypadek). Wyniki teoretyczne uzyskane w [Syd14a] maj¡ zastosowania nie tylko w problemach zdywersykowanych podsumowa« encji, ale tak»e w du»o szerszym zbiorze zagadnie« dywersykacji, które potencjalnie wyspecykowa¢ mo»na na bazie problemu dyspersji (Facility Dispersion). Do takich potencjalnych zastosowa« zaliczy¢ mo»na np. systemy rekomendacyjne, wyszukiwarki WWW czy systemy do pod- sumowywania informacji. Wyniki wczesnych etapów pracy przedstawionej w publikacji [Syd14a] prezentowane byªy na konferencji mi¦dzynarodowej ISMIS 2014, oraz krajowej KZM 2014. Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [MSS14] wygraª konkurs OPUS 5 NCN na nansowanie grantem 2012/07/B/ST6/01239, którego autor jest kierownikiem. 4.4.4 Zagadnienie dywersykacji w problemie znajdowania encji podobnych w semantycznych grafach wiedzy (praca [MSS14]) Kolejny w¡tek zwi¡zany z zastosowaniami dywersykacji wyników stanowi przedmiot publikacji [MSS14]. W pracy tej rozwa»a si¦ problem zwracania zdywersy- kowanego zbioru encji podobnych do zadanych (przez u»ytkownika) w oparciu o semantyczny graf wiedzy. Jest to wi¦c w¡tek pokrewny do tego opisywanego w 3 tzn. jest matematyczna gwarancja, »e warto±¢ funkcji celu znalezionego przybli»onego rozwi¡zania b¦dzie si¦ ró»ni¢ od optymalnego conajwy»ej o staªy wspóªczynnik multiplikatywny 9 sekcjach 4.4.1 i 4.4.2, gdy» dotyczy podobnych obiektów (encji) i tej samej formy danych (semantyczny graf wiedzy). W pracy tej wprowadza si¦ nowy, 3-poziomowy model reprezentacji encji oparty na strukturalnych wªasno±ciach grafu wiedzy i bazuj¡cy na nim nowy algorytm znajdowania encji podobnych zapewniaj¡cy dywersykacj¦ wyników. Proponuje si¦ te» algorytmy rangowania wyników i prezentuje eksperymentalne wyniki porównuj¡ce zaproponowane podej±cie do szeregu istniej¡cych algorytmów. Eksperymenty dokonane s¡ na dost¦pnych publicznie zbiorach danych, co gwarantuje ich powtarzalno±¢. Gªówny wkªad autora w prac¦ [MSS14] obejmuje wyspecykowanie problemu, zaproponowanie w/w nowego, 3-poziomowego modelu charakteryzacji encji i opartego na nim nowego algorytmu doboru encji podobnych w oparciu o tzw. aspekty maksymalne. Pomysª ten zapewnia, »e znalezione encje s¡ jednocze±nie maksymalnie podobne do zadanych w sensie zaproponowanego modelu reprezentacji strukturalnej, a z drugiej strony s¡ zdywersykowane w tym sensie, »e zbiory encji odpowiadaj¡cych dowolnym dwóm ró»nym aspektom maksymalnym s¡ rozª¡czne, a wi¦c automatycznie unika si¦ redundancji. Wykazane to zostaªo w postaci za- mieszczonego w pracy twierdzenia wraz z dowodem. Zaprezentowane w [MSS14] liczne wyniki eksperymentalne wykonane na kilku publicznie dost¦pnych zbiorach danych pokazuj¡ wy»szo±¢ proponowanego rozwi¡zania nad istniej¡cymi rozwi¡zaniami konkurencyjnymi innych autorów. Wkªad autora w prac¦ [MSS14] jest kluczowy, gdy» deniuje koncepcje i gªówny mechanizm znajdowania zdywersykowanego zbioru encji podobnych do zadanych, który zapewnia bardzo dobre dziaªanie zaimplementowanego algorytmu, mimo faktu, »e ilo±ciowo wkªad jednego ze wspóªautorów jest wi¦kszy, gdy» obejmuje wszelkie prace implementacyjne i dotycz¡ce rangowania encji, wykonania, prezentacji i analizy eksperymentów. Prace przedstawione w publikacji prowadzono we wspóªpracy z Max-Planck Institut fuer Informatik, w Saarbruecken, w Niemczech i w zwi¡zku z nimi odbyto sta» naukowo-badawczy w tym o±rodku w roku 2013. Wyniki pracy [MSS14] i jej wcze±niejszych etapów prezentowane byªy na mi¦dzynarodowych konferencjach ACM CIKM 2013 oraz IEEE/WIC/ACM WI-IAT 2014. Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [MSS14] wygraª konkurs OPUS 5 NCN na nansowanie grantem 2012/07/B/ST6/01239, którego autor byª kierownikiem. 4.4.5 Generowanie zdywersykowanego zbioru podpowiedzi zapyta« poprzez tematyczn¡ dekompozycj¦ zapytania (praca [SBCD09]) Ostatni reprezentowany w osi¡gni¦ciu w¡tek dotyczy specjalistycznego problemu automatycznego generowania zdywersykowanego zbioru przez u»ytkownika wyszukiwarki internetowej podpowiedzi po podaniu niejednoznacznego zapytania. Celem takiego zadania jest uªatwienie u»ytkownikowi szybszego dotarcia do satysfakcjonuj¡cych go wyników wyszukiwania poprzez wybór takiej podpowiedzi, która najlepiej ujednoznaczni (u±ci±li) aspekt jego wieloznacznego zapytania. W¡tek ten reprezentowany jest przez 2 wybrane prace: [SBCD09] oraz [SCW12]. W pracy [SBCD09] zaproponowano istotne ulepszenie podej±cia rozwa»anego wcze±niej w pracy innych badaczy [BCDG08], z którymi autor nast¦pnie nawi¡zaª 10 wspóªprac¦ naukow¡. To wcze±niejsze podej±cie polegaªo na zastosowaniu zmodykowanego kombinatorycznego problemu pokrycia zbioru (ang. red-blue set cover ) w ten sposób, aby w oparciu o logi zapyta« dobra¢ taki zbiór podpowiedzi, który optymalizuje pewn¡ funkcj¦ celu. Funkcja ta modeluje m.in. dywersykacj¦ zbioru podpowiedzi a tak»e trzy inne po»¡dane cechy wyniku. Poniewa» tak zdeniowany problem jest NP-trudny, w pracy [BCDG08] zaproponowano heurystyczny algorytm zachªanny pozwalaj¡cy na efektywne obliczenie rozwi¡zania przybli»onego. Wkªad autora stanowi opisane w [SBCD09] istotne rozwini¦cie i ulepszenie podej±cia opisanego w [BCDG08]. Polegaªo ono zarówno na ulepszeniu teore- tycznego modelu problemu poprzez zauwa»enie pewnych wad uprzednio zdeniowanej funkcji celu i zaproponowanie odpowiednich jej ulepsze«, jak i na zaproponowaniu nowej efektywnej metody rozwi¡zania tak zdeniowanego problemu poprzez adaptacj¦ heurystyki rozwi¡zania przybli»onego. + symulowanego wychªadzania [KGV 83] do obliczenia Autor dokonaª te» caªkowitej samodzielnej imple- mentacji zaproponowanej ulepszonej funkcji celu oraz heurystycznego algorytmu i wykonaª eksperymenty ewaluacyjne na unikatowych danych rzeczywistych (podzbiorze logów zapyta« wyszukiwarki Yahoo!). Praca [SBCD09] wykonywana byªa we wspóªpracy z zespoªem Yahoo! Re- search, o±rodka badawczego jednej z dwóch najwi¦kszych na ±wiecie komercyjnych wyszukiwarek internetowych, podczas pobytu autora na wewn¦trznym krótkim sta»u naukowo-badawczym na zaproszenie tego zespoªu. Dzi¦ki temu mo»liwe byªo wykonanie eksperymentów ewaluacyjnych na unikatowym cennym zbiorze danych przemysªowych. Dane takie, jako wra»liwe, s¡ praktycznie niedost¦pne naukowcom poza kilkoma wyspecjalizowanymi rmami na ±wiecie. W zwi¡zku z w/w niedost¦pno±ci¡ publiczn¡ danych, pomimo uzyskania zaprezentowanych w pracy [SBCD09] obiecuj¡cych wyników eksperymentalnych, które pokazaªy wy»szo±¢ nowego podej±cia nad proponowanym wcze±niej w [BCDG08] i pomimo, »e badany problem byª bardzo interesuj¡cy naukowo, kontynuacja tego konkretnego projektu przez autora byªa niemo»liwa po zako«czeniu w/w sta»u. Wkªad autora w publikacj¦ [SBCD09] jest kluczowy, gdy» obejmuje inspiracj¦ bada«, wi¦kszo±¢ koncepcji i ich peªn¡ implementacj¦ wraz z kodem do ewaluacji oraz koordynacj¦ wszystkich prac. Pozostali autorzy uczestniczyli w dyskus- jach koncepcyjnych, wst¦pnym przygotowaniu danych przemysªowych i niewielkim udziale w pisaniu artykuªu w zakresie wst¦pu oraz prezentacji cz¦±ci wyników. Prace przedstawione w publikacji [SBCD09] prezentowane byªy na specjalistycznym mi¦dzynarodowym warsztacie WSCD 2009 po±wi¦conym analizie logów wyszukiwarek WWW w ramach konferencji WSDM 2009. 4.4.6 Generowanie zdywersykowanego zbioru podpowiedzi zapyta« poprzez dyspersj¦ (praca [SCW12]) Ostatnia pozycja [SCW12] omawianego cyklu wybranych prac dotyczy równie» problemu generowania zdywersykowanego zbioru podpowiedzi zapyta« w wyszukiwarce internetowej w oparciu o zgromadzone uprzednio logi zapyta« (podobnie jak w pracy [SBCD09] opisanego w sekcji 4.4.5). W pracy [SCW12] stosuje si¦ jednak zupeªnie inne podej±cie ni» w pracy [SBCD09]. Podej±cie to polega na adaptacji algorytmu MMR (Maximal Marginal Relevance), 11 zaproponowanego wcze±niej w [CG98], do generowania zdywersykowanych wyników wyszukiwania i podsumowa« tekstu. Podej±cie polega na zachªannym dobiera- niu kolejnych elementów zbioru tak, aby byªy podobne do wyj±ciowego zapytania, ale jednocze±nie niepodobne do innych wybranych podpowiedzi (a wi¦c zdywersykowane). W pracy [SCW12] rozwa»ane byªy ró»ne warianty funkcji podobie«stwa, m.in. bazuj¡ca na odlegªo±ci edycyjnej Levenshteina oraz na podobie«stwie se- mantycznym obliczonym za pomoc¡ mapowania podpowiedzi na drzewo ontologii Wikipedii. Z uwagi na niedost¦pno±¢ publiczn¡ wysokiej jako±ci mi¦dzynarodowych logów 4 wyszukiwarek (por. sekcja 4.4.5) nawi¡zano wspóªprac¦ z wiod¡c¡ wark¡ internetow¡ Netsprint.pl krajow¡ wyszuki- i uzyskano tymczasowy dost¦p do podzbioru rzeczywistych logów tej wyszukiwarki, aby wykona¢ tymczasow¡ demonstracj¦ dziaªania zaproponowanych algorytmów. Uzyskano wyniki, które wskazywaªy, »e dla wieloznacznych zapyta« zaproponowane podej±cie jest w stanie wygenerowa¢ trafne i zarazem zdywersykowane podpowiedzi, które pokrywaj¡ wiele ró»nych aspektów oryginalnego zapytania. Wkªad autora w tej pracy jest wi¦kszo±ciowy i dotyczy zarówno sformuªowania problemu jak propozycji modelu, obu przedstawionych algorytmów generowania 5 podpowiedzi, oraz dwóch z trzech metod obliczania podobie«stwa podpowiedzi. Opisane w pracy [SCW12] podej±cie znalazªo praktyczne zastosowanie w dziaªaj¡cym eksperymentalnym systemie wyszukiwawczym rozwijanym w IPI PAN. Dokªadniej, stanowiªo ono podstaw¦ do systemu automatycznych podpowiedzi zapyta« w najwi¦kszej eksperymentalnej semantycznej wyszukiwarce internetowej dla j¦zyka polskiego NEKST [nek]. Oprócz wi¦c aspektów naukowych praca [SCW12] stanowi wkªad w rozwój nowoczesnych narz¦dzi wyszukiwawczych dziaªaj¡cych w praktyce. Wyniki prac zwi¡zanych z publikacj¡ [SCW12] przedstawiane byªy na mi¦dzynarodowej konferencji SIIS 2012. Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [SCW12] wygraª konkurs NCN na nansowanie grantem N N 516 481940, którego autor byª kierownikiem. 4.5 Podsumowanie cyklu prac Opisywana wy»ej tematyka badawcza autora dotycz¡ca wielu aspektów dywersykacji informacji wydaje si¦ pionierska w skali kraju, w tym sensie, »e autorowi nie s¡ znane wcze±niejsze prace krajowe w tej tematyce. Natomiast tematyka dywersykacji informacji spotyka si¦ od niedawna z rosn¡cym zainteresowaniem mi¦dzynarodowej spoªeczno±ci naukowej o czym ±wiadczy np. regularne ostatnio organizowanie specjalistycznych warsztatów dotycz¡cych dywersykacji informacji na uznanych mi¦dzynarodowych konferencjach bran»owych (np. ACM WSDM, WWW, ACM CIKM, ACM KDD, IEEE/ACM/WIC WI) oraz wysoka liczba publikowanych przez innych badaczy prac o tej tematyce na takowych konferencjach mi¦dzynarodowych. 4 W czasie prowadzenia przedmiotowych bada« 5 Metoda oparta na podobie«stwie semantycznym jest autorstwa jednego ze wspóªautorów 12 Liczba publikacji ogóªem (w tym) publikacje po doktoracie 65 58 Indeksowanych w Web of Science Na li±cie JCR 19 4 ¡czna liczba cytowa« ∗ ): H-indeks ∗ ): Cytowania wg Web of Science H-indeks wg Web of Science ¡czna liczba punktów wg MNISW ∗∗ ) 393 11 19 3 okoªo 250 Tablica 1: Sumaryczny dorobek publikacyjny. ∗ ) Do obliczenia ª¡cznej liczby cytowa« i warto±ci H-indeks korzystano z ogólnie dost¦pnych narz¦dzi w tym serwisu Google Scholar. W ten sposób obliczone cytowania mog¡ zawiera¢ niewielk¡ liczb¦ (do ok. 10%) autocytowa«. Oblicze« dokonano na dzie« 12.12.2015) ∗∗ ) wg. punktacji ministerialnej zgodnie z datami publikacji Uzyskane wyniki zaprezentowane w publikacjach stanowi¡cych cykl prezentowany w niniejszym autoreferacie oraz ich cytowania na forum mi¦dzynarodowym w tym na konferencjach bran»owych oraz w mi¦dzynarodowych czasopismach, czasami mimo niedªugiego czasu od ukazania si¦ niektórych z nich ±wiadcz¡, »e wy»ej opisane prace stanowi¡ zauwa»alny konkretny wkªad do mi¦dzynarodowych bada« nad t¡ now¡ dziedzin¡. 5 Omówienie powi¡zanych i pozostaªych osi¡gni¦¢ naukowobadawczych. Caªo±¢ dorobku naukowo-badawczego autora wykracza daleko poza wyodr¦bniony cykl 6 publikacji stanowi¡cy osi¡gniecie a dotycz¡cy zagadnie« dywersykacji. ¡czny dorobek autora liczy 65 publikacji i cechuje go wysoka wszechstronno±¢ tematyki i ró»norodno±¢ stosowanych technik. Tematyka dywersykacji informacji stanowi w nim nie wi¦cej ni» 30% i jest podejmowana najwcze±niej od 2009 roku. Pozostaªe publikacje ukazuj¡ce si¦ od roku 2003 (przy czym dorobek po doktoracie obejmuje prace opublikowanie po roku 2004) obejmuj¡ szerok¡ tematyk¦ od zagadnie« wyszukiwarek WWW i eksploracji danych, przez przetwarzanie j¦zyka naturalnego, uczenie maszynowe, sieci spoªeczne, semantyczne grafy wiedzy i elementy sztucznej inteligencji obliczeniowej. Interdyscyplinarno±¢ bada« wynika ze wspóªpracy zarówno z przedstawicielami przemysªu jak i np. lingwistami komputerowymi i socjologami. Tabela 1 prezentuje zbiorcze statystyki dotycz¡ce dorobku publikacyjnego i informacje bibliometryczne. Poni»ej, wymieniono wybrane publikacje autora w formie umownego podziaªu na 6 punktów tematycznych (wraz z podpunktami) w kolejno±ci wielko±ci dorobku. Podziaª ten nie jest jedynym mo»liwym z uwagi na przenikanie si¦ tematyki i stosowanego aparatu w poszczególnych pracach (np. niektóre zagadnienia eksploracji danych przeplataj¡ si¦ z zagadnieniami uczenia maszynowego lub sieci 13 spoªecznych, etc.). Punkt 1. (zagadnienia i zastosowania dywersykacji informacji) w poni»szym podziale obejmuje zbiór publikacji dotycz¡cych ró»nych aspektów zagadnienia dy- wersykacji i jest bezpo±rednio zwi¡zany z tematyk¡ osi¡gni¦cia opisywanego w autoreferacie, ±ci±lej, stanowi jego nadzbiór. Punkt 2. (eksploracja danych WWW) zawiera 4 prace na temat analizy grafu WWW i wariantów algorytmu PageRank z lat 2003-2004 opublikowane przed doktoratem, i sam¡ rozpraw¦ doktorsk¡. Wszystkie pozostaªe prace w tym i pozostaªych punktach zostaªy opublikowane po doktoracie. Ka»da z wymienionych publikacji wyst¦puje w poni»szym zestawieniu tylko jednokrotnie za wyj¡tkiem punktu 6., który powtarza 3 publikacje z punktu 1., ale uwypuklaj¡c u»yte techniki sztucznej inteligencji. W nawiasach okr¡gªych podano ª¡czne liczby publikacji w ka»dym podpunkcie. 1. zagadnienia i zastosowania dywersykacji informacji (16): • zdywersykowane podsumowania encji w semantycznych grafach wiedzy (5) [SPS10a, Syd11, SPS11, KKRS13, SPS13] • zdywersykowane podpowiedzi zapyta« w wyszukiwarkach WWW (3) [SBCD09, SCW12, SMN • + 15] zdywersykowane wyszukiwanie encji podobnych do zadanych (1) [MSS14] • teoretyczne podstawy dywersykacji informacji (3) [Syd14c, Syd14b, Syd14a] • rola dywersykacji w kooperacyjnych sieciach spoªecznych (3) [SSC14, BJLJS14, BSSC16] • dywersykacja populacji w algorytmach genetycznych (1) [STS15] 2. eksploracja danych WWW (15) (ang. web mining) • algorytm PageRank i jego warianty (w tym rozprawa doktorska) (7) [Syd04b, Syd04c, Syd05c, Syd05e, Syd05d, Syd05a, Syd04a] • analiza grafu sieci WWW i ruchu w sieci WWW (4) [KS03, KS04, Syd05d, Syd05b] • systemy inteligentnego zbierania dokumentów WWW (2) [CSS07, KS13] • zwalczanie spamu wyszukiwarkowego (1) [SPWC08] • automatyczne podpowiedzi w wyszukiwarkach WWW w oparciu o analiz¦ logów zapyta« (1) [MNSS13] 3. przetwarzanie j¦zyka naturalnego (10) 14 • automatyczna lematyzacja i sugerowanie form podstawowych (6) [PS07b, PSK07, PS07a, PWPS08, PSW09, PWS09] • ekstrakcja relacji z tekstów polskich (3) [WS12b, WS12a, MCSK13] • zastosowania w wykrywaniu spamu WWW (1) [PSW08] 4. uczenie maszynowe i zastosowania w sieciach spoªecznych i WWW (9) • predykcja zaufania w sieciach spoªecznych (3) [Syd08, BSW09, BS10] • automatyczna klasykacja dokumentów tekstowych (2) [PS05, PS06] • analiza i predykcja zachowa« u»ytkowników WWW (2) [DKS08, JS08] • grupowanie trajektorii obiektów ruchomych (1) [LDSMS14] • zagadnienie wielo-etykietowania (1) [S13] 5. semantyczne grafy wiedzy (6) (prace inne ni» wymienione w p.1) • rangowanie wyników wyszukiwania w semantycznych grafach wiedzy (1) [ERS • + 09] wizualizacja gracznych podsumowa« encji (1) [SPS12] • podsumowywanie encji (wersje wczesne, bez dywersykacji) (2) [SPSS10, SPS10b] • wyszukiwanie encji podobnych do zadanych (wersje bez dywersykacji) (2) [MSS13, SCSS15] 6. algorytmy sztucznej inteligencji w trudnych problemach optymalizacyjnych (wyst¦puj¡ te» w p.1) • algorytm genetyczny z nowym dywersykuj¡cym operatorem selekcji (1) [STS15] • symulowane wychªadzanie w generowaniu podpowiedzi zapyta« (1) [SBCD09] • algorytm mrówkowy w generowaniu podsumowa« encji (1) [KKRS13] Dodatkowe informacje o dorobku umieszczone s¡ w zaª¡czonym wykazie. 15 Literatura [BCDG08] Francesco Bonchi, Carlos Castillo, Debora Donato, and Aristides Gionis. Topical query decomposition. In Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '08, pages 5260, New York, NY, USA, 2008. ACM. [BJLJS14] Leszek Bukowski, Michaª Jankowski-Lorek, Szymon Jaroszewicz, and Marcin Sydow. What makes a good team of wikipedia editors? preliminary statistical analysis. Adam Wierzbicki, and Jochen L. Leidner, editors, volume 8359 of a In Akiyo Nadamoto, Adam Jatowt, Social Informatics, Lecture Notes in Computer Science, pages 1428. Springer Berlin Heidelberg, 2014. [BLY12] Allan Borodin, Hyun Chul Lee, and Yuli Ye. Max-sum diversication, monotone submodular functions and dynamic updates. In Proceedings of the 31st Symposium on Principles of Database Systems, PODS '12, pages 155166, New York, NY, USA, 2012. ACM. [BS10] Piotr Borzymek and Marcin Sydow. Trust and distrust prediction in social network with combined graphical and review-based attributes. In Piotr J¦drzejowicz, Ngoc Thanh Nguyen, Robert J. Howlett, and Lakhmi C. Jain, editors, KES-AMSTA (1), volume 6070 of Lecture Notes in Computer Science, pages 122131. Springer, 2010. [BSSC16] Katarzyna Baraniak, Marcin Sydow, Jacek Szejda, and Dominika Czerniawska. work: Studying the role of diversity in open collaboration net- Experiments on wikipedia. In Advances of Network Science (Proc. of the NetSci-X 2016 Conference), volume 9564 of Lecture Notes in Computer Science, chapter 8. Springer, 2016. [BSW09] Piotr Borzymek, Marcin Sydow, and Adam Wierzbicki. Enriching trust prediction model in social network with user rating similarity. In Katarzyna Wegrzyn-Wolska Ajith Abraham, Vaclav Snasel, editor, Proceedings of the 1st International Conference on Computational Aspects of Social Networks (CASoN 2009), pages 4047, Los Alamitos, NY, USA, 2009. IEEE Computer Society. [CG98] Jaime Carbonell and Jade Goldstein. The use of mmr, diversity-based reranking for reordering documents and producing summaries. In Pro- ceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR '98, pages 335336, New York, NY, USA, 1998. ACM. [CH96] Barun Chandra and Magnus M. Halldórsson. Facility dispersion and remote subgraphs. In Rolf Karlsson and Andrzej Lingas, editors, Al- gorithm Theory SWAT'96, volume 1097 of Lecture Notes in Computer Science, pages 5365. Springer Berlin Heidelberg, 1996. 16 [CSS07] C. Castillo, B. Starosta, and M. Sydow. Crawl.pl: Measuring statistical and structural properties of the polish web. Studia Informatica, 1(8):4373, 2007. [Dij59] E.W. Dijkstra. A note on two problems in connexion with graphs. Numerische Mathematik, 1(1):269271, 1959. [DKS08] Krzysztof Dembczy«ski, Wojciech Kotªowski, and Marcin Sydow. Effective prediction of web user behaviour with user-level models. Fun- dam. Inf., 89(2-3):189206, April 2008. [ERS + 09] Shady Elbassuoni, Maya Ramanath, Ralf Schenkel, Marcin Sydow, and Gerhard Weikum. Language-model-based ranking for queries on rdf-graphs. In CIKM '09: Proceeding of the 18th ACM conference on Information and knowledge management, pages 977986, New York, NY, USA, 2009. ACM. [GS09] Sreenivas Gollapudi and Aneesh Sharma. An axiomatic approach for result diversication. In Proceedings of the 18th international confer- ence on World wide web, WWW '09, pages 381390, New York, NY, USA, 2009. ACM. [JS08] Joanna Jaworska and Marcin Sydow. Behavioural targeting in on-line advertising: An empirical study. In WISE '08: Proceedings of the 9th international conference on Web Information Systems Engineering, pages 6276, Berlin, Heidelberg, 2008. Springer-Verlag. + [KGV 83] Scott Kirkpatrick, C Daniel Gelatt, Mario P Vecchi, et al. Optimization by simulated annealing. [KKRS13] science, 220(4598):671680, 1983. Witold Kosi«ski, Tomasz Ku±mierczyk, Paweª Rembelski, and Marcin Sydow. Application of ant-colony optimisation to compute diversied entity summarisation on semantic knowledge graphs. In Proc. of Inter- national IEEE AAIA 2013/FedCSIS Conference, Annals of Computer Science and Information Systems, volume 1, pages 6976, 2013. [KS03] Mieczyslaw A. Kªopotek and Marcin Sydow. Uncorrelating pagerank and in-degree in a synthetic web model. vat Sener, editors, volume 2869 of In Adnan Yazici and Ce- Computer and Information Sciences - ISCIS 2003, Lecture Notes in Computer Science, pages 139146. Springer Berlin Heidelberg, 2003. [KS04] Mieczyslaw A. Kªopotek and Marcin Sydow. Towards a more realistic web graph model. In Mieczyslaw A. Kªopotek, SlawomirT. Wierzcho«, and Krzysztof Trojanowski, editors, Intelligent Information Processing and Web Mining, volume 25 of Advances in Soft Computing, pages 321330. Springer Berlin Heidelberg, 2004. [KS13] Tomasz Ku±mierczyk and Marcin Sydow. Towards a keyword-focused web crawler. In Mieczysªaw A. Kªopotek, Jacek Koronacki, Maª- gorzata Marciniak, Agnieszka Mykowiecka, and SªawomirT. Wierz- 17 cho«, editors, Language Processing and Intelligent Information Sys- tems, volume 7912 of Lecture Notes in Computer Science, pages 187 197. Springer Berlin Heidelberg, 2013. + [KSI 08] Gjergji Kasneci, Fabian M. Suchanek, Georgiana Ifrim, Maya Ra- manath, and Gerhard Weikum. NAGA: Searching and Ranking Knowledge. In 24th International Conference on Data Engineering (ICDE 2008). IEEE, 2008. [LDSMS14] Bo Liu, E.N. De Souza, S. Matwin, and M. Sydow. Knowledge-based clustering of ship trajectories using density-based approach. In Big Data (Big Data), 2014 IEEE International Conference on, pages 603 608. IEEE, Oct 2014. [S13] Michaª ukasik and Marcin Sydow. Threshold ml-knn: Statisti- cal evaluation on multiple benchmarks. In Mieczysªaw A. Kªopotek, Jacek Koronacki, Maªgorzata Marciniak, Agnieszka Mykowiecka, and SªawomirT. Wierzcho«, editors, Language Processing and Intelligent Information Systems, volume 7912 of Lecture Notes in Computer Science, pages 198205. Springer Berlin Heidelberg, 2013. [MCSK13] Marcin Miro«czuk, Dariusz Czerski, Marcin Sydow, and Mieczysªaw A. Kªopotek. Language-independent information extraction based on Informatics and Applications (ICIA),2013 formal concept analysis. In Second International Conference on, pages 323329, 2013. [MNSS13] Cristina Ioana Muntean, Franco Maria Nardini, Fabrizio Silvestri, and Marcin Sydow. Learning to shorten query sessions. In Proceedings of the 22nd international conference on World Wide Web companion, WWW '13 Companion, pages 131132, Republic and Canton of Geneva, Switzerland, 2013. International World Wide Web Conferences Steering Committee. [MSS13] Steen Metzger, Ralf Schenkel, and Marcin Sydow. by entity examples. In Qbees: query Proceedings of the 22nd ACM international conference on Conference on Information & Knowledge Management, CIKM '13, pages 18291832, New York, NY, USA, 2013. ACM. [MSS14] Steen Metzger, Ralf Schenkel, and Marcin Sydow. Aspect-based similar entity search in semantic knowledge graphs with diversityawareness and relaxation. In Proc. of the 2014 IEEE/WIC/ACM Inter- national Joint Conference on Web Intelligence and Intelligent Agent Technology, WI-IAT 2014, pages 6069, 2014. [mtu] http://www.mturk.com. [nek] http://nekst.pl. [PS05] J. Piskorski and M. Sydow. newspaper articles. Experiments on classication of polish Archives of Control Sciences, Vol. 15, no. 4:625 636, 2005. 18 [PS06] J. Piskorski and M. Sydow. Fine-tuning n-gram-based text classier for highly inective languages. In Challenging Problems of Computer Science, Articial Intelligence and Soft Computing, pages 494 499. Academic Publishing House EXIT, Polish Neural Society, IEEE Computational Intelligence Society - Poland Chapter, 2006. [PS07a] Jakub Piskorski and Marcin Sydow. String distance metrics for reference matching and search query correction. editor, In Witold Abramowicz, Business Information Systems, volume 4439 of Lecture Notes in Computer Science, pages 353365. Springer Berlin / Heidelberg, 2007. 10.1007/978-3-540-72035-5.27. [PS07b] Jakub Piskorski and Marcin Sydow. Usability of string distance metrics for name matching tasks in polish. In Human Language Technologies as a Challenge for Computer Science and Linguistics, Proc. of LTC'07, pages 403407. Wydawnictwo Pozna«skie Sp. z o.o., 2007. [PSK07] Jakub Piskorski, Marcin Sydow, and Anna Kup±¢. of polish person names. In Lemmatization Proceedings of the Workshop on Balto- Slavonic Natural Language Processing: Information Extraction and Enabling Technologies, ACL '07, pages 2734, Stroudsburg, PA, USA, 2007. Association for Computational Linguistics. [PSW08] Jakub Piskorski, Marcin Sydow, and Dawid Weiss. Exploring linguistic features for web spam detection: '08: a preliminary study. In AIRWeb Proceedings of the 4th international workshop on Adversarial information retrieval on the web, pages 2528, New York, NY, USA, 2008. ACM. [PSW09] Jakub Piskorski, Marcin Sydow, and Karol Wieloch. Comparison of string distance metrics for lemmatisation of named entities in polish. pages 413427, 2009. [PWPS08] Jakub Piskorski, Karol Wieloch, M Pikula, and Marcin Sydow. wards person name matching for inective languages. In To- WWW 2008 Workshop NLP Challenges in the Information Explosion Era, 2008. [PWS09] Jakub Piskorski, Karol Wieloch, and Marcin Sydow. On knowledge- poor methods for person name matching and lemmatization for highly inectional languages. [SBCD09] Information Retrieval, 12(3):275299, 2009. Marcin Sydow, Francesco Bonchi, Carlos Castillo, and Debora Donato. Optimising topical query decomposition. In Proceedings of the 2009 Workshop on Web Search Click Data, WSCD '09, pages 4347, New York, NY, USA, 2009. ACM. [SCSS15] Grzegorz Sobczak, Mateusz Chochóª, Ralf Schenkel, and Marcin Sydow. iQbees: Towards interactive semantic entity search based on maximal aspects. In Floriana Esposito, Olivier Pivert, Mohand-Said Hacid, Zbigniew Ra±, and Stefano Ferilli, editors, Foundations of In- telligent Systems, volume 9384 of Lecture Notes in Computer Science, 19 pages 259264. Springer International Publishing, 2015. 10.1007/9783-319-25252-0-28. [SCW12] Marcin Sydow, Krzysztof Ciesielski, and Jakub Wajda. Introducing diversity to log-based query suggestions to deal with underspecied user queries. In Pascal Bouvry, Mieczyslaw Klopotek, Franck Leprévost, Malgorzata Marciniak, Agnieszka Mykowiecka, and Henryk Rybinski, editors, Security and Intelligent Information Systems, volume 7053 of Lecture Notes in Computer Science, pages 251264. Springer Berlin / Heidelberg, 2012. 10.1007/978-3-642-25261-7-20. [SMN + 15] Marcin Sydow, Cristina Ioana Muntean, Franco Maria Nardini, Stan Matwin, and Fabrizio Silvestri. MUSETS: Diversity-aware web query suggestions for shortening user sessions. In Floriana Esposito, Olivier Pivert, Mohand-Said Hacid, Zbigniew Ras, and Stefano Ferilli, editors, Foundations of Intelligent Systems, volume 9384 of Lecture Notes in Computer Science, pages 237247. Springer International Publishing, 2015. 10.1007/978-3-319-25252-0-26. [SPS10a] Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. DIVERSUM: Towards diversied summarisation of entities in knowledge graphs. In Proceedings of Data Engineering Workshops (ICDEW) at IEEE 26th ICDE Conference, pages 221226. IEEE, 2010. [SPS10b] Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. Entity summarization with limited edge budget on undirected and directed knowledge graphs. [SPS11] Investigationes Linguisticae, 21:7689, 2010. Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. To diversify or not to diversify entity summaries on rdf knowledge graphs? In Marzena Kryszkiewicz, Henryk Rybi«ski, Andrzej Skowron, and Zbigniew Ras, editors, Foundations of Intelligent Systems, Proc. of the 19th ISMIS Conference, Warsaw, Poland, 2011, volume 6804 of Lecture Notes in Articial Intelligence, pages 490500. Springer Berlin / Heidelberg, 2011. 10.1007/978-3-642-21916-0-53. [SPS12] Grzegorz Sobczak, Mariusz Pikuªa, and Marcin Sydow. Agnes: A novel algorithm for visualising diversied graphical entity summarisations on knowledge graphs. In Li Chen, Alexander Felfernig, Jiming Liu, and Zbigniew Ra±, editors, volume 7661 of Foundations of Intelligent Systems, Lecture Notes in Computer Science, pages 182191. Springer Berlin Heidelberg, 2012. [SPS13] Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. The notion of diversity in graphical entity summarisation on semantic knowledge graphs. [SPSS10] Journal of Intelligent Information Systems, 41:109149, 2013. Marcin Sydow, Mariusz Pikuªa, Ralf Schenkel, and Adam Siemion. Entity summarisation with limited edge budget on knowledge graphs. In Proceedings of the International Multiconference on Computer Sci- ence and Information Technology, pages 513516. IEEE, 2010. 20 [SPWC08] Marcin Sydow, Jakub Piskorski, Dawid Weiss, and Carlos Castillo. Fighting Web Spam, volume 19 of NATO Science for Peace and Security Series D: Information and Communication Security, pages 134153. IOS Press, 2008. [SSC14] Jacek Szejda, Marcin Sydow, and Dominika Czerniawska. 'renaissance man' create good wikipedia articles? In Does a International Conference on Knowledge Discovery and Information Retrieval (KDIR 2014), page 425, 2014. [STS15] Anna Strze»ek, Ludwik Trammer, and Marcin Sydow. Divergene: Experiments on controlling population diversity in genetic algorithm with a dispersion operator. In Proceedings of the 2015 Federated Conference on Computer Science and Information Systems, volume 5 of Annals of Computer Science and Information Systems, pages 155 162, Sept 2015. [Syd04a] M. Sydow. Link analysis of the web graph. measurements, models and algorithms for web information retrieval (phd thesis), 2004. [Syd04b] Marcin Sydow. Extensions of pagerank. the rbs algorithm. In Mieczysªaw A. Kªopotek, SªawomirT. Wierzcho«, and Krzysztof Trojanowski, editors, volume 25 of Intelligent Information Processing and Web Mining, Advances in Soft Computing, pages 389396. Springer Berlin Heidelberg, 2004. [Syd04c] Marcin Sydow. Random surfer with back step. In Proceedings of the 13th International World Wide Web Conference on Alternate Track Papers &Amp; Posters, WWW Alt. '04, pages 352353, New York, NY, USA, 2004. ACM. [Syd05a] M. Sydow. Random surfer with back step. Fundamenta Informaticae, Vol. 68, nr 4:379398, 2005. [Syd05b] M. Sydow. Studying dependencies among web trac and link analysis data using perceptron. In Web Intelligence, 2005. Proceedings. The 2005 IEEE/WIC/ACM International Conference on, pages 124127, Sept 2005. [Syd05c] Marcin Sydow. Approximation quality of the rbs ranking algorithm. In Mieczysªaw A. Kªopotek, SªawomirT. Wierzcho«, and Krzysztof Trojanowski, editors, volume 31 of Intelligent Information Processing and Web Mining, Advances in Soft Computing, pages 289296. Springer Berlin Heidelberg, 2005. [Syd05d] Marcin Sydow. Can link analysis tell us about web trac? In Special Interest Tracks and Posters of the 14th International Conference on World Wide Web, WWW '05, pages 954955, New York, NY, USA, 2005. ACM. 21 [Syd05e] Marcin Sydow. Can one out-link change your pagerank? In Piotr S. Szczepaniak, Janusz Kacprzyk, and Adam Niewiadomski, editors, Ad- vances in Web Intelligence, volume 3528 of Lecture Notes in Computer Science, pages 408414. Springer Berlin Heidelberg, 2005. [Syd08] M. Sydow. Towards using contextual information to learn trust metric in social networks: A proposal. In Proceedings of the 2nd International Workshop on Combining Context with Trust, Security and Privacy, in conjunction with IFIPTM08, 2008. [Syd11] Marcin Sydow. Towards the foundations of diversity-aware node summarisation on knowledge graphs. In Proceedings of Diversity in Doc- ument Retrieval Workshop, European Conference on Information Retrieval. Springer, 2011. [Syd14a] Marcin Sydow. Approximation guarantees for max sum and max min facility dispersion with parameterised triangle inequality and applications in result diversication. Mathematica Applicanda, 42(2):241 257, 2014. [Syd14b] Marcin Sydow. Improved approximation guarantee for max sum diversication with parameterised triangle inequality. In Troels Andreasen, Henning Christiansen, Juan-Carlos Cubero, and Zbigniew. Ras, editors, Foundations of Intelligent Systems, volume 8502 of Lecture Notes in Computer Science, pages 554559. Springer International Publishing, 2014. [Syd14c] Marcin Sydow. Towards integrity in diversity-aware small set selection and visualisation tasks. pages 480484. SCITEPRESS, 2014. [wik] http://wikipedia.org. [WS12a] Alina Wróblewska and Marcin Sydow. Debora: Dependency-based method for extracting entity-relationship triples from open-domain texts in polish. In Li Chen, Alexander Felfernig, Jiming Liu, and Zbigniew W. Ra±, editors, 7661 of Foundations of Intelligent Systems, volume Lecture Notes in Computer Science, pages 155161. Springer Berlin Heidelberg, 2012. [WS12b] Alina Wróblewska and Marcin Sydow. Dependency-based extraction of entity-relationship triples from polish open-domain texts. In Proc. of Articial Intelligence Studies, volume 7(30), pages 6170. Publ. House of University of Natural Sciences and Humanities, 2012. [yag] http://mpi-inf.mpg.de/yago. 22 Siedlce,