Autoreferat

Transkrypt

Autoreferat

Autoreferat
1
Imi¦ i Nazwisko: Marcin Sydow
2
Posiadane dyplomy, stopnie naukowe:
•
magister matematyki,
Wydziaª Matematyki, Informatyki i Mechaniki, Uniwersytet Warszawski, 1997
•
doktor nauk technicznych w zakresie informatyki,
Instytut Podstaw Informatyki, Polska Akademia Nauk, 2004:
Link Analysis of the Web Graph. Measurements, Models and Algorithms for
Web Information Retrieval
3
Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych:
•
Instytut Podstaw Informatyki, Polska Akademia Nauk, adiunkt, od 2010
•
Polsko-Japo«ska Wy»sza Szkoªa Technik Komputerowych, adiunkt, od 2004
•
Polsko-Japo«ska Wy»sza Szkoªa Technik Komputerowych, asystent, 19992004
•
Politechnika Warszawska, Wydziaª Fizyki Teoretycznej i Matematyki Stosowanej,
asystent, 1997-1998
4
Wskazanie osi¡gni¦cia wynikaj¡cego z art. 16 ust. 2
ustawy z dnia 14 marca 2003 r. o stopniach naukowych
i tytule naukowym oraz o stopniach i tytule w zakresie
sztuki (Dz. U. nr 65, poz. 595 ze zm.):
4.1
Tytuª osi¡gni¦cia naukowego:
Dywersykacja informacji w wybranych zadaniach selekcji,
wyszukiwania i prezentacji informacji w semantycznych grafach
wiedzy i wyszukiwarkach internetowych
1
4.2
1.
Cykl 6 publikacji stanowi¡cych osi¡gni¦cie naukowe:
[SPS13] M.Sydow,
The Notion of Diversity in
M.Pikuªa, R.Schenkel
Graphical Entity Summarisation on Semantic Knowledge Graphs
Journal of Intelligent Information Systems, Volume 41, Issue 2, pp. 109-149,
ISSN 0925-9902, DOC: 10.1007/s10844-013-0239-6, Springer, 2013.
(na li±cie
JCR
Wkªad wªasny:
20 cytowa«
2.
[KKRS13]
i w bazie
70%
Web of Science,
Impact Factor:
0.632)
(M.Pikuªa: 20%, R.Schenkel: 10%)
(Google Scholar),
2 cytowania
(Web of Science)
W.Kosi«ski, T.Ku±mierczyk, P.Rembelski,
M.Sydow Appli-
cation of Ant-Colony Optimisation to Compute Diversied Entity
Summarisation on Semantic Knowledge Graphs ,
Science and Information Systems, Volume 1, pp.
(also:
Proc.
of International IEEE AAIA 2013/FedCSIS Conference, ISBN
978-1-4673-4471-5), PTI/IEEE, 2013. (obecna w bazie
Wkªad wªasny:
3.
Annals of Computer
69-76, ISSN 2300-5963,
40%
Web of Science)
(W.Kosi«ski,T.Ku±mierczyk po 25%, P.Rembelski 10%)
[Syd14a] M.Sydow Approximation Guarantees for Max Sum and
Max Min Facility Dispersion with Parameterised Triangle Inequality
and Applications in Result Diversication
Mathematica Applicanda vol.
42(2), pp.
(extended journal version)
241257, Print ISSN: 1730-2668,
On-line ISSN: 2299-4009, DOI: 10.14708/ma.v42i0.547, PTM, 2014.
Wkªad wªasny:
4.
[MSS14]
100%
S.Metzger, R.Schenkel,
M.Sydow Aspect-based Similar En-
tity Search in Semantic Knowledge Graphs with Diversity-awareness
and Relaxation
Proceedings of the IEEE/WIC/ACM WI-IAT 2014 (Intern.
Joint Conference on Web Intelligence and Intell. Agent Techn.), pp. 60-69,
ISBN 978-1-4799-4143-8, DOI 10.1109/WI-IAT.2014.17, IEEE Computer Society, 2014.
Wkªad wªasny:
1 cytowanie
5.
25%
(S.Metzger: 50%, R.Schenkel: 25%)
(Google Scholar)
[SBCD09] M.Sydow,
F.Bonchi, C.Castillo, D.Donato
ical Query Decomposition
Proc.
Optimising Top-
of WSCD09 (collocated with ACM
WSDM 2009 Conference) pp. 43-47, ISBN 978-1-60558-434-8,
DOI: 10.1145/1507509.1507516, ACM, 2009.
Wkªad wªasny:
5 cytowa«
6.
65%
(F.Bonchi 15%, C.Castillo 10%, D.Donato 10%)
(Google Scholar)
[SCW12] M.Sydow,
K.Ciesielski,
J.Wajda
Introducing Diversity to
Log-based Query Suggestions to Deal with Underspecied User
Queries ,
LNCS Vol. 7053, pp. 251-264 (Proc. of Intern. SIIS 2011 Con-
ference, Revised Selected Papers), ISBN 978-3-642-25260-0, Springer, 2012.
(Web
of Science)
6 cytowa«
Wkªad wªasny:
(Google Scholar),
55%
(K.Ciesielski: 20%, Wajda: 25%)
2 cytowania
2
(Web of Science)
4.3
Ogólne omówienie celu naukowego ww.
prac, wyników oraz ich
zastosowa«.
Przedmiotem osi¡gni¦cia jest stworzenie i eksperymentalna ewaluacja nowych technik tzw.
dywersykacji informacji, co ma zastosowanie w interaktywnych sys-
temach informacyjnych, w których:
•
system ma dokona¢ selekcji i prezentacji u»ytkownikowi
niewielkiego zbioru
reprezentatywnych informacji, tak aby najlepiej speªni¢ jego potrzeb¦ informacyjn¡;
•
system musi dokona¢ selekcji spo±ród du»ej liczby obiektów potencjalnie speªniaj¡cych potrzeb¦ u»ytkownika, przy czym istnieje wiele mo»liwych interpretacji potrzeby informacyjnej u»ytkownika.
Istotne jest to,
»e liczba obiektów,
które nale»y wybra¢ i zaprezentowa¢ jest
niewielka w porównaniu z liczb¡ obiektów potencjalnie speªniaj¡cych potrzeb¦
u»ytkownika. Przykªadem takiego systemu jest wyszukiwarka WWW, gdzie u»ytkownik
formuªuje zwykle krótkie i wieloznaczne zapytanie oczekuj¡c krótkiej listy (np. 10)
dokumentów WWW, które w jak najwi¦kszej cz¦±ci
trafnie speªni¡ jego potrzeb¦
informacyjn¡ wyra»on¡ przez zapytanie, przy czym liczba dost¦pnych dokumentów jest ogromna (np. rz¦du
sposobów.
109 )
a zapytanie mo»e by¢ interpretowane na wiele
Innym przykªadem jest system automatycznie
podsumowuj¡cy tekst,
gdzie zadaniem jest wygenerowanie krótkiego podsumowania skªadaj¡cego si¦ z
niewielkiej w porównaniu z wyj±ciowym tekstem liczby zda«, które reprezentatywnie podsumuj¡ jak najwi¦cej jego aspektów.
W zadaniach tego typu znajduj¡ zastosowanie techniki polegaj¡ce na
celowej
i kontrolowanej dywersykacji zwracanych wyników, tak aby niewielki zwracany
u»ytkownikowi zbiór reprezentowaª jak najwi¦cej mo»liwych aspektów lub interpretacji potrzeby informacyjnej u»ytkownika, aby w efekcie w tym niewielkim zbiorze
zawrze¢ obiekty, które
faktycznie oka»¡ si¦ trafne dla u»ytkownika.
Nowatorsko±¢ osi¡gni¦cia polega m.in.
na
rozwini¦ciu i adaptacji istniej¡cych
technik dywersykacji do nowych zada«, w których techniki takie nie byªy do tej
pory stosowane, a tak»e na zaproponowaniu nowych pomysªów. W szczególno±ci,
w pracach innych badaczy dywersykacji podlegaªy do tej pory gªównie obiekty
tekstowe (dokumenty, zdania) natomiast zaproponowane przez autora rozwi¡zania dotycz¡ zupeªnie innych i czasem nowych obiektów takich jak np.
elementy
semantycznych grafów wiedzy lub podpowiedzi zapyta« w wyszukiwarkach WWW.
W zwi¡zku z tym zaprojektowano te» zupeªnie nowe elementy technik, adekwatne
do nowych danych i zada«. Stworzone techniki dywersykacji dotycz¡ nast¦puj¡cych nowych zastosowa«:
•
zdywersykowane podsumowywanie encji w semantycznych grafach wiedzy
[SPS13, KKRS13, SPS12, Syd14c, SPS11, SPS10b, Syd11, SPS10a, SPSS10]
•
wybór encji podobnych do zadanych (w semantycznych grafach wiedzy)
[SCSS15, MSS13, MSS14]
•
automatyczne generowanie zdywersykowanych
warkach internetowych [SMN
+
podpowiedzi zapyta« w wyszuki-
15, SCW12, SBCD09, MNSS13].
3
Spo±ród wybranych 6 prac stanowi¡cych osi¡gni¦cie, 3 dotycz¡ semantycznych
grafów wiedzy.
Przy czym, spo±ród tych 3, 2 prace [SPS13, KKRS13] dotycz¡
zdywersykowanych
podsumowa« encji, a 1 praca [MSS14] zdywersykowanego
wyboru (sugerowania u»ytkownikowi)
wej±ciowych.
zbioru encji podobnych do zadanych encji
Nast¦pnie, 2 prace [SCW12, SBCD09] dotycz¡
generowania zdy-
wersykowanych podpowiedzi zapyta« w wyszukiwarkach internetowych, natomiast 1 praca [Syd14a] zawiera pewne pomocnicze
wyniki teoretyczne, maj¡ce po-
tencjalne zastosowania we wszystkich technikach dywersykacji, które mog¡ by¢
wywiedzione z problemu
dyspersji (ang.
facility dispersion ), w szczególnosci w
rozwa»anych w pozostaªych pracach cyklu.
Wymienione 6 publikacji stanowi¡cych osi¡gni¦cie naukowe stanowi jedynie
wybór reprezentuj¡cy znacznie liczniejszy zbiór okoªo 20 prac autora dotycz¡cych tematyki dywersykacji.
Lista pozostaªych prac autora z lat 2008-2015
pozwi¡zanych z tematyk¡ dywersykacji wymieniona jest w sekcji 5.
Prace o tej
tematyce stanowi¡ okoªo 30% caªego dorobku publikacyjnego (ok. 65 prac) autora.
Autor niezale»nie od tego zajmowaª si¦ licznymi innymi tematami badawczymi, co
opisane jest w sekcji 5.
4.4
Krótkie omówienie poszczególnych prac stanowi¡cych osi¡gni¦cie
4.4.1 Zdywersykowane podsumowania encji w semantycznych grafach wiedzy (praca
[SPS13])
Podstawowy w¡tek osi¡gni¦cia reprezentuje publikacja [SPS13], gdzie opisany jest
oryginalnie zaproponowany przez autora problem
grafowego podsumowania encji
Graphical Entity Summarisation GES )
w semantycznych grafach wiedzy (ang.
i jednocze±nie zaproponowane i badane jest podej±cie oparte na
tego problemu DIVERSUM (ang.
Termin
encja (ang.
dywersykacji do
diversied entity summarisation ).
entity ) jest podstawowym terminem z dziedziny baz
danych, stanowi¡cym reprezentacj¦ w bazie danych abstrakcyjnego lub rzeczywistego obiektu z modelowanej dziedziny (np. osoba, kraj, partia polityczna, etc.).
Natomiast
podsumowanie encji, poprzez analogi¦ do np. podsumowywania tek-
stu, stanowi proces selekcji (spo±ród wielu dost¦pnych w bazie) niewielkiego zbioru
reprezentatywnych informacji dotycz¡cych danej encji i prezentacji ich w zwartej
formie u»ytkownikowi.
W przypadku semantycznych grafów wiedzy, informacje
dotycz¡ce danej encji nazywane s¡ te»
faktami. Fakt w takiej bazie reprezentowany
jest przez par¦ w¦zªów (reprezentuj¡cych encje) poª¡czon¡ kraw¦dzi¡ (reprezentuj¡c¡ jak¡± relacj¦ mi¦dzy encjami, np. (Chopin,
pochodzi z , Polski).
Zazwyczaj caªkowita liczba faktów dost¦pnych w bazie dotycz¡cych danej encji
(np.
sªynnego polityka, pa«stwa, etc.)
jest zbyt du»a do ªatwego przyswoje-
nia dla u»ytkownika, wi¦c podsumowanie encji (wyselekcjonowany zbiór faktów)
stanowi u»yteczne narz¦dzie we wszelkich systemach analitycznych, czy sªu»¡cych
do przegl¡dania lub wyszukiwania informacji w semantycznych bazach danych.
Powy»ej opisane zadanie speªnia dwa warunki opisane na pocz¡tku sekcji 4.3
stanowi wi¦c naturalne pole zastowa« dla technik dywersykacji.
Obliczone przez system podsumowanie zwracane jest w formie
grafu i przed-
stawiane u»ytkownikowi w formie gracznej, co stanowi nowo±¢, gdy» w istniej¡-
4
cych wcze±niej systemach dotycz¡cych semantycznych grafów wiedzy, wynik prezentowany byª w formie elementów tekstu (np.
systemu YAGO [yag]).
+
wyszukiwarka NAGA [KSI
08] dla
Wszystkie wymienione wy»ej cechy badanego problemu
sprawiaj¡, »e praca [SPS13] jest oryginaln¡ syntez¡ i rozwini¦ciem kilku innych
niezale»nie istniej¡cych pomysªów i stanowi pioniersk¡ prac¦ dotycz¡c¡ tak uj¦tego
problemu.
Zawarto±¢ pracy [SPS13]:
We wst¦pnych cz¦±ciach pracy [SPS13] omówiona
jest motywacja, podany przykªadowy konkretny scenariusz zastosowania praktycznego proponowanego rozwi¡zania i wyja±nienie modelu semantycznego grafu
wiedzy. Dokonany jest te» przegl¡d literatury dotycz¡cej dziedzin, których syntez¦
stanowi ta praca: podsumowa« tekstów, i istniej¡cych technik dywersykacji informacji w innych dziedzinach. Omówiony jest te» kontekst zagadnienia wyszukiwania
informacji (ang. IR -
information retrieval ) stanowi¡cy inspiracj¦ dla oryginalnych
idei autora przy rozwi¡zywaniu omawianego nowego problemu.
Nast¦pnie opisane s¡ 2 zaproponowane przez autora algorytmy pozwalaj¡ce
efektywnie rozwi¡za¢ proponowany problem.
Pierwszy algorytm (nazwany PRE-
CIS) pozwala efektywnie oblicza¢ zadane podsumowanie encji uwzgl¦dniaj¡c 2 kryteria doboru faktów (kraw¦dzi grafu semantycznego):
trafno±¢ (ang. relevance ) i
wa»no±¢ (ang. importance ). Algorytm PRECIS nie uwzgl¦dnia kryterium dywersykacji i jest u»yty w dalszej cz¦±ci pracy jako algorytm referencyjny do porównania
wyników z algorytmem uwzgl¦dniaj¡cym dywersykacj¦. Algorytm jest autorskim
rozwini¦ciem i adaptacj¡ klasycznego algorytmu Dijkstry znajdowania najkrótszych ±cie»ek z jednym ¹ródªem w grafach [Dij59] na przypadek semantycznych
(multi-)grafów wiedzy i z odpowiednim rozbudowaniem poj¦cia odlegªo±ci.
W
tym zachªannym algorytmie elementy podsumowania dodawane s¡ sukcesywnie a»
do uzyskania zadanego rozmiaru w kolejno±ci od najbli»szych do najdalszych w
sensie odpowiednio zdeniowanej odlegªo±ci od podsumowywanego w¦zªa. Nast¦pnie opisany jest drugi zaproponowany przez autora efektywny algorytm (nazywany
w tej pracy DIVERSUM) dla rozwa»anego problemu. Algorytm ten uwzgl¦dnia 4
kryteria doboru faktów do podsumowania:
trafno±¢, dywersykacja, popularno±¢ i
wa»no±¢.
Nast¦pnie przedstawiono wyniki
obiektywnej eksperymentalnej ewaluacji na
danych z semantycznego grafu wiedzy YAGO [yag] przy u»yciu zaproponowanej
miary jako±ci oraz innego eksperymentu ewaluacyjnego porównuj¡cego wyniki obu
algorytmów przy u»yciu informacji dost¦pnej w serwisie Wikipedia [wik]. Do ewaluacji porównawczej u»yto algorytmu PRECIS jako rozwi¡zania referencyjnego.
Oprócz tego przedstawiono wyniki kolejnej serii eksperymentów
subiektywnej
ewaluacji z u»yciem opinii ekspertów oraz z udziaªem u»ytkowników, w których
zastosowano techniki tzw.
crowdsourcingu.
Technika ta polega na masowym
zlecaniu wykonywania drobnych zada« niezidentykowanej szerokiej grupie ludzi
za po±rednictwem specjalnego portalu WWW, np.
mechanical turk [mtu].
Dla
zwi¦kszenia wiarygodno±ci wyników eksperymentów subiektywnych, ukryto przed
u»ytkownikami oceniaj¡cymi algorytmy fakt stosowania podej±cia opartego na dywersykacji w jednym z algorytmów a wyniki byªy przedstawiane w losowej kolejno±ci.
Dodatkowo, zastosowano opcjonalne pole tekstowe, w którym u»ytkownicy mogli
wyrazi¢ w formie otwartych komentarzy opinie o ocenianych wynikach. U»ytkown-
5
icy samodzielnie podkre±lali w owych komentarzach, »e preferuj¡ wyniki bardziej
zró»nicowane.
We wszystkich wymienionych eksperymentach
wykazano przewag¦ podej±cia
uwzgl¦dniaj¡cego dywersykacj¦ wyników. Potwierdza to gªówn¡ tez¦ pracy, »e dywersykacja wyników w badanym problemie jest podej±ciem po»¡danym, poprawia
jako±¢ wyników i zwi¦ksza satysfakcj¦ u»ytkowników z dziaªania systemu.
Jednocze±nie eksperymenty w pracy [SPS13] ujawniªy jako dodatkowy wynik,
»e stopie« dywersykacji wyników zwracanych przez algorytm DIVERSUM jest
potencjalnie
zbyt wysoki, mimo ogólnie pozytywnego efektu zastosowania dywer-
sykacji do problemu GES. Dokªadniej, poprzez dychotomiczne podej±cie, tj ±cisªe
unikanie redundancji w algorytmie DIVERSUM, niemo»liwe jest subtelne odzwierciedlenie rozkªadu relacji b¦d¡cych udziaªem podsumowywanej encji. W konkluzji
pracy [SPS13] zauwa»a si¦ wi¦c, »e dalsze ulepszenie algorytmu DIVERSUM polegaªoby na wprowadzeniu parametru, dzi¦ki któremu mo»liwe byªoby kontrolowanie
stopnia dywersykacji. W takim uj¦ciu, poprzednie podej±cia brak dywersykacji
(algorytm PRECIS) i maksymalna dywersykacja (algorytm DIVERSUM, unikaj¡cy jakichkolwiek powtórze«) postrzegane by¢ mog¡ jako skrajne podej±cia i
mimo przewagi drugiego z nich, po»¡dane byªoby rozwi¡zanie po±rednie, najlepiej
z mo»liwo±ci¡ stopniowania.
Praca nad publikacj¡ [SPS13] rozwijana byªa w intensywnej wspóªpracy z Max
Planck Institut fuer Informatik, w Saarbruecken, w Niemczech w ramach zespoªu,
który rozwija m.in. semantyczny graf wiedzy YAGO [yag]. Autor odbyª te» w jej
ramach kilka sta»y/wizyt naukowych w tym o±rodku w latach 2009, 2010 i 2013.
Na nansowanie jednego z nich autor uzyskaª stypendium DAAD w roku 2010.
Wyniki wcze±niejszych etapów pracy nad publikacj¡ [SPS13] prezentowane byªy
na licznych konferencjach mi¦dzynarodowych takich jak ACM CIKM 2009, IEEE
ICDE 2010, IMCSIT 2010, ECIR 2011, ISMIS 2012.
Praca [SPS13] poprzez postawienie i zarazem rozwi¡zanie nowego problemu
w krótkim czasie od ukazania si¦ doczekaªa si¦ cytowa« (ok.
25 cytowa«) na
konferencjach i w czasopismach specjalistycznych dotycz¡cych tej problematyki.
Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [MSS14] wygraª
konkurs NCN na nansowanie grantem N N516 481940, którego autor byª kierownikiem.
4.4.2 DIVERSUM jako problem optymalizacyjny (praca [KKRS13])
Ze wzgl¦du na obserwacj¦ wymienion¡ pod koniec sekcji 4.4.1, w pracy [KKRS13],
która stanowi cz¦±¢ opisywanego osi¡gni¦cia i jest naturaln¡ kontynuacj¡ pracy
[SPS13], zaproponowano ulepszony algorytm DIVERSUM, w którym stopie« dywersykacji mo»e by¢ kontrolowany za pomoc¡ parametru
σ ∈ R+
w ten sposób,
»e im wi¦ksza jego warto±¢ tym bardziej zdywersykowane s¡ wyniki (dla
σ=0
algorytm nie uwzgl¦dnia dywersykacji i zachowuje si¦ podobnie do algorytmu
PRECIS).
W tym celu zaadaptowano do problemu GES techniki dywersykacji wyników
stosowane nieco wcze±niej przez innych autorów [GS09], ale w dziedzinie wyszukiwania dokumentów www, a oparte na badanym jeszcze wcze±niej w dziedzinie
bada« operacyjnych problemie
dyspersji (ang. Facility Dispersion FD ) [CH96].
6
W problemie FD chodzi o rozmieszczenie przestrzenne
k ∈ N+
obiektów poprzez
wybranie spo±ród wielu potencjalnych lokalizacji niewielkiego zbioru lokalizacji tak,
aby byªy one mo»liwie rozrzucone w sensie odlegªo±ci.
parami wszystkich potencjalnych lokalizacji.
Podane s¡ odlegªo±ci
Stopie« rozrzucenia przestrzennego
wybranych lokalizacji mierzony jest odpowiedni¡ funkcj¡ celu a zadanie sformuªowane
jest jako optymalizacja (maksymalizacja) tej funkcji. W pracy [GS09] autorzy zaproponowali postawienie problemu dywersykacji wyników wyszukiwania w sieci
WWW jako problemu optymalizacyjnego b¦d¡cego niejako rozszerzeniem dwóch
wariantów problemu Facility Dispersion.
W pracy [KKRS13] autor zaproponowaª z kolei adaptacj¦ techniki dywersykacji
wyników wyszukiwania przedstawion¡ przez innych badaczy w [GS09] do problemu
GES, czyli do zaprojektowania ulepszonej wersji algorytmu DIVERSUM.
W pracy [KKRS13] zdeniowano problem zdywersykowanego podsumowywania encji w semantycznych grafach wiedzy rozszerzaj¡c specykacj¦ problemu GES
imp
o zaªo»enie, »e dost¦pna jest funkcja wa»no±ci
faktu w kontek±cie podsumowywanej encji
q
(ang.
oraz funkcja
niepodobie«stwa par faktów podsumowuj¡cych encj¦
q.
importance ) danego
diss (ang.
dissimilarity )
Przy takich zaªo»eniach
zdeniowano na nowo ten problem jako optymalizacj¦ nast¦puj¡cej funkcji celu:
objq (S) = (k − 1)
X
X
impq (d) + 2σ
dissq (d1 , d2 ),
(1)
d1 6=d2 ∈S
d∈S
która wyra»a parametryzowan¡ kombinacj¦ ª¡cznej warto±ci wa»no±ci oraz zdywersykowania danego zbioru faktów
Celem jest znalezienie zbioru
warto±¢ funkcji celu
objq (S).
S
S.
zawieraj¡cego
k
faktów, który maksymalizuje
Pierwszy skªadnik we wzorze (1) odpowiada za
sum¦ wa»no±ci wybranych faktów, natomiast drugi za ich wzajemne sumaryczne
niepodobie«stwo parami. Intuicja jest taka, »e maksymalizuj¡c drugi czªon eliminujemy redundancj¦ czyli zbyt du»e wzajemne podobie«stwo wybranych elementów,
co równowa»ne jest ich zdywersykowaniu. Wspóªczynniki
zadanie odzwierciedli¢ fakt, »e istnieje dokªadnie
ze zbioru
k−1
oraz
2
maj¡ za
k(k−1)/2 par ró»nych elementów
k -elementowego.
W ten sposób zdeniowano nowy w porównaniu do [SPS13] sposób otrzymywania zdywersykowanych podsumowa« encji w semantycznych grafach wiedzy (jako
optymalizacj¦ w/w funkcji), w którym mo»liwe jest kontrolowanie stopnia dywersykacji za pomoc¡ parametru
σ
tak jak planowano w konkluzji pracy [SPS13].
Optymalizacja tak zdeniowanej funkcji celu jest równowa»na optymalizacji w
zadaniu Max Sum Facility Dispersion (co pokazano m.in.
w [GS09]), a wi¦c
w sensie zªo»ono±ci obliczeniowej jest zadaniem NP-trudnym.
Wobec tego w
pracy [KKRS13] autor niniejszego autoreferatu w celu efektywnego rozwi¡zania
tak postawionego trudnego zadania obliczeniowego zaproponowaª jako narz¦dzie
obliczeniowe heurystyk¦
optymalizacji mrówkowej ACO (ang. Ant Colony Optimi-
1
sation ) do znajdowania rozwi¡zania przybli»onego.
Zagadnieniem interesuj¡cym naukowo samym w sobie jest sposób obliczania
funkcji
imp
(wa»no±ci pojedynczego faktu w kontek±cie podsumowywanej encji
q
1 Zagadnienia teoretyczne i implementacyjne samej heurystyki ACO nie stanowi¡ cz¦±ci niniejszego osi¡gni¦cia
naukowego i zostaªy wykonane przez wspóªautorów publikacji [KKRS13].
7
w problemie GES) oraz
diss (niepodobie«stwa parami dwóch faktów w kontek±cie
2
podsumowywanej encji).
Zagadnienie obliczania tych funkcji zasªuguje na odd-
zielne badania i zakªada si¦, »e funkcje
imp oraz diss s¡ dane.
imp
pracy [KKRS13] autor zaproponowaª tutaj dla funkcji
Jednak na potrzeby
algorytm bª¡dzenia
losowego w grae wiedzy z powrotami w oparciu o intuicj¦, »e fakty wa»ne
dla danej encji
q
to te, które b¦d¡ cz¦sto odwiedzane
rozpocz¦tego w wierzchoªku
blisko±¢ topologiczn¡.
q
w procesie bª¡dzenia
i z powrotami do tego wierzchoªka, z uwagi na
Funkcj¦
diss
z kolei obliczano na podstawie statystyk
wspóªwyst¦powania w grae faktów (kraw¦dzi) o danych etykietach w incydencji z
ró»nymi encjami (zgodnie z intuicj¡, »e im rzadziej kraw¦dzie o danych etykietach
s¡ wspóªincydentne z dan¡ encj¡ tym bardziej s¡ niepodobne do siebie).
Nast¦pnie opisane wy»ej podej±cie zaimplementowano i dokonano ewaluacji empirycznej na zbiorze danych YAGO [yag].
W tym celu zdeniowano kilka obiek-
tywnych miar b¦d¡cych adaptacj¡ miar precyzji (ang.
precision ) i peªno±ci (ang.
recall ) do rozwa»anego problemu. Porównano wyniki tego nowego podej±cia do
wyników algorytmów PRECIS i DIVERSUM oraz do zbioru referencyjnego stworzonego na podstawie Wikipedii.
Wg wszystkich wykonanych eksperymentów przedstawionych w [KKRS13] nowo
zaproponowane podej±cie do dywersykacji podsumowa« encji, polegaj¡ce na maksymalizacji funkcji opisanej równaniem (1), dla pewnej warto±ci parametru
σ , byªo w
stanie osi¡gn¡¢ najlepsze wyniki spo±ród wszystkich testowanych algorytmów, w
tym PRECIS i DIVERSUM, omówionych wcze±niej. Co wa»ne, wyniki algorytmu
DIVERSUM mogªy by¢ polepszone przez nowy algorytm tylko dla odpowiednio
wysokiej warto±ci parametru
σ,
czyli przy odpowiednio wysokim stopniu dywersy-
kacji wyników.
Eksperymenty te jeszcze raz potwierdziªy, »e wprowadzenie nowego mechanizmu
dywersykacji umo»liwiªo dalsze (w stosunku do algorytmu DIVERSUM z pracy
[SPS13]) polepszenie jako±ci wyników wg wszelkich przyj¦tych obiektywnych miar
ewaluacyjnych w problemie podsumowania encji w semantycznych grafach wiedzy.
Wyniki przedstawione w pracy [KKRS13] prezentowane byªy na mi¦dzynarodowej konferencji IEEE AAIA/FedCSIS 2013.
konkurs NCN na nansowanie grantem N N516 481940, którego autor byª kierownikiem.
4.4.3 Wyniki dotycz¡ce efektywnej aproksymacji rozwi¡za« problemów dywersykacji
sformuªowanych na bazie problemu Facility Dispersion (praca [Syd14a])
Kontynuacj¡ pracy [KKRS13], w której zdeniowano zdywersykowany problem
GES jako optymalizacj¦ funkcji opisanej równaniem (1), jest publikacja [Syd14a].
W pracy tej bada si¦ pewne algorytmiczne aspekty problemu efektywnego znajdowania przybli»onych rozwi¡za« dla zadania Max Sum i Max Min Facility Dispersion.
Poniewa», jak przypomniano w sekcji 4.4.2, problem obliczania zdyw-
ersykowanych podsumowa« encji w formie rozwa»anej w [KKRS13] jest algorytmicznie równowa»ny problemowi Max Sum Facility Dispersion, wyniki pracy
2 Przypomnie¢ przy tym nale»y przyj¦te w tej pracy wa»ne zaªo»enie o korzystaniu wyª¡cznie z danych zawartych
w danym grae wiedzy, bez mo»liwo±ci korzystania z danych zewn¦trznych.
8
[Syd14a] maj¡ potencjalne zastosowania praktyczne w problemie b¦d¡cym przedmiotem opisywanego osi¡gni¦cia. Co wi¦cej, wyniki te maj¡ potencjalne zastosowania w wielu innych zagadnieniach zwi¡zanych z dywersykacj¡ w sformuªowaniach
wywiedzionych z problemów Max Sum i Max Min Facility Dispersion, w szczególno±ci w problemie
dywersykacji wyników wyszukiwania www (ang. result diver-
sication ) [GS09].
Dokªadniej, w pracy [Syd14a] dowodzi si¦, »e NP-trudne problemy Max Sum i
3
Max Min Facility Dispersion mo»na w czasie wielomianowym aproksymowa¢
2
wspóªczynnikiem
, gdy funkcja odlegªo±ci
α
zowan¡ nierówno±¢ trójk¡ta:
d(·, ·)
speªnia nast¦puj¡c¡
ze
parametry-
d(x, y) + d(y, z) ≥ αd(x, z),
dla ka»dej trójki elementów
x, y, z
rozwa»anego zbioru uniwersalnego.
Wyniki
te uogólniaj¡ znane wcze±niej wyniki dotycz¡ce przypadku zwykªej nierówno±ci
trójk¡ta, tj
α = 1,
na dowoln¡ warto±¢
α ∈ [0, 2]
czyli w zakresie od tzw metryki
dyskretnej do semi-metryki.
Co wa»ne,
dodatkow¡ warto±¢ wyników pracy [Syd14a] stanowi zawarte w
niej cz¦±ciowe rozwi¡zanie problemu naukowego postawionego niedawno przez innego naukowca w pracy prezentowanej na mi¦dzynarodowej konfenecji PODS 2012
[BLY12].
j¡co:
Problem postawiony na ko«cu tej pracy sformuªowany zostaª nast¦pu-
czy mo»liwe jest odniesienie wspóªczynnika aproksymacji do parametru
uogólnionej nierówno±ci trójk¡ta, któr¡ speªnia funkcja odlegªo±ci w tym problemie?
(tªum.
z ang.
autora).
Omawiana praca [Syd14a] w sposób jasny daje
odpowied¹ na to pytanie w szczególnym przypadku (autor [BLY12] rozwa»aª ogólniejszy przypadek).
Wyniki teoretyczne uzyskane w [Syd14a] maj¡ zastosowania nie tylko w problemach zdywersykowanych podsumowa« encji, ale tak»e w du»o szerszym zbiorze
zagadnie« dywersykacji, które potencjalnie wyspecykowa¢ mo»na na bazie problemu dyspersji (Facility Dispersion). Do takich potencjalnych zastosowa« zaliczy¢
mo»na np.
systemy rekomendacyjne, wyszukiwarki WWW czy systemy do pod-
sumowywania informacji.
Wyniki wczesnych etapów pracy przedstawionej w publikacji [Syd14a] prezentowane byªy na konferencji mi¦dzynarodowej ISMIS 2014, oraz krajowej KZM 2014.
konkurs OPUS 5 NCN na nansowanie grantem 2012/07/B/ST6/01239, którego
autor jest kierownikiem.
4.4.4 Zagadnienie dywersykacji w problemie znajdowania encji podobnych w semantycznych grafach wiedzy (praca [MSS14])
Kolejny w¡tek zwi¡zany z zastosowaniami dywersykacji wyników stanowi przedmiot publikacji [MSS14].
W pracy tej rozwa»a si¦ problem zwracania zdywersy-
kowanego zbioru encji podobnych do zadanych (przez u»ytkownika) w oparciu o
semantyczny graf wiedzy.
Jest to wi¦c w¡tek pokrewny do tego opisywanego w
3 tzn. jest matematyczna gwarancja, »e warto±¢ funkcji celu znalezionego przybli»onego rozwi¡zania b¦dzie si¦
ró»ni¢ od optymalnego conajwy»ej o staªy wspóªczynnik multiplikatywny
9
sekcjach 4.4.1 i 4.4.2, gdy» dotyczy podobnych obiektów (encji) i tej samej formy
danych (semantyczny graf wiedzy). W pracy tej wprowadza si¦ nowy, 3-poziomowy
model reprezentacji encji oparty na strukturalnych wªasno±ciach grafu wiedzy i
bazuj¡cy na nim nowy algorytm znajdowania encji podobnych zapewniaj¡cy dywersykacj¦ wyników. Proponuje si¦ te» algorytmy rangowania wyników i prezentuje
eksperymentalne wyniki porównuj¡ce zaproponowane podej±cie do szeregu istniej¡cych algorytmów.
Eksperymenty dokonane s¡ na dost¦pnych publicznie zbiorach
danych, co gwarantuje ich powtarzalno±¢.
Gªówny wkªad autora w prac¦ [MSS14] obejmuje wyspecykowanie problemu,
zaproponowanie w/w nowego, 3-poziomowego modelu charakteryzacji encji i opartego
na nim nowego algorytmu doboru encji podobnych w oparciu o tzw.
aspekty
maksymalne. Pomysª ten zapewnia, »e znalezione encje s¡ jednocze±nie maksymalnie podobne do zadanych w sensie zaproponowanego modelu reprezentacji
strukturalnej, a z drugiej strony s¡
zdywersykowane w tym sensie, »e zbiory encji
odpowiadaj¡cych dowolnym dwóm ró»nym aspektom maksymalnym s¡ rozª¡czne,
a wi¦c automatycznie unika si¦ redundancji.
Wykazane to zostaªo w postaci za-
mieszczonego w pracy twierdzenia wraz z dowodem.
Zaprezentowane w [MSS14] liczne wyniki eksperymentalne wykonane na kilku
publicznie dost¦pnych zbiorach danych pokazuj¡ wy»szo±¢ proponowanego rozwi¡zania nad istniej¡cymi rozwi¡zaniami konkurencyjnymi innych autorów.
Wkªad autora w prac¦ [MSS14] jest kluczowy, gdy» deniuje koncepcje i gªówny
mechanizm znajdowania zdywersykowanego zbioru encji podobnych do zadanych,
który zapewnia bardzo dobre dziaªanie zaimplementowanego algorytmu,
mimo
faktu, »e ilo±ciowo wkªad jednego ze wspóªautorów jest wi¦kszy, gdy» obejmuje
wszelkie prace implementacyjne i dotycz¡ce rangowania encji, wykonania, prezentacji i analizy eksperymentów.
Prace przedstawione w publikacji prowadzono we wspóªpracy z Max-Planck
Institut fuer Informatik, w Saarbruecken, w Niemczech i w zwi¡zku z nimi odbyto
sta» naukowo-badawczy w tym o±rodku w roku 2013.
Wyniki pracy [MSS14] i jej wcze±niejszych etapów prezentowane byªy na mi¦dzynarodowych konferencjach ACM CIKM 2013 oraz IEEE/WIC/ACM WI-IAT 2014.
konkurs OPUS 5 NCN na nansowanie grantem 2012/07/B/ST6/01239, którego
autor byª kierownikiem.
4.4.5 Generowanie zdywersykowanego zbioru podpowiedzi zapyta« poprzez tematyczn¡ dekompozycj¦ zapytania (praca [SBCD09])
Ostatni reprezentowany w osi¡gni¦ciu w¡tek dotyczy specjalistycznego problemu
automatycznego generowania zdywersykowanego zbioru
przez u»ytkownika wyszukiwarki internetowej
podpowiedzi po podaniu
niejednoznacznego zapytania. Celem
takiego zadania jest uªatwienie u»ytkownikowi szybszego dotarcia do satysfakcjonuj¡cych go wyników wyszukiwania poprzez wybór takiej podpowiedzi, która najlepiej
ujednoznaczni (u±ci±li) aspekt jego wieloznacznego zapytania.
W¡tek ten reprezentowany jest przez 2 wybrane prace: [SBCD09] oraz [SCW12].
W pracy [SBCD09] zaproponowano istotne ulepszenie podej±cia rozwa»anego
wcze±niej w pracy innych badaczy [BCDG08], z którymi autor nast¦pnie nawi¡zaª
10
wspóªprac¦ naukow¡. To wcze±niejsze podej±cie polegaªo na zastosowaniu zmodykowanego kombinatorycznego problemu pokrycia zbioru (ang.
red-blue set cover )
w ten sposób, aby w oparciu o logi zapyta« dobra¢ taki zbiór podpowiedzi, który
optymalizuje pewn¡ funkcj¦ celu. Funkcja ta modeluje m.in. dywersykacj¦ zbioru
podpowiedzi a tak»e trzy inne po»¡dane cechy wyniku. Poniewa» tak zdeniowany
problem jest NP-trudny, w pracy [BCDG08] zaproponowano heurystyczny algorytm
zachªanny pozwalaj¡cy na efektywne obliczenie rozwi¡zania przybli»onego.
Wkªad autora stanowi opisane w [SBCD09] istotne rozwini¦cie i ulepszenie
podej±cia opisanego w [BCDG08].
Polegaªo ono zarówno na ulepszeniu teore-
tycznego modelu problemu poprzez zauwa»enie pewnych wad uprzednio zdeniowanej funkcji celu i zaproponowanie odpowiednich jej ulepsze«, jak i na zaproponowaniu nowej efektywnej metody rozwi¡zania tak zdeniowanego problemu
poprzez adaptacj¦ heurystyki
rozwi¡zania przybli»onego.
+
symulowanego wychªadzania [KGV 83] do obliczenia
Autor dokonaª te» caªkowitej samodzielnej imple-
mentacji zaproponowanej ulepszonej funkcji celu oraz heurystycznego algorytmu i
wykonaª eksperymenty ewaluacyjne na unikatowych danych rzeczywistych (podzbiorze
logów zapyta« wyszukiwarki Yahoo!).
Praca [SBCD09] wykonywana byªa we wspóªpracy z zespoªem Yahoo!
Re-
search, o±rodka badawczego jednej z dwóch najwi¦kszych na ±wiecie komercyjnych
wyszukiwarek internetowych, podczas pobytu autora na wewn¦trznym krótkim
sta»u naukowo-badawczym na zaproszenie tego zespoªu. Dzi¦ki temu mo»liwe byªo
wykonanie eksperymentów ewaluacyjnych na unikatowym cennym zbiorze danych
przemysªowych. Dane takie, jako wra»liwe, s¡ praktycznie niedost¦pne naukowcom
poza kilkoma wyspecjalizowanymi rmami na ±wiecie.
W zwi¡zku z w/w niedost¦pno±ci¡ publiczn¡ danych, pomimo uzyskania zaprezentowanych w pracy [SBCD09] obiecuj¡cych wyników eksperymentalnych, które
pokazaªy wy»szo±¢ nowego podej±cia nad proponowanym wcze±niej w [BCDG08]
i pomimo, »e badany problem byª bardzo interesuj¡cy naukowo, kontynuacja tego
konkretnego projektu przez autora byªa niemo»liwa po zako«czeniu w/w sta»u.
Wkªad autora w publikacj¦ [SBCD09] jest kluczowy, gdy» obejmuje inspiracj¦
bada«, wi¦kszo±¢ koncepcji i ich peªn¡ implementacj¦ wraz z kodem do ewaluacji oraz koordynacj¦ wszystkich prac.
Pozostali autorzy uczestniczyli w dyskus-
jach koncepcyjnych, wst¦pnym przygotowaniu danych przemysªowych i niewielkim
udziale w pisaniu artykuªu w zakresie wst¦pu oraz prezentacji cz¦±ci wyników.
Prace przedstawione w publikacji [SBCD09] prezentowane byªy na specjalistycznym mi¦dzynarodowym warsztacie WSCD 2009 po±wi¦conym analizie logów
wyszukiwarek WWW w ramach konferencji WSDM 2009.
4.4.6 Generowanie zdywersykowanego zbioru podpowiedzi zapyta« poprzez dyspersj¦
(praca [SCW12])
Ostatnia pozycja [SCW12] omawianego cyklu wybranych prac dotyczy równie»
problemu generowania zdywersykowanego zbioru podpowiedzi zapyta« w wyszukiwarce internetowej w oparciu o zgromadzone uprzednio logi zapyta« (podobnie jak
w pracy [SBCD09] opisanego w sekcji 4.4.5).
W pracy [SCW12] stosuje si¦ jednak zupeªnie inne podej±cie ni» w pracy [SBCD09].
Podej±cie to polega na adaptacji algorytmu MMR (Maximal Marginal Relevance),
11
zaproponowanego wcze±niej w [CG98], do generowania zdywersykowanych wyników
wyszukiwania i podsumowa« tekstu.
Podej±cie polega na zachªannym dobiera-
niu kolejnych elementów zbioru tak, aby byªy podobne do wyj±ciowego zapytania,
ale jednocze±nie niepodobne do innych wybranych podpowiedzi (a wi¦c zdywersykowane). W pracy [SCW12] rozwa»ane byªy ró»ne warianty funkcji podobie«stwa,
m.in.
bazuj¡ca na odlegªo±ci edycyjnej Levenshteina oraz na podobie«stwie se-
mantycznym obliczonym za pomoc¡ mapowania podpowiedzi na drzewo ontologii
Wikipedii.
Z uwagi na niedost¦pno±¢ publiczn¡ wysokiej jako±ci mi¦dzynarodowych logów
4
wyszukiwarek (por. sekcja 4.4.5) nawi¡zano wspóªprac¦ z wiod¡c¡
wark¡ internetow¡
Netsprint.pl
krajow¡ wyszuki-
i uzyskano tymczasowy dost¦p do podzbioru
rzeczywistych logów tej wyszukiwarki, aby wykona¢ tymczasow¡ demonstracj¦ dziaªania zaproponowanych algorytmów.
Uzyskano wyniki,
które wskazywaªy,
»e
dla wieloznacznych zapyta« zaproponowane podej±cie jest w stanie wygenerowa¢
trafne i zarazem zdywersykowane podpowiedzi, które pokrywaj¡ wiele ró»nych
aspektów oryginalnego zapytania.
Wkªad autora w tej pracy jest wi¦kszo±ciowy i dotyczy zarówno sformuªowania
problemu jak propozycji modelu, obu przedstawionych algorytmów generowania
5
podpowiedzi, oraz dwóch z trzech metod obliczania podobie«stwa podpowiedzi.
Opisane w pracy [SCW12] podej±cie znalazªo praktyczne zastosowanie w dziaªaj¡cym eksperymentalnym systemie wyszukiwawczym rozwijanym w IPI PAN.
Dokªadniej, stanowiªo ono podstaw¦ do systemu automatycznych podpowiedzi zapyta« w najwi¦kszej eksperymentalnej
semantycznej wyszukiwarce internetowej dla
j¦zyka polskiego NEKST [nek]. Oprócz wi¦c aspektów naukowych praca [SCW12]
stanowi wkªad w rozwój nowoczesnych narz¦dzi wyszukiwawczych dziaªaj¡cych w
praktyce.
Wyniki prac zwi¡zanych z publikacj¡ [SCW12] przedstawiane byªy na mi¦dzynarodowej konferencji SIIS 2012.
Wniosek dotycz¡cy tematyki badawczej zwi¡zanej z prac¡ [SCW12] wygraª
konkurs NCN na nansowanie grantem N N 516 481940, którego autor byª kierownikiem.
4.5
Podsumowanie cyklu prac
Opisywana wy»ej tematyka badawcza autora dotycz¡ca wielu aspektów dywersykacji informacji wydaje si¦ pionierska w skali kraju, w tym sensie, »e autorowi
nie s¡ znane wcze±niejsze prace krajowe w tej tematyce.
Natomiast tematyka
dywersykacji informacji spotyka si¦ od niedawna z rosn¡cym zainteresowaniem
mi¦dzynarodowej spoªeczno±ci naukowej o czym ±wiadczy np.
regularne ostatnio
organizowanie specjalistycznych warsztatów dotycz¡cych dywersykacji informacji
na uznanych mi¦dzynarodowych konferencjach bran»owych (np.
ACM WSDM,
WWW, ACM CIKM, ACM KDD, IEEE/ACM/WIC WI) oraz wysoka liczba publikowanych przez innych badaczy prac o tej tematyce na takowych konferencjach
mi¦dzynarodowych.
4 W czasie prowadzenia przedmiotowych bada«
5 Metoda oparta na podobie«stwie semantycznym
jest autorstwa jednego ze wspóªautorów
12
Liczba publikacji ogóªem
(w tym) publikacje po doktoracie
65
58
Indeksowanych w Web of Science
Na li±cie JCR
19
4
¡czna liczba cytowa« ∗ ):
H-indeks ∗ ):
Cytowania wg Web of Science
H-indeks wg Web of Science
¡czna liczba punktów wg MNISW ∗∗ )
393
11
19
3
okoªo 250
Tablica 1: Sumaryczny dorobek publikacyjny.
∗
) Do obliczenia ª¡cznej liczby cytowa« i warto±ci H-indeks korzystano z ogólnie dost¦pnych
narz¦dzi w tym serwisu Google Scholar. W ten sposób obliczone cytowania mog¡ zawiera¢
niewielk¡ liczb¦ (do ok. 10%) autocytowa«. Oblicze« dokonano na dzie« 12.12.2015)
∗∗
) wg. punktacji ministerialnej zgodnie z datami publikacji
Uzyskane wyniki zaprezentowane w publikacjach stanowi¡cych cykl prezentowany w niniejszym autoreferacie oraz ich cytowania na forum mi¦dzynarodowym
w tym na konferencjach bran»owych oraz w mi¦dzynarodowych czasopismach, czasami mimo niedªugiego czasu od ukazania si¦ niektórych z nich ±wiadcz¡, »e wy»ej
opisane prace stanowi¡ zauwa»alny konkretny wkªad do mi¦dzynarodowych bada«
nad t¡ now¡ dziedzin¡.
5
Omówienie powi¡zanych i pozostaªych osi¡gni¦¢ naukowobadawczych.
Caªo±¢ dorobku naukowo-badawczego autora wykracza daleko poza wyodr¦bniony
cykl 6 publikacji stanowi¡cy osi¡gniecie a dotycz¡cy zagadnie« dywersykacji.
¡czny dorobek autora liczy 65 publikacji i cechuje go wysoka wszechstronno±¢
tematyki i ró»norodno±¢ stosowanych technik. Tematyka dywersykacji informacji
stanowi w nim nie wi¦cej ni» 30% i jest podejmowana najwcze±niej od 2009 roku.
Pozostaªe publikacje ukazuj¡ce si¦ od roku 2003 (przy czym dorobek po doktoracie obejmuje prace opublikowanie po roku 2004) obejmuj¡ szerok¡ tematyk¦
od zagadnie« wyszukiwarek WWW i eksploracji danych, przez przetwarzanie j¦zyka
naturalnego, uczenie maszynowe, sieci spoªeczne, semantyczne grafy wiedzy i elementy sztucznej inteligencji obliczeniowej.
Interdyscyplinarno±¢ bada« wynika ze wspóªpracy zarówno z przedstawicielami
przemysªu jak i np. lingwistami komputerowymi i socjologami.
Tabela 1 prezentuje zbiorcze statystyki dotycz¡ce dorobku publikacyjnego i informacje bibliometryczne.
Poni»ej, wymieniono wybrane publikacje autora w formie umownego podziaªu na 6 punktów tematycznych (wraz z podpunktami) w kolejno±ci wielko±ci
dorobku. Podziaª ten nie jest jedynym mo»liwym z uwagi na przenikanie si¦ tematyki i stosowanego aparatu w poszczególnych pracach (np. niektóre zagadnienia
eksploracji danych przeplataj¡ si¦ z zagadnieniami uczenia maszynowego lub sieci
13
spoªecznych, etc.).
Punkt 1. (zagadnienia i zastosowania dywersykacji informacji) w poni»szym
podziale obejmuje zbiór publikacji dotycz¡cych ró»nych aspektów zagadnienia
dy-
wersykacji i jest bezpo±rednio zwi¡zany z tematyk¡ osi¡gni¦cia opisywanego w
autoreferacie, ±ci±lej, stanowi jego nadzbiór.
Punkt 2. (eksploracja danych WWW) zawiera 4 prace na temat analizy grafu
WWW i wariantów algorytmu PageRank z lat 2003-2004 opublikowane przed doktoratem, i sam¡ rozpraw¦ doktorsk¡.
Wszystkie pozostaªe prace w tym i pozostaªych punktach zostaªy opublikowane
po doktoracie.
Ka»da z wymienionych publikacji wyst¦puje w poni»szym zestawieniu tylko jednokrotnie za wyj¡tkiem punktu 6., który powtarza 3 publikacje z punktu 1., ale
uwypuklaj¡c u»yte techniki sztucznej inteligencji.
W nawiasach okr¡gªych podano ª¡czne liczby publikacji w ka»dym podpunkcie.
1. zagadnienia i zastosowania dywersykacji informacji (16):
•
zdywersykowane podsumowania encji w semantycznych grafach wiedzy
(5) [SPS10a, Syd11, SPS11, KKRS13, SPS13]
•
zdywersykowane podpowiedzi zapyta« w wyszukiwarkach WWW
(3) [SBCD09, SCW12, SMN
•
+
15]
zdywersykowane wyszukiwanie encji podobnych do zadanych
(1) [MSS14]
•
teoretyczne podstawy dywersykacji informacji
(3) [Syd14c, Syd14b, Syd14a]
•
rola dywersykacji w kooperacyjnych sieciach spoªecznych
(3) [SSC14, BJLJS14, BSSC16]
•
dywersykacja populacji w algorytmach genetycznych
(1) [STS15]
2. eksploracja danych WWW (15) (ang. web mining)
•
algorytm PageRank i jego warianty (w tym rozprawa doktorska)
(7) [Syd04b, Syd04c, Syd05c, Syd05e, Syd05d, Syd05a, Syd04a]
•
analiza grafu sieci WWW i ruchu w sieci WWW
(4) [KS03, KS04, Syd05d, Syd05b]
•
systemy inteligentnego zbierania dokumentów WWW
(2) [CSS07, KS13]
•
zwalczanie spamu wyszukiwarkowego
(1) [SPWC08]
•
automatyczne podpowiedzi w wyszukiwarkach WWW w oparciu o analiz¦
logów zapyta«
(1) [MNSS13]
3. przetwarzanie j¦zyka naturalnego (10)
14
•
automatyczna lematyzacja i sugerowanie form podstawowych
(6) [PS07b, PSK07, PS07a, PWPS08, PSW09, PWS09]
•
ekstrakcja relacji z tekstów polskich
(3) [WS12b, WS12a, MCSK13]
•
zastosowania w wykrywaniu spamu WWW
(1) [PSW08]
4. uczenie maszynowe i zastosowania w sieciach spoªecznych i WWW (9)
•
predykcja zaufania w sieciach spoªecznych
(3) [Syd08, BSW09, BS10]
•
automatyczna klasykacja dokumentów tekstowych
(2) [PS05, PS06]
•
analiza i predykcja zachowa« u»ytkowników WWW
(2) [DKS08, JS08]
•
grupowanie trajektorii obiektów ruchomych
(1) [LDSMS14]
•
zagadnienie wielo-etykietowania
(1) [S13]
5. semantyczne grafy wiedzy (6) (prace inne ni» wymienione w p.1)
•
rangowanie wyników wyszukiwania w semantycznych grafach wiedzy
(1) [ERS
•
+
09]
wizualizacja gracznych podsumowa« encji
(1) [SPS12]
•
podsumowywanie encji (wersje wczesne, bez dywersykacji)
(2) [SPSS10, SPS10b]
•
wyszukiwanie encji podobnych do zadanych (wersje bez dywersykacji)
(2) [MSS13, SCSS15]
6. algorytmy sztucznej inteligencji w trudnych problemach optymalizacyjnych
(wyst¦puj¡ te» w p.1)
•
algorytm genetyczny z nowym dywersykuj¡cym operatorem selekcji
(1) [STS15]
•
symulowane wychªadzanie w generowaniu podpowiedzi zapyta«
(1) [SBCD09]
•
algorytm mrówkowy w generowaniu podsumowa« encji
(1) [KKRS13]
Dodatkowe informacje o dorobku umieszczone s¡ w zaª¡czonym wykazie.
15
Literatura
[BCDG08]
Francesco Bonchi, Carlos Castillo, Debora Donato, and Aristides Gionis.
Topical query decomposition.
In
Proceedings of the 14th ACM
SIGKDD International Conference on Knowledge Discovery and Data
Mining, KDD '08, pages 5260, New York, NY, USA, 2008. ACM.
[BJLJS14]
Leszek Bukowski, Michaª Jankowski-Lorek, Szymon Jaroszewicz, and
Marcin Sydow.
What makes a good team of wikipedia editors?
preliminary statistical analysis.
Adam Wierzbicki, and Jochen L. Leidner, editors,
volume 8359 of
a
In Akiyo Nadamoto, Adam Jatowt,
Social Informatics,
Lecture Notes in Computer Science, pages 1428.
Springer Berlin Heidelberg, 2014.
[BLY12]
Allan Borodin, Hyun Chul Lee, and Yuli Ye. Max-sum diversication,
monotone submodular functions and dynamic updates. In
Proceedings
of the 31st Symposium on Principles of Database Systems, PODS '12,
pages 155166, New York, NY, USA, 2012. ACM.
[BS10]
Piotr Borzymek and Marcin Sydow. Trust and distrust prediction in
social network with combined graphical and review-based attributes.
In Piotr J¦drzejowicz, Ngoc Thanh Nguyen, Robert J. Howlett, and
Lakhmi C. Jain, editors,
KES-AMSTA (1), volume 6070 of Lecture
Notes in Computer Science, pages 122131. Springer, 2010.
[BSSC16]
Katarzyna Baraniak, Marcin Sydow, Jacek Szejda, and Dominika Czerniawska.
work:
Studying the role of diversity in open collaboration net-
Experiments on wikipedia.
In
Advances of Network Science
(Proc. of the NetSci-X 2016 Conference), volume 9564 of Lecture
Notes in Computer Science, chapter 8. Springer, 2016.
[BSW09]
Piotr Borzymek, Marcin Sydow, and Adam Wierzbicki.
Enriching
trust prediction model in social network with user rating similarity.
In Katarzyna Wegrzyn-Wolska Ajith Abraham, Vaclav Snasel, editor,
Proceedings of the 1st International Conference on Computational Aspects of Social Networks (CASoN 2009), pages 4047, Los Alamitos,
NY, USA, 2009. IEEE Computer Society.
[CG98]
Jaime Carbonell and Jade Goldstein. The use of mmr, diversity-based
reranking for reordering documents and producing summaries. In
Pro-
ceedings of the 21st Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval, SIGIR '98, pages
335336, New York, NY, USA, 1998. ACM.
[CH96]
Barun Chandra and Magnus M. Halldórsson. Facility dispersion and
remote subgraphs. In Rolf Karlsson and Andrzej Lingas, editors,
Al-
gorithm Theory SWAT'96, volume 1097 of Lecture Notes in Computer Science, pages 5365. Springer Berlin Heidelberg, 1996.
16
[CSS07]
C. Castillo, B. Starosta, and M. Sydow. Crawl.pl: Measuring statistical and structural properties of the polish web.
Studia Informatica,
1(8):4373, 2007.
[Dij59]
E.W. Dijkstra.
A note on two problems in connexion with graphs.
Numerische Mathematik, 1(1):269271, 1959.
[DKS08]
Krzysztof Dembczy«ski, Wojciech Kotªowski, and Marcin Sydow. Effective prediction of web user behaviour with user-level models.
Fun-
dam. Inf., 89(2-3):189206, April 2008.
[ERS
+
09]
Shady Elbassuoni, Maya Ramanath, Ralf Schenkel, Marcin Sydow,
and Gerhard Weikum. Language-model-based ranking for queries on
rdf-graphs. In
CIKM '09: Proceeding of the 18th ACM conference on
Information and knowledge management, pages 977986, New York,
NY, USA, 2009. ACM.
[GS09]
Sreenivas Gollapudi and Aneesh Sharma. An axiomatic approach for
result diversication. In
Proceedings of the 18th international confer-
ence on World wide web, WWW '09, pages 381390, New York, NY,
USA, 2009. ACM.
[JS08]
Joanna Jaworska and Marcin Sydow. Behavioural targeting in on-line
advertising: An empirical study. In
WISE '08: Proceedings of the 9th
international conference on Web Information Systems Engineering,
pages 6276, Berlin, Heidelberg, 2008. Springer-Verlag.
+
[KGV
83]
Scott Kirkpatrick, C Daniel Gelatt, Mario P Vecchi, et al. Optimization by simulated annealing.
[KKRS13]
science, 220(4598):671680, 1983.
Witold Kosi«ski, Tomasz Ku±mierczyk, Paweª Rembelski, and Marcin
Sydow. Application of ant-colony optimisation to compute diversied
entity summarisation on semantic knowledge graphs. In
Proc. of Inter-
national IEEE AAIA 2013/FedCSIS Conference, Annals of Computer
Science and Information Systems, volume 1, pages 6976, 2013.
[KS03]
Mieczyslaw A. Kªopotek and Marcin Sydow. Uncorrelating pagerank
and in-degree in a synthetic web model.
vat Sener, editors,
volume 2869 of
In Adnan Yazici and Ce-
Computer and Information Sciences - ISCIS 2003,
[KS04]
Mieczyslaw A. Kªopotek and Marcin Sydow. Towards a more realistic
web graph model. In Mieczyslaw A. Kªopotek, SlawomirT. Wierzcho«,
and Krzysztof Trojanowski, editors,
Intelligent Information Processing
and Web Mining, volume 25 of Advances in Soft Computing, pages
321330. Springer Berlin Heidelberg, 2004.
[KS13]
Tomasz Ku±mierczyk and Marcin Sydow. Towards a keyword-focused
web crawler.
In Mieczysªaw A. Kªopotek, Jacek Koronacki, Maª-
gorzata Marciniak, Agnieszka Mykowiecka, and SªawomirT. Wierz-
17
cho«, editors,
Language Processing and Intelligent Information Sys-
tems, volume 7912 of Lecture Notes in Computer Science, pages 187
197. Springer Berlin Heidelberg, 2013.
+
[KSI
08]
Gjergji Kasneci,
Fabian M. Suchanek,
Georgiana Ifrim,
Maya Ra-
manath, and Gerhard Weikum. NAGA: Searching and Ranking Knowledge.
In
24th International Conference on Data Engineering (ICDE
2008). IEEE, 2008.
[LDSMS14] Bo Liu, E.N. De Souza, S. Matwin, and M. Sydow. Knowledge-based
clustering of ship trajectories using density-based approach.
In
Big
Data (Big Data), 2014 IEEE International Conference on, pages 603
608. IEEE, Oct 2014.
[S13]
Michaª
ukasik and Marcin Sydow.
Threshold ml-knn:
Statisti-
cal evaluation on multiple benchmarks. In Mieczysªaw A. Kªopotek,
Jacek Koronacki, Maªgorzata Marciniak, Agnieszka Mykowiecka, and
SªawomirT. Wierzcho«, editors,
Language Processing and Intelligent
Information Systems, volume 7912 of Lecture Notes in Computer Science, pages 198205. Springer Berlin Heidelberg, 2013.
[MCSK13]
Marcin Miro«czuk, Dariusz Czerski, Marcin Sydow, and Mieczysªaw A.
Kªopotek.
Language-independent information extraction based on
Informatics and Applications (ICIA),2013
formal concept analysis. In
Second International Conference on, pages 323329, 2013.
[MNSS13]
Cristina Ioana Muntean, Franco Maria Nardini, Fabrizio Silvestri, and
Marcin Sydow.
Learning to shorten query sessions.
In
Proceedings
of the 22nd international conference on World Wide Web companion, WWW '13 Companion, pages 131132, Republic and Canton of
Geneva, Switzerland, 2013. International World Wide Web Conferences Steering Committee.
[MSS13]
Steen Metzger, Ralf Schenkel, and Marcin Sydow.
by entity examples.
In
Qbees:
query
Proceedings of the 22nd ACM international
conference on Conference on Information & Knowledge Management,
CIKM '13, pages 18291832, New York, NY, USA, 2013. ACM.
[MSS14]
Steen Metzger, Ralf Schenkel, and Marcin Sydow.
Aspect-based
similar entity search in semantic knowledge graphs with diversityawareness and relaxation. In
Proc. of the 2014 IEEE/WIC/ACM Inter-
national Joint Conference on Web Intelligence and Intelligent Agent
Technology, WI-IAT 2014, pages 6069, 2014.
[mtu]
http://www.mturk.com.
[nek]
http://nekst.pl.
[PS05]
J. Piskorski and M. Sydow.
newspaper articles.
Experiments on classication of polish
Archives of Control Sciences, Vol. 15, no. 4:625
636, 2005.
18
[PS06]
J. Piskorski and M. Sydow.
Fine-tuning n-gram-based text classier
for highly inective languages. In
Challenging Problems of Computer
Science, Articial Intelligence and Soft Computing, pages 494 499.
Academic Publishing House EXIT, Polish Neural Society, IEEE Computational Intelligence Society - Poland Chapter, 2006.
[PS07a]
Jakub Piskorski and Marcin Sydow. String distance metrics for reference matching and search query correction.
editor,
In Witold Abramowicz,
Business Information Systems, volume 4439 of Lecture Notes
in Computer Science, pages 353365. Springer Berlin / Heidelberg,
2007. 10.1007/978-3-540-72035-5.27.
[PS07b]
Jakub Piskorski and Marcin Sydow. Usability of string distance metrics
for name matching tasks in polish. In
Human Language Technologies
as a Challenge for Computer Science and Linguistics, Proc. of LTC'07,
pages 403407. Wydawnictwo Pozna«skie Sp. z o.o., 2007.
[PSK07]
Jakub Piskorski, Marcin Sydow, and Anna Kup±¢.
of polish person names.
In
Lemmatization
Proceedings of the Workshop on Balto-
Slavonic Natural Language Processing: Information Extraction and
Enabling Technologies, ACL '07, pages 2734, Stroudsburg, PA, USA,
2007. Association for Computational Linguistics.
[PSW08]
Jakub Piskorski, Marcin Sydow, and Dawid Weiss. Exploring linguistic
features for web spam detection:
'08:
a preliminary study.
In
AIRWeb
Proceedings of the 4th international workshop on Adversarial
information retrieval on the web, pages 2528, New York, NY, USA,
2008. ACM.
[PSW09]
Jakub Piskorski, Marcin Sydow, and Karol Wieloch.
Comparison of
string distance metrics for lemmatisation of named entities in polish.
pages 413427, 2009.
[PWPS08]
Jakub Piskorski, Karol Wieloch, M Pikula, and Marcin Sydow.
wards person name matching for inective languages. In
To-
WWW 2008
Workshop NLP Challenges in the Information Explosion Era, 2008.
[PWS09]
Jakub Piskorski, Karol Wieloch, and Marcin Sydow.
On knowledge-
poor methods for person name matching and lemmatization for highly
inectional languages.
[SBCD09]
Information Retrieval, 12(3):275299, 2009.
Marcin Sydow, Francesco Bonchi, Carlos Castillo, and Debora Donato. Optimising topical query decomposition. In
Proceedings of the
2009 Workshop on Web Search Click Data, WSCD '09, pages 4347,
New York, NY, USA, 2009. ACM.
[SCSS15]
Grzegorz
Sobczak,
Mateusz
Chochóª,
Ralf
Schenkel,
and
Marcin
Sydow. iQbees: Towards interactive semantic entity search based on
maximal aspects.
In Floriana Esposito, Olivier Pivert, Mohand-Said
Hacid, Zbigniew Ra±, and Stefano Ferilli, editors,
Foundations of In-
telligent Systems, volume 9384 of Lecture Notes in Computer Science,
19
pages 259264. Springer International Publishing, 2015. 10.1007/9783-319-25252-0-28.
[SCW12]
Marcin Sydow, Krzysztof Ciesielski, and Jakub Wajda. Introducing diversity to log-based query suggestions to deal with underspecied user
queries.
In Pascal Bouvry, Mieczyslaw Klopotek, Franck Leprévost,
Malgorzata Marciniak, Agnieszka Mykowiecka, and Henryk Rybinski,
editors,
Security and Intelligent Information Systems, volume 7053 of
Lecture Notes in Computer Science, pages 251264. Springer Berlin
/ Heidelberg, 2012. 10.1007/978-3-642-25261-7-20.
[SMN
+
15]
Marcin Sydow, Cristina Ioana Muntean, Franco Maria Nardini, Stan
Matwin, and Fabrizio Silvestri. MUSETS: Diversity-aware web query
suggestions for shortening user sessions. In Floriana Esposito, Olivier
Pivert, Mohand-Said Hacid, Zbigniew Ras, and Stefano Ferilli, editors,
Foundations of Intelligent Systems, volume 9384 of Lecture Notes in
Computer Science, pages 237247. Springer International Publishing,
2015. 10.1007/978-3-319-25252-0-26.
[SPS10a]
Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. DIVERSUM: Towards diversied summarisation of entities in knowledge graphs.
In
Proceedings of Data Engineering Workshops (ICDEW) at IEEE 26th
ICDE Conference, pages 221226. IEEE, 2010.
[SPS10b]
Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. Entity summarization with limited edge budget on undirected and directed knowledge
graphs.
[SPS11]
Investigationes Linguisticae, 21:7689, 2010.
Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel. To diversify or not
to diversify entity summaries on rdf knowledge graphs?
In Marzena
Kryszkiewicz, Henryk Rybi«ski, Andrzej Skowron, and Zbigniew Ras,
editors,
Foundations of Intelligent Systems, Proc. of the 19th ISMIS
Conference, Warsaw, Poland, 2011, volume 6804 of Lecture Notes in
Articial Intelligence, pages 490500. Springer Berlin / Heidelberg,
2011. 10.1007/978-3-642-21916-0-53.
[SPS12]
Grzegorz Sobczak, Mariusz Pikuªa, and Marcin Sydow.
Agnes:
A
novel algorithm for visualising diversied graphical entity summarisations on knowledge graphs.
In Li Chen, Alexander Felfernig, Jiming
Liu, and Zbigniew Ra±, editors,
volume 7661 of
Foundations of Intelligent Systems,
[SPS13]
Marcin Sydow, Mariusz Pikuªa, and Ralf Schenkel.
The notion of
diversity in graphical entity summarisation on semantic knowledge
graphs.
[SPSS10]
Journal of Intelligent Information Systems, 41:109149, 2013.
Marcin Sydow, Mariusz Pikuªa, Ralf Schenkel, and Adam Siemion.
Entity summarisation with limited edge budget on knowledge graphs.
In
Proceedings of the International Multiconference on Computer Sci-
ence and Information Technology, pages 513516. IEEE, 2010.
20
[SPWC08]
Marcin Sydow, Jakub Piskorski, Dawid Weiss, and Carlos Castillo.
Fighting Web Spam, volume 19 of NATO Science for Peace and
Security Series D: Information and Communication Security, pages
134153. IOS Press, 2008.
[SSC14]
Jacek Szejda, Marcin Sydow, and Dominika Czerniawska.
'renaissance man' create good wikipedia articles?
In
Does a
International
Conference on Knowledge Discovery and Information Retrieval (KDIR
2014), page 425, 2014.
[STS15]
Anna Strze»ek, Ludwik Trammer, and Marcin Sydow.
Divergene:
Experiments on controlling population diversity in genetic algorithm
with a dispersion operator.
In
Proceedings of the 2015 Federated
Conference on Computer Science and Information Systems, volume 5
of
Annals of Computer Science and Information Systems, pages 155
162, Sept 2015.
[Syd04a]
M. Sydow.
Link analysis of the web graph. measurements, models
and algorithms for web information retrieval (phd thesis), 2004.
[Syd04b]
Marcin
Sydow.
Extensions
of
pagerank.
the
rbs
algorithm.
In
Mieczysªaw A. Kªopotek, SªawomirT. Wierzcho«, and Krzysztof Trojanowski, editors,
volume 25 of
Intelligent Information Processing and Web Mining,
Advances in Soft Computing, pages 389396. Springer
Berlin Heidelberg, 2004.
[Syd04c]
Marcin Sydow. Random surfer with back step. In
Proceedings of the
13th International World Wide Web Conference on Alternate Track
Papers &Amp; Posters, WWW Alt. '04, pages 352353, New York,
NY, USA, 2004. ACM.
[Syd05a]
M. Sydow. Random surfer with back step.
Fundamenta Informaticae,
Vol. 68, nr 4:379398, 2005.
[Syd05b]
M. Sydow. Studying dependencies among web trac and link analysis
data using perceptron. In
Web Intelligence, 2005. Proceedings. The
2005 IEEE/WIC/ACM International Conference on, pages 124127,
Sept 2005.
[Syd05c]
Marcin Sydow. Approximation quality of the rbs ranking algorithm. In
Mieczysªaw A. Kªopotek, SªawomirT. Wierzcho«, and Krzysztof Trojanowski, editors,
volume 31 of
Intelligent Information Processing and Web Mining,
Advances in Soft Computing, pages 289296. Springer
[Syd05d]
Marcin Sydow. Can link analysis tell us about web trac? In
Special
Interest Tracks and Posters of the 14th International Conference on
World Wide Web, WWW '05, pages 954955, New York, NY, USA,
2005. ACM.
21
[Syd05e]
Marcin Sydow. Can one out-link change your pagerank?
In Piotr S.
Szczepaniak, Janusz Kacprzyk, and Adam Niewiadomski, editors,
Ad-
vances in Web Intelligence, volume 3528 of Lecture Notes in Computer
Science, pages 408414. Springer Berlin Heidelberg, 2005.
[Syd08]
M. Sydow. Towards using contextual information to learn trust metric
in social networks: A proposal. In
Proceedings of the 2nd International
Workshop on Combining Context with Trust, Security and Privacy, in
conjunction with IFIPTM08, 2008.
[Syd11]
Marcin Sydow. Towards the foundations of diversity-aware node summarisation on knowledge graphs. In
Proceedings of Diversity in Doc-
ument Retrieval Workshop, European Conference on Information Retrieval. Springer, 2011.
[Syd14a]
Marcin Sydow. Approximation guarantees for max sum and max min
facility dispersion with parameterised triangle inequality and applications in result diversication.
Mathematica Applicanda, 42(2):241
257, 2014.
[Syd14b]
Marcin Sydow. Improved approximation guarantee for max sum diversication with parameterised triangle inequality. In Troels Andreasen,
Henning Christiansen, Juan-Carlos Cubero, and Zbigniew. Ras, editors,
Foundations of Intelligent Systems, volume 8502 of Lecture
Notes in Computer Science, pages 554559. Springer International
Publishing, 2014.
[Syd14c]
Marcin Sydow. Towards integrity in diversity-aware small set selection
and visualisation tasks. pages 480484. SCITEPRESS, 2014.
[wik]
http://wikipedia.org.
[WS12a]
Alina Wróblewska and Marcin Sydow.
Debora:
Dependency-based
method for extracting entity-relationship triples from open-domain
texts in polish.
In Li Chen, Alexander Felfernig, Jiming Liu, and
Zbigniew W. Ra±, editors,
7661 of
Foundations of Intelligent Systems, volume
Lecture Notes in Computer Science, pages 155161. Springer
[WS12b]
Alina Wróblewska and Marcin Sydow. Dependency-based extraction
of entity-relationship triples from polish open-domain texts. In
Proc.
of Articial Intelligence Studies, volume 7(30), pages 6170. Publ.
House of University of Natural Sciences and Humanities,
2012.
[yag]
http://mpi-inf.mpg.de/yago.
22
Siedlce,

Autoreferat

Transkrypt

Podobne dokumenty

Projektowanie etykiet w programie DesignPro5.

Ozdoby Scytów

Rekomendujemy 4 programy imigracyjne