Pobierz
Transkrypt
Pobierz
Eksploracja Zasobów Internetu
Formalna charakterystyka modeli IR
DEF.
Model IR to < D, Q, F, R (qi, dj) >,
D to zbiór złożony z reprezentacji logicznych dokumentów w kolekcji
Q to zbiór złożony z reprezentacji logicznych ‘zapotrzebowania
informacyjnego’ użytkowników — tzw. zapytań
F to schemat modelowania reprezentacji dokumentów, zapytań i związków
między nimi
R (qi, dj) jest funkcją rangującą, która przyporządkowuje wartości
rzeczywiste parom (qi, dj): qi ∈ Q , dj ∈ D
Funkcja ta definiuje uporządkowanie (ranking) wszystkich dokumentów
względem zapytania.
Eksploracja zasobów Internetu
■
Klasyczne modele IR
■
model Boole’owski
model wektorowy (VSM)
model probabilistyczny
Nieklasyczne modele IR
model oparty na zbiorach rozmytych
rozszerzony model Boole’owski
model LSI (Latent Semantic Indexing)
model oparty na sieciach neuronowych
uogólniony model wektorowy (Generalized VSM)
nieklasyczne modele probabilistyczne (sieci Bayesowskie, belief
networks, inference networks ...)
Eksploracja zasobów Internetu
■
■
■
■
■
NOTACJA
Niech t będzie liczbą słów kluczowych (termów
indeksujących) w systemie a ki i-tym słowem
kluczowym. K={ k1, k2, ..., kt } jest zbiorem wszystkich
słów kluczowych.
Z każdym słowem kluczowym ki dokumentu dj związana
jest waga aij > 0, Dla słów kluczowych niewystępujących
w tekście dokumentu aij = 0.
Stąd każdemu dokumentowi przyporządkowany jest
wektor dj = (a1j, a2j, ..., atj).
Niech gi będzie funkcją, która zwraca wagę związaną z
słowem kluczowym ki dowolnego t-wymiarowego
wektora, np.: gi(dj) = aij.
Eksploracja zasobów Internetu
■ Model
Boole’owski
oparty na teorii zbiorów i algebrze
Boole’a
zapytania — wyrażenia Boole’owskie
o precyzyjnej semantyce
(reprezentowalne w postaci DNF)
Eksploracja zasobów Internetu
kb
ka
(1,1,0)
(1, 0, 0)
(1,1,1)
■
q = ka ∧ (kb ∨ ¬ kc)
■
qdnf = (1,1,1) ∨ (1,1,0) ∨ (1,0,0)
■
ogólnie:
■ qdnf =
1 if ∃ccl | (ccl ∈ qdnf ) ∧ (∀ki gi (d j ) = gi (ccl ) )
sim(d j , q ) =
0 w przeciwnym wypadku
kc
cc1 ∨ cc2 ∨ ... ∨ ccp
Eksploracja zasobów Internetu
reprezentacja dokumentów typu bagof-words
binarna decyzja dotycząca
adekwatności (brak R)
raczej data retrieval niż information
retrieval
trudność w wyrażeniu zapotrzebowań
informacyjnych w postaci wyrażeń
Boole’owskich
Eksploracja zasobów Internetu
■ Zalety
modelu Boole’owskiego:
prostota
dobre umotywowanie formalne
■ Wady
modelu Boole’owskiego:
dokładne dopasowanie dokumentów
do zapytania często prowadzi do zbyt
małych (np. pustych) lub zbyt dużych
zbiorów wyników
Eksploracja zasobów Internetu
■ Model
probabilistyczny
(BIR - binary independence retrieval model)
Założenia: dla danego zapytania użytkownika q
i dokumentu z kolekcji dj, model
probabilistyczny usiłuje oszacować
prawdopodobieństwo, że użytkownik uzna
dokument dj za interesujący (adekwatny).
Eksploracja zasobów Internetu
Prawdopodobieństwo adekwatności zależy
wyłącznie od reprezentacji zapytania q i
dokumentu dj.
Istnieje R - podzbiór dokumentów, które
użytkownik preferuje jako odpowiedź na
zapytanie q. Zbiór R ma maksymalizować
całkowite prawdopodobieństwo
adekwatności dla użytkownika. Dokumenty
z R są uznawane za adekwatne, dokumenty
spoza R za nieadekwatne.
Eksploracja zasobów Internetu
■
■
jak obliczać prawdopodobieństwa adekwatności?
na podstawie jakich próbek je szacować?
DEF.
W modelu probabilistycznym wagi przyporządkowane słowom
kluczowym są binarne: wij ∈ {0, 1}, wiq ∈ {0, 1}. Zapytanie q jest
podzbiorem słów kluczowych. Niech R będzie zbiorem
dokumentów, o których wiadomo, że są adekwatne. Niech R’
będzie dopełnieniem zbioru R (zbiorem dokumentów
nieadekwatnych). Niech P (R | dj) będzie prawdopodobieństwem,
że dokument dj jest adekwatny do zapytania q a P (R’ | dj) —
prawdopodobieństwem, że dj jest nieadekwatny do q.
Eksploracja zasobów Internetu
Adekwatność relevance(dj) dokumentu dj definiujemy jako:
P(dj | R) — prawdopodobieństwo losowego wybrania
dokumentu dj ze zbioru R dokumentów adekwatnych.
P(R) — prawdopodobieństwo, że losowo wybrany dokument
ze całego zbioru dokumentów jest adekwatny.
P(dj | R’) i P(R’) — analogiczne prawdopodobieństwa dla
zbioru dokumentów nieadekwatnych.
Eksploracja zasobów Interentu
Eksploracja zasobów Internetu
Eksploracja zasobów Internetu
■
Początkowe założenia:
prawdopodobieństwo występowania słowa kluczowego ki w
dokumencie losowo wybranym z R jest równe dla wszystkich
słów kluczowych
rozkład słów kluczowych w dokumentach z R’ jest taki jak w
całej kolekcji dokumentów
Eksploracja zasobów Internetu
■
Niech V jest podzbiorem dokumentów wybranych
początkowo jako adekwatne, a Vi jego podzbiorem
złożonym tylko z tych dokumentów, które zawierają
słowo kluczowe ki:
Eksploracja zasobów Internetu
■
Zaleta modelu probabilistycznego:
dokumenty są porządkowane zgodnie z malejącym
prawdopodobieństwem ich adekwatności
■
Wady modelu probabilistycznego:
konieczność zgadywania początkowego podziału zbioru
dokumentów na adekwatne i nieadekwatne
ignorowanie częstości wystąpienia słów kluczowych
w dokumentach (binarne wagi)
założenie o niezależności słów kluczowych
Eksploracja zasobów Internetu
■ Model
wektorowy
■
(VSM- Vector Space Model)
■
Dokumenty reprezentowane jako wektory w przestrzeni
t-wymiarowej
■
Wagi poszczególnych słów kluczowych ki dla danego
dokumentu dj wyznaczane miarą tf-idf (ang. term
frequency − inverse document frequency)
Eksploracja zasobów Internetu
■ tf-idf
■
ang. term frequency − inverse document frequency
■
waga słowa w dokumencie wzrasta wraz ze wzrostem
jego liczby wystąpień w tym dokumencie
■
waga słowa w kolekcji maleje wraz ze wzrostem liczby
dokumentów kolekcji, które zawierają to słowo
■
aij = tfij . idfi
Eksploracja zasobów Ineternetu
Eksploracja zasobów Internetu
■ Model
■
wektorowy
Dokumenty reprezentowane są jako wektory
w przestrzeni t-wymiarowej
■
Każdy wektor reprezentujący dokument ma początek
w początku układu współrzednych, a koniec w punkcie
o współrzędnych wyznaczonych wagami tf-idf
■
Zapytania q są reprezentowane analogicznie, wagi qi
■
mogą być binarne {0;1} , idf , tf-idf , …
■
A jak wyznaczać ranking dokumentów względem q ?
Eksploracja zasobów Internetu
Eksploracja zasobów Internetu
Eksploracja zasobów Ineternetu
■
Zalety modelu wektorowego:
■
uwzględnienie wag tf-idf poprawia wyniki
częściowe dopasowanie umożliwia odnajdowanie
dokumentów w przybliżeniu spełniających warunki
zapytania
kosinusowa miara podobieństwa umożliwia
uszeregowanie dokumentów zgodnie z malejącą
adekwatnością (możliwość kontroli rozmiarów zbioru
wyników)
prostota i szybkość
Wady modelu wektorowego:
założenie o niezależności słów w dokumentach
Eksploracja zasobów Ineternetu
Najczęściej zakłada się, że słowa kluczowe
są niezależne: na podstawie znajomości
wagi aij przyporządkowanej parze (ki, dj)
nie możemy nic powiedzieć o wadze alj dla
pary (kl, dj): i ≠ l.
■ Założenie o niezależności słów kluczowych
jest uproszczeniem dyktowanym:
■
efektywnością i prostotą obliczeń,
trudnością w modelowaniu związków między
słowami (zależność od konkretnych zbiorów)
Eksploracja zasobów Internetu
Porównanie klasycznych modeli IR
boolowski – słaby w kontekście IR
probabilistyczny > wektorowy (Croft)
wektorowy > probabilistyczny dla
ogólnych kolekcji tekstów (Salton &
Buckley)
Eksploracja zasobów Internetu
BIN
q: Brutus AND Caesar AND NOT Calpurnia
Żródło: An Introduction to Information Retrieval, Cambridge Univ. P. 2009
http://nlp.stanford.edu/IR-book/
Eksploracja zasobów Internetu
Odpowiedź: Antony and Cleopatra, Hamlet
Eksploracja zasobów Internetu
Tf
Eksploracja zasobów Internetu
TF-IDF
q: Brutus AND Caesar AND NOT Calpurnia (?)
Eksploracja zasobów Internetu
q: Brutus Caesar
Ranking:
1. Hamlet
2. An. & Cl.