Pobierz

Transkrypt

Pobierz

Eksploracja Zasobów Internetu
Formalna charakterystyka modeli IR
DEF.
Model IR to < D, Q, F, R (qi, dj) >,

D to zbiór złożony z reprezentacji logicznych dokumentów w kolekcji

Q to zbiór złożony z reprezentacji logicznych ‘zapotrzebowania
informacyjnego’ użytkowników — tzw. zapytań

F to schemat modelowania reprezentacji dokumentów, zapytań i związków
między nimi

R (qi, dj) jest funkcją rangującą, która przyporządkowuje wartości
rzeczywiste parom (qi, dj): qi ∈ Q , dj ∈ D
Funkcja ta definiuje uporządkowanie (ranking) wszystkich dokumentów
względem zapytania.
Eksploracja zasobów Internetu
■
Klasyczne modele IR
■
model Boole’owski
model wektorowy (VSM)
model probabilistyczny
 Nieklasyczne modele IR
model oparty na zbiorach rozmytych
rozszerzony model Boole’owski
model LSI (Latent Semantic Indexing)
model oparty na sieciach neuronowych
uogólniony model wektorowy (Generalized VSM)
nieklasyczne modele probabilistyczne (sieci Bayesowskie, belief
networks, inference networks ...)
■
■
■
■
■
NOTACJA
Niech t będzie liczbą słów kluczowych (termów
indeksujących) w systemie a ki i-tym słowem
kluczowym. K={ k1, k2, ..., kt } jest zbiorem wszystkich
słów kluczowych.
Z każdym słowem kluczowym ki dokumentu dj związana
jest waga aij > 0, Dla słów kluczowych niewystępujących
w tekście dokumentu aij = 0.
Stąd każdemu dokumentowi przyporządkowany jest
wektor dj = (a1j, a2j, ..., atj).
Niech gi będzie funkcją, która zwraca wagę związaną z
słowem kluczowym ki dowolnego t-wymiarowego
wektora, np.: gi(dj) = aij.
■ Model

Boole’owski
oparty na teorii zbiorów i algebrze
Boole’a

zapytania — wyrażenia Boole’owskie
o precyzyjnej semantyce
(reprezentowalne w postaci DNF)
kb
ka
(1,1,0)
(1, 0, 0)
(1,1,1)
■
q = ka ∧ (kb ∨ ¬ kc)
■
qdnf = (1,1,1) ∨ (1,1,0) ∨ (1,0,0)
■
ogólnie:
■ qdnf =
 1 if ∃ccl | (ccl ∈ qdnf ) ∧ (∀ki gi (d j ) = gi (ccl ) )
sim(d j , q ) = 
0 w przeciwnym wypadku
kc
cc1 ∨ cc2 ∨ ... ∨ ccp
reprezentacja dokumentów typu bagof-words
 binarna decyzja dotycząca
adekwatności (brak R)
 raczej data retrieval niż information
retrieval
 trudność w wyrażeniu zapotrzebowań
informacyjnych w postaci wyrażeń
Boole’owskich

■ Zalety
modelu Boole’owskiego:
prostota
 dobre umotywowanie formalne

■ Wady

modelu Boole’owskiego:
dokładne dopasowanie dokumentów
do zapytania często prowadzi do zbyt
małych (np. pustych) lub zbyt dużych
zbiorów wyników
■ Model
probabilistyczny

(BIR - binary independence retrieval model)

Założenia: dla danego zapytania użytkownika q
i dokumentu z kolekcji dj, model
probabilistyczny usiłuje oszacować
prawdopodobieństwo, że użytkownik uzna
dokument dj za interesujący (adekwatny).


Prawdopodobieństwo adekwatności zależy
wyłącznie od reprezentacji zapytania q i
dokumentu dj.
Istnieje R - podzbiór dokumentów, które
użytkownik preferuje jako odpowiedź na
zapytanie q. Zbiór R ma maksymalizować
całkowite prawdopodobieństwo
adekwatności dla użytkownika. Dokumenty
z R są uznawane za adekwatne, dokumenty
spoza R za nieadekwatne.


■
■
jak obliczać prawdopodobieństwa adekwatności?
na podstawie jakich próbek je szacować?
DEF.
W modelu probabilistycznym wagi przyporządkowane słowom
kluczowym są binarne: wij ∈ {0, 1}, wiq ∈ {0, 1}. Zapytanie q jest
podzbiorem słów kluczowych. Niech R będzie zbiorem
dokumentów, o których wiadomo, że są adekwatne. Niech R’
będzie dopełnieniem zbioru R (zbiorem dokumentów
nieadekwatnych). Niech P (R | dj) będzie prawdopodobieństwem,
że dokument dj jest adekwatny do zapytania q a P (R’ | dj) —
prawdopodobieństwem, że dj jest nieadekwatny do q.
Adekwatność relevance(dj) dokumentu dj definiujemy jako:
P(dj | R) — prawdopodobieństwo losowego wybrania
dokumentu dj ze zbioru R dokumentów adekwatnych.
P(R) — prawdopodobieństwo, że losowo wybrany dokument
ze całego zbioru dokumentów jest adekwatny.
P(dj | R’) i P(R’) — analogiczne prawdopodobieństwa dla
zbioru dokumentów nieadekwatnych.
Eksploracja zasobów Interentu
■
Początkowe założenia:


prawdopodobieństwo występowania słowa kluczowego ki w
dokumencie losowo wybranym z R jest równe dla wszystkich
słów kluczowych
rozkład słów kluczowych w dokumentach z R’ jest taki jak w
całej kolekcji dokumentów
■
Niech V jest podzbiorem dokumentów wybranych
początkowo jako adekwatne, a Vi jego podzbiorem
złożonym tylko z tych dokumentów, które zawierają
słowo kluczowe ki:
■
Zaleta modelu probabilistycznego:

dokumenty są porządkowane zgodnie z malejącym
prawdopodobieństwem ich adekwatności
■
Wady modelu probabilistycznego:

konieczność zgadywania początkowego podziału zbioru
dokumentów na adekwatne i nieadekwatne

ignorowanie częstości wystąpienia słów kluczowych
w dokumentach (binarne wagi)

założenie o niezależności słów kluczowych
■ Model
wektorowy
■
(VSM- Vector Space Model)
■
Dokumenty reprezentowane jako wektory w przestrzeni
t-wymiarowej
■
Wagi poszczególnych słów kluczowych ki dla danego
dokumentu dj wyznaczane miarą tf-idf (ang. term
frequency − inverse document frequency)
■ tf-idf
■
ang. term frequency − inverse document frequency
■
waga słowa w dokumencie wzrasta wraz ze wzrostem
jego liczby wystąpień w tym dokumencie
■
waga słowa w kolekcji maleje wraz ze wzrostem liczby
dokumentów kolekcji, które zawierają to słowo
■
aij = tfij . idfi
Eksploracja zasobów Ineternetu
■ Model
■
wektorowy
Dokumenty reprezentowane są jako wektory
w przestrzeni t-wymiarowej
■
Każdy wektor reprezentujący dokument ma początek
w początku układu współrzednych, a koniec w punkcie
o współrzędnych wyznaczonych wagami tf-idf
■
Zapytania q są reprezentowane analogicznie, wagi qi
■
mogą być binarne {0;1} , idf , tf-idf , …
■
A jak wyznaczać ranking dokumentów względem q ?
■
Zalety modelu wektorowego:




■
uwzględnienie wag tf-idf poprawia wyniki
częściowe dopasowanie umożliwia odnajdowanie
dokumentów w przybliżeniu spełniających warunki
zapytania
kosinusowa miara podobieństwa umożliwia
uszeregowanie dokumentów zgodnie z malejącą
adekwatnością (możliwość kontroli rozmiarów zbioru
wyników)
prostota i szybkość
Wady modelu wektorowego:

założenie o niezależności słów w dokumentach
Najczęściej zakłada się, że słowa kluczowe
są niezależne: na podstawie znajomości
wagi aij przyporządkowanej parze (ki, dj)
nie możemy nic powiedzieć o wadze alj dla
pary (kl, dj): i ≠ l.
■ Założenie o niezależności słów kluczowych
jest uproszczeniem dyktowanym:
■


efektywnością i prostotą obliczeń,
trudnością w modelowaniu związków między
słowami (zależność od konkretnych zbiorów)
Porównanie klasycznych modeli IR

boolowski – słaby w kontekście IR

probabilistyczny > wektorowy (Croft)

wektorowy > probabilistyczny dla
ogólnych kolekcji tekstów (Salton &
Buckley)
BIN
q: Brutus AND Caesar AND NOT Calpurnia
Żródło: An Introduction to Information Retrieval, Cambridge Univ. P. 2009
http://nlp.stanford.edu/IR-book/
Odpowiedź: Antony and Cleopatra, Hamlet
Tf
TF-IDF
q: Brutus AND Caesar AND NOT Calpurnia (?)
q: Brutus Caesar
Ranking:
1. Hamlet
2. An. & Cl.

Pobierz

Transkrypt

Podobne dokumenty

Zalew danych Przyrost danych Motywacja

Wprowadzenie do Eksploracji Danych

Eksploracja Zasobów Internetu

Eksploracja Zasobów Internetu

PageRank – intuicja: “strona jest tak ważna jak ważne są strony

Eksploracja danych (data mining)

eksploracja danych - Politechnika Warszawska

Systemy ekspertowe

eib | aktualności

Eksploracja danych - Technologie Przetwarzania Danych

Historia polskiej eksploracji Hoher Göll cz. 2

Eksploracja danych - Instytut Informatyki Teoretycznej i Stosowanej