KARTOGRAFICZNA METODA REPREZENTACJI WIEDZY W

Transkrypt

KARTOGRAFICZNA METODA REPREZENTACJI WIEDZY W
KARTOGRAFICZNA METODA REPREZENTACJI WIEDZY
W SYSTEMIE KASEA
Wojciech WALOSZEK*
Streszczenie. Niniejszy rozdział prezentuje opracowaną przez autora metodę
reprezentacji wiedzy, nazwaną kartografią wiedzy, która pozwala na przeprowadzanie
wnioskowania w procesie asymilacji i uzupełniania informacji pochodzących z róŜnych
źródeł internetowych; metoda zapewnia równieŜ efektywny dostęp do gromadzonych
informacji. Rozdział opisuje załoŜenia leŜące u podstaw opracowanej metody, jej ograniczenia i zastosowania. Rozdział prezentuje takŜe niektóre szczegóły implementacyjne
systemu KASEA wykorzystującego kartografię wiedzy do wewnętrznej reprezentacji
gromadzonych informacji oraz wstępne wyniki testów wydajnościowych systemu KASEA, a
takŜe posumowanie określające dalsze kierunki rozwoju kartografii wiedzy.
1.
Wprowadzenie
Rozwój Internetu rodzi nowe potrzeby w dziedzinie przetwarzania i eksploracji danych.
Wraz z rozwojem globalnej sieci coraz większego znaczenia nabierają systemy będące
w stanie efektywnie korzystać z jej zasobów. Systemy te muszą oferować nową
funkcjonalność polegającą na udostępnianiu moŜliwości automatycznej asymilacji nowo
pozyskanych danych z juŜ zgromadzonymi. Z uwagi na fakt, Ŝe pozyskane z róŜnych źródeł
dane opisują dziedzinę zainteresowań fragmentarycznie i z róŜnych punktów widzenia,
efektywny proces asymilacji nie powinien ograniczać się do gromadzenia informacji, ale
powinien równieŜ być zdolny do uzupełniania ich o wnioski, czyli porcje informacji nie
podane jawnie, ale wynikające ze zgromadzonych juŜ danych.
Niniejszy rozdział prezentuje opracowaną przez autora metodę reprezentacji wiedzy,
nazwaną kartografią wiedzy [1, 2], która pozwala na przeprowadzanie wnioskowania oraz
efektywny dostęp do gromadzonych informacji. Metoda ta bazuje na logice opisowej [3] –
* Politechnika Gdańska, Katedra InŜynierii Oprogramowania, ul. Narutowicza 11/12,
80-952 Gdańsk, e-mail: [email protected]
dziedzinie logiki zajmującej się badaniem systemów terminologicznych. Co za tym idzie,
kartografia wiedzy pozwala na zachowanie zgodności z inicjatywą Semantic Web [4] (której
celem jest wytworzenie standardów i technologii umoŜliwiających narzędziom rozpoznanie
semantyki danych zapisanych w źródłach internetowych) i opracowanym w jej ramach
językiem OWL (ang. Web Ontology Language) [5].
Kartografia wiedzy została wykorzystana w prototypowym systemie zarządzania wiedzą
KASEA. KASEA stanowi podsystem systemu tworzonego w ramach projektu 6. Programu
Ramowego UE o nazwie PIPS (ang. Personalized Information Platform for Life and Health
Services) [6]. Głównym celem projektu jest opracowanie infrastruktury informatycznej
wspomagającej dostęp do szeroko rozumianej wiedzy medycznej zarówno wśród lekarzy,
jak i zwykłych obywateli Unii Europejskiej. Przedstawione wyniki testów pochodzą z
pomiarów przeprowadzonych przy uŜyciu systemu KASEA.
2.
Podstawy teoretyczne
W pracach nad systemem KASEA wykorzystano formalizm opisu wiedzy stosowany
w logice opisowej (oznaczanej jako DL od ang. Description Logics) [3]. Logika opisowa
stanowi dział badań zajmujący się systemami terminologicznymi. Wyniki tych badań
zostały wykorzystane w pracach nad językiem OWL opracowanym w ramach inicjatywy
Semantic Web.
Logiki opisowej uŜywamy do opisu dziedziny zainteresowań, zwanej uniwersum. Sam
opis dziedziny zainteresowań moŜemy nazwać ontologią (patrz definicja Grubera [7]).
Ontologia w logice opisowej dzieli się na dwie części: terminologię (zbiór aksjomatów)
i opis świata (zbiór asercji). Terminologia (TBox) wyszczególnia pojęcia, które mogą być
uŜyte do opisu uniwersum; określa teŜ związki pomiędzy pojęciami. Opis świata (ABox)
przyporządkowuje elementy uniwersum (zwane osobnikami bądź indywiduami)
poszczególnym pojęciom i pokazuje powiązania pomiędzy osobnikami za pomocą relacji
binarnych.
Tabela 1. Koncepty proste i złoŜone w dialekcie ALC
Nazwa konceptu
koncept uniwersalny
koncept pusty
Zapis
⊤
suma konceptów
C ⊔ D Suma zakresów konceptów C i D.
przecięcie konceptów
C ⊓ D Część wspólna zakresów konceptów C i D.
⊥
dopełnienie konceptu
¬C
kwantyfikacja ogólna
∀R.C
kwantyfikacja egzystencjalna
∃R.C
Zakres konceptu
Całe uniwersum.
Pusty.
Dopełnienie zakresu konceptu C do uniwersum.
Osobniki będące w relacji R wyłącznie
z wystąpieniami konceptu C.
Osobniki będące w relacji R z przynajmniej
jednym wystąpieniem konceptu C.
Pojęcie w sensie DL będziemy określać mianem konceptu. Zakresem konceptu
nazwiemy zbiór tych osobników, które moŜna za pomocą danego konceptu (pojęcia) opisać;
osobniki te nazywamy wystąpieniami konceptu. Koncept atomowy jest określony przez
pojedynczą nazwę (generalną), np. Kobieta. Koncepty złoŜone budowane są za pomocą tzw.
konstruktorów (operatorów logiki opisowej). Tabela 1 pokazuje koncepty złoŜone
i konstruktory jednego z bardziej popularnych dialektów DL, nazywanego ALC.
Terminologię buduje się poprzez określenie zbioru aksjomatów. Aksjomaty
równowaŜności, postaci C ≡ D, stwierdzają, Ŝe zakresy konceptów C i D są równe.
Aksjomaty podrzędności, postaci C ⊑ D, stwierdzają, Ŝe zakres konceptu C zawiera się w
zakresie konceptu D.
Kobieta ≡ Człowiek ⊓ ¬OsobnikMęski
MęŜczyzna ≡ Człowiek ⊓ ¬Kobieta
Rodzic ≡ Człowiek ⊓ ∃maDziecko.⊤
(1)
Matka ≡ Rodzic ⊓ ¬OsobnikMęski
∃maDziecko.Człowiek ≡ ∃maDziecko.⊤ ⊓ Człowiek
Przykładem terminologii jest (1). Terminologię tę moŜna odczytać w sposób swobodny
jako zbiór następujących zdań (aksjomatów): Kobiety to ludzie, którzy nie są płci męskiej;
MęŜczyźni to ludzie nie będący kobietami; Rodzice to ludzie, którzy mają dzieci; Matki to
rodzice, którzy nie są płci męskiej; Tylko ludzie mogą mieć ludzkie dzieci.
Opis świata buduje się poprzez określanie asercji. Asercje konceptualne mówią
o przynaleŜności danego osobnika do konceptu. Asercje relacyjne mówią o przynaleŜeniu
pary osobników do pewnej relacji. Przykładem opisu świata jest (2).
maDziecko(Danielle, Darek)
MęŜczyzna(Darek)
(2)
Zakłada się przy tym, Ŝe pełny zbiór osobników, relacje między nimi oraz przypisanie
ich do odpowiednich konceptów istnieją, są stałe, ale nieznane systemowi zarządzania
wiedzą (ani jego uŜytkownikom). System musi odkrywać te informacje w miarę wzbogacania się opisu świata o kolejne asercje (a czasem równieŜ terminologii o kolejne aksjomaty), przechowywać je w swojej bazie wiedzy i uzupełniać je na drodze wnioskowania.
Wnioskowanie polega na uzupełnianiu gromadzonej wiedzy o aksjomaty i asercje
wynikające z juŜ zgromadzonych, ale nie podane systemowi wprost. Wnioskowanie
moŜliwe jest dzięki sformułowaniu zaleŜności między konceptami w terminologii. Na
przykład, na podstawie (1) moŜemy wywnioskować, Ŝe Matka ⊑ Kobieta (kaŜda matka jest
kobietą; naleŜy zauwaŜyć, Ŝe to zdanie nie zostało sformułowane explicite w (1); jest to
przykład wnioskowania wyłącznie z terminologii), a na podstawie (1) i (2), Ŝe
Człowiek(Danielle) (Danielle jest człowiekiem, gdyŜ tylko człowiek moŜe mieć ludzkie
dzieci; jest to przykład wnioskowania z terminologii i opisu świata).
Obok zdań, o których prawdziwości moŜna orzec na drodze wnioskowania, istnieją
takŜe zdania, których prawdziwości system nie moŜe być pewny. Przykładem takiego
zdania jest MęŜczyzna(Danielle). Dane dotychczas zgromadzone ((1) i (2)) nie dostarczają
Ŝadnych informacji na temat płci Danielle. W systemie zatem pojawia się pojęcie niewiedzy.
Systemy zarządzania wiedzą oparte na logice opisowej działają, opierając się na tzw.
załoŜeniu świata otwartego (OWA, od ang. Open World Assumption). ZałoŜenie to polega
na tym, Ŝe systemy te nigdy nie uwaŜają zgromadzonej wiedzy za kompletną. Na przykład,
system zgodny z OWA nie zaliczy Danielle do konceptu ∀maDziecko.MęŜczyzna (osoba
mająca samych synów), chociaŜ według aktualnych informacji wiemy, Ŝe Danielle ma syna
Darka. System jednak zakłada, Ŝe nie zna pełnego zbioru osobników ani wszystkich relacji,
i jest przygotowany na nadejście kolejnych asercji dotyczących potencjalnych córek
Danielle. Podobnie ani w odpowiedzi na pytanie o wystąpienia konceptu MęŜczyzna, ani w
odpowiedzi na pytanie o listę osobników konceptu Kobieta system nie zamieści Danielle,
choć zamieści tego osobnika w odpowiedzi na zapytanie o wystąpienia konceptu
MęŜczyzna ⊔ Kobieta (Danielle musi być męŜczyzną lub kobietą). System jest zatem
w stanie wyróŜnić obszary swej pewności i niepewności.
3.
Kartografia wiedzy
Bezpośredniej motywacji do opracowania nowej metody reprezentacji wiedzy dostarczyło
uczestnictwo autora w projekcie PIPS. PIPS (ang. Personalized Information Platform for
Life and Health Services) jest projektem objętym 6. Programem Ramowym Unii
Europejskiej. Jego głównym celem jest utworzenie infrastruktury dostarczającej lekarzom i
pacjentom informacji słuŜącej podnoszeniu poziomu Ŝycia i zdrowia wśród mieszkańców
Wspólnoty. Ze względu na krytyczny charakter wspomaganej dziedziny Ŝycia w projekcie
PIPS zdecydowano się na zastosowanie systemu zarządzania wiedzą. System ten musi być
zdolny do przechowywania informacji na temat bardzo duŜej liczby osobników
(obejmujących m.in. leki, substancje aktywne, choroby, alergie, składniki Ŝywności,
produkty Ŝywnościowe itp.). Informacje na temat tych osobników muszą być periodycznie
uzupełniane na podstawie danych odczytanych z zaufanych źródeł zewnętrznych, w tym
internetowych. Ze względu na skalę uŜycia i charakter udostępnianych informacji czas
odpowiedzi systemu na zapytania powinien być moŜliwie najkrótszy.
Przeprowadzone testy (patrz teŜ podrozdział 5) wykazały, Ŝe istniejące narzędzia
zarządzania wiedzą mają trudności z obsługą baz wiedzy zawierających duŜą liczbę
osobników. Z tego względu podjęto decyzję o implementacji własnego systemu zarządzania
wiedzą opartego na opracowanej w tym celu reprezentacji wiedzy, nazwanej reprezentacją
kartograficzną lub kartografią wiedzy.
Kartografia wiedzy opiera się na załoŜeniu, Ŝe jak największa liczba wniosków jest
przechowywana bezpośrednio w bazie wiedzy i wysnuwana w czasie jej aktualizacji (tj.
w czasie dodawania nowych asercji), a nie w czasie udzielania odpowiedzi na zapytania.
Z tego względu zastosowanie kartografii wiedzy wymaga spełnienia pewnych wstępnych
załoŜeń dotyczących korzystania z bazy wiedzy:
Terminologia nie moŜe być aktualizowana w czasie pracy systemu. To załoŜenie
potrzebne jest po to, aby wnioski wysnute w czasie poprzednich aktualizacji zachowały
swoją moc. Bazę wiedzy moŜna wzbogacać o nowe asercje, ale nie o nowe aksjomaty.
Czas aktualizacji bazy wiedzy moŜe być stosunkowo długi. W czasie aktualizacji bazy
wiedzy (tj. przyjmowaniu nowych asercji) przeprowadzane jest wnioskowanie. Z tego
względu czas aktualizacji bazy moŜe być dłuŜszy niŜ w przypadku innych narzędzi. Dlatego
metodę tę najlepiej stosować w systemach, gdzie aktualizacja zachodzi periodycznie
w przewidywalnych okresach i stosunkowo duŜymi blokami informacji.
W zamian za przestrzeganie tych ograniczeń kartografia wiedzy zapewnia:
Zgodność z OWA. Kartografia wiedzy pozwala na reprezentowanie obszarów pewności
i niepewności, uwzględnianych w trakcie wnioskowania i odpowiadania na zapytania.
Szybkie odpowiedzi na zapytania dotyczące duŜych zbiorów osobników. System KASEA,
wykorzystujący kartografię wiedzy do wewnętrznej reprezentacji, wypadł bardzo dobrze
w testach porównawczych z innymi narzędziami dla baz wiedzy zawierających duŜą liczbę
osobników (patrz podrozdział 5).
Wymienione ograniczenia i zalety metody kartograficznej szkicują stosunkowo szeroki
zakres jej potencjalnych zastosowań. Warto takŜe zauwaŜyć, Ŝe stosowanie metody nie jest
w Ŝaden sposób ograniczone do oryginalnej dziedziny zastosowań, jaką jest medycyna.
Kluczowym pojęciem w ramach kartografii wiedzy, któremu zawdzięcza ona swoją
nazwę, jest mapa konceptów. Graficzna postać mapy konceptów przypomina diagram
Venna, na którym reprezentowane są zakresy poszczególnych konceptów, z tym Ŝe
niespełnialne obszary, tj. takie, w których nie moŜe znaleźć się Ŝaden osobnik, są z
diagramu usuwane. Proces usuwania niespełnialnych obszarów pokazany jest na rysunku 1,
na przykładzie przetwarzania pierwszego aksjomatu z terminologii (1).
Jak widać na rysunku 1, z diagramu Venna usunięty został obszar odpowiadający
przecięciu zakresu konceptu Kobieta z dopełnieniem zakresu konceptu Człowiek (gdyŜ
kaŜda kobieta jest człowiekiem), obszar odpowiadający przecięciu zakresu konceptu Człowiek z dopełnieniami zakresów konceptów Kobieta i OsobnikMęski (gdyŜ kaŜdy człowiek
nie będący płci męskiej jest kobietą) oraz obszary stanowiące przecięcie zakresu konceptu
Kobieta z zakresem konceptu OsobnikMęski. Są to obszary niespełnialne według pierwszego aksjomatu terminologii (1). Usuwanie obszarów następuje po przetworzeniu kaŜdego
aksjomatu, prowadząc do ostatecznej formy mapy wiedzy przedstawionej na rysunku 2.
Graficzna reprezentacja mapy konceptów jest uŜyteczną i czytelną dla człowieka formą
przedstawienia wiedzy terminologicznej. Aby uczynić mapę wiedzy czytelną dla komputera
wprowadzono jej binarną reprezentację. Binarna reprezentacja mapy wiedzy powstaje
poprzez nadanie obszarom atomowym (tj. takim, które nie składają się z innych obszarów)
numerów odpowiadającym kolejnym liczbom naturalnym. Po przeprowadzeniu takiego
przyporządkowania kaŜdy obszar na mapie konceptów moŜe być reprezentowany przez ciąg
cyfr binarnych (bitów) o długości równej n, gdzie n jest liczbą obszarów atomowych na
mapie konceptów. Jedynka na k-tej pozycji w tym ciągu oznacza, Ŝe obszar atomowy o
numerze k jest zawarty w obszarze opisywanym przez ciąg, zero natomiast, Ŝe występuje
przypadek przeciwny. Takie ciągi opisujące obszary nazywamy sygnaturami. Gdy kaŜdemu
konceptowi przypiszemy sygnaturę opisującą obszar odpowiadający zakresowi danego
konceptu, otrzymamy binarną reprezentację mapy konceptów widoczną na rysunku 2.
Posługując się opisaną techniką, jesteśmy w stanie zdefiniować funkcję s
odwzorowującą, zgodnie z podanym sposobem, koncepty w elementy algebry Boole’a
Bn = {0,1}n. Za pomocą sygnatur moŜemy takŜe opisywać koncepty złoŜone dialektu ALC
(patrz tabela 1), przy czym moŜna udowodnić, Ŝe zachodzą zaleŜności (3).
Rys. 1. Ilustracja procesu usuwania niespełnialnych obszarów z mapy konceptów na
podstawie pierwszego aksjomatu terminologii (1)
s(C ⊓ D) = s(C) ∧ s(D)
s(C ⊔ D) = s(C) ∨ s(D)
(3)
s(¬C) = ¬s(C)
Poprzez operacje ∧, ∨ oraz ¬ na ciągach binarnych rozumiemy standardowe operacje
iloczynu, sumy i negacji logicznej przeprowadzane na kolejnych bitach. ZaleŜności (3)
pozwalają nam na wyraŜenie sygnatury odpowiadającej zakresowi dowolnego konceptu
złoŜonego zapisanego w dialekcie ALC. Warunkiem (stanowiącym jedno z najpowaŜniejszych ograniczeń metody kartograficznej, patrz podrozdział 6) jest wymaganie, Ŝeby
wszystkie wykorzystane kwantyfikowane koncepty złoŜone (tj. koncepty postaci ∀R.C i
∃R.C) były obecne na mapie konceptów.
Korzystając z kartograficznej reprezentacji zakresów konceptów, system jest w stanie
odpowiedzieć na wszystkie wymienione w [3] klasy zapytań terminologicznych. I tak:
• pytanie o równowaŜność konceptów C i D sprowadza się do sprawdzenia, czy
ich zakresy są równe, a zatem czy s(C) = s(D);
• pytanie o podrzędność konceptu C względem D sprowadza się do sprawdzenia,
czy zakres jednego konceptu zawiera się w drugim, czyli czy s(C) = s(C) ∧
s(D) (co krócej zapisujemy jako s(C) ≤ s(D); mówimy teŜ czasem, Ŝe sygnatura
s(C) jest podrzędna w stosunku do s(D));
• pytanie o rozłączność konceptów C i D sprowadza się do sprawdzenia, czy
przecięcie ich zakresów jest puste, czyli czy s(C) ∧ s(D) = {0}n;
• pytanie o spełnialność konceptu C sprowadza się do sprawdzenia, czy jego
zakres jest pusty, czyli czy s(C) = {0}n.
Rys. 2. Graficzna i binarna reprezentacja mapy konceptów terminologii (1)
Sygnatury moŜemy przypisywać takŜe osobnikom (sygnaturę osobnika a oznaczamy
jako s(a)). Obszar na mapie konceptów przypisany osobnikowi (tzw. obszar niepewności)
ma nieco inne znaczenie niŜ ten przypisany konceptowi i opisuje naszą wiedzę na temat
przynaleŜności osobnika do zakresów poszczególnych konceptów. Podobnie jak
w przypadku diagramów Venna, kaŜdy osobnik powinien znaleźć się na mapie obszarów
w jednym obszarze atomowym. Przypisanie osobnikowi większego obszaru oznacza, Ŝe
nasza wiedza nie pozwala na precyzyjne określenie, w którym obszarze atomowym spośród
zawartych w danym obszarze niepewności dany osobnik naprawdę się znajduje.
Problem zilustrowany jest na rysunku 3 na przykładzie Danielle z opisu świata (2).
W miarę, jak do systemu napływają kolejne informacje na temat Danielle, jest on w stanie
aktualizować obszar niepewności, zawęŜając moŜliwości przypisania konceptów do tego
osobnika. Na początku o Danielle nie wiemy nic – obszar niepewności obejmuje wówczas
całą mapę konceptów, a zatem nie moŜemy orzec nic o przynaleŜności Danielle do
poszczególnych konceptów. W miarę napływania kolejnych informacji moŜemy po kolei
wykluczać niektóre obszary z obszaru niepewności Danielle. W kroku (2) wykluczamy, Ŝe
Danielle jest osobnikiem bezdzietnym (usuwając z obszaru niepewności obszary atomowe
1, 4, 7, 8). W kroku (3) stwierdzamy, Ŝe dzieckiem Danielle jest człowiek, co pozwala na
usunięcie z obszaru niepewności obszarów atomowych 2 i 3.
Obsługa nowych asercji polega zatem na aktualizacji obszarów niepewności stosownych
osobników. Przetwarzanie nowego faktu, wyraŜonego w postaci asercji konceptualnej C(a),
wymaga ponownego przeliczenia sygnatury s(a) danego osobnika a i przypisania jej
wartości s(a) ∧ s(C). Przetwarzanie nowej asercji relacyjnej jest nieco bardziej
skomplikowane; mówiąc w uproszczeniu, wymaga określenia konceptów postaci ∃R.C, do
których naleŜy zaliczyć osobniki będące w relacji podanej w asercji.
Koncepcja przypisania obszarów niepewności poszczególnym osobnikom pozwala na
osiągnięcie zachowania systemu zgodne z OWA. Jak pokazano na rysunku 3b i 3c,
wnioskowanie na temat osobników moŜna równieŜ sprowadzić do porównywania sygnatur.
JeŜeli sygnatura osobnika a jest mniejsza bądź równa sygnaturze konceptu C, moŜemy
wnioskować, Ŝe z pewnością a jest wystąpieniem C. JeŜeli sygnatury mają część wspólną,
ale sygnatura a nie jest równa sygnaturze C, oznacza to, Ŝe według naszej wiedzy nie
jesteśmy w stanie orzec, czy a jest wystąpieniem C, czy teŜ nie.
Rys. 3. Zmniejszający się obszaru niepewności dotyczący pewnego osobnika (a) oraz
przykłady wnioskowania na podstawie obszaru niepewności (b) i (c)
4.
Baza danych systemu KASEA
Podejście kartograficzne wykorzystano w systemie KASEA (z ang. Knowledge Signature
Analyzer) wykorzystanym w ramach systemu PIPS jako jeden z najwaŜniejszych
komponentów podsystemu zarządzania wiedzą. KASEA pozwala na przetwarzanie wiedzy
zarówno terminologicznej (TBox), jak i asercjonalnej (ABox). Informacje składowane są w
relacyjnej bazie danych (w najnowszej wersji systemu KASEA zastosowano Oracle 9i).
Rysunek 4 przedstawia logiczny model bazy danych systemu KASEA w postaci
diagramu E-R. Przy tworzeniu projektu bazy kierowano się chęcią utworzenia struktury
danych dającej jak największą skalowalność względem liczby przechowywanych
osobników. Opis poszczególnych zbiorów encji zawarty jest w tabeli 2.
Główne zbiory encji wyróŜnione w ramach schematu logicznego to: Koncepty,
Sygnatury i Osobniki. Koncepty przechowują dane o konceptach zdefiniowanych w terminologii, Osobniki dane o osobnikach zdefiniowanych w opisie świata. Zarówno konceptom,
jak i osobnikom przypisane są sygnatury opisujące odpowiednio zakresy poszczególnych
konceptów i obszary niepewności poszczególnych osobników (związek ma).
Pozostałe zbiory encji słuŜą do przechowywania informacji o relacjach między osobnikami. Zbiór encji Relacje przechowuje informacje o relacjach zdefiniowanych w terminologii. Zbiór encji ElementyRelacji zawiera dane o parach osobników stanowiących elementy
relacji (związki: pierwszy określa pierwszego osobnika w danej parze; drugi drugiego;
naleŜyDo określa relację, do której naleŜy dana para). Zbiór KonceptyKwantyfikowane
pełni rolę pomocniczą przy wnioskowaniu na podstawie asercji relacyjnych. Zbiór ten
przechowuje informacje na tematy konceptów postaci ∃R.C (związek osobnik określa
sygnaturę konceptu C, związek koncept sygnaturę konceptu ∃R.C).
W ramach bazy danych zastosowano kilka konstrukcji mających na celu przyspieszenie
działania systemu. Przede wszystkim wyróŜniono osobny zbiór encji Sygnatury. Oznacza
to, Ŝe w ramach systemu kaŜda sygnatura przechowywana jest dokładnie jeden raz,
niezaleŜnie od liczby konceptów i osobników, do opisu których moŜe być zastosowana.
Skraca to proces odpowiedzi na wiele zapytań, przede wszystkim pobrania wystąpień konceptu. Zamiast sprawdzać obszary niepewności wszystkich osobników przechowywanych w
bazie pod względem zawierania w zakresie danego konceptu, wystarczy sprawdzić unikatowe sygnatury, których liczba zazwyczaj jest znacznie mniejsza niŜ liczba osobników.
W tym celu kaŜdą sygnaturę wyposaŜono w atrybut identyfikujący id. W celu dalszego
zwiększenia wydajności systemu, sygnaturom dodano jeszcze kilka atrybutów. Kod_hash
przechowuje wartość funkcji mieszającej obliczoną dla sygnatury. Atrybut ten został
wprowadzony przede wszystkim po to, aby ułatwić określanie, czy dana sygnatura jest juŜ
przechowywana w bazie danych, czy nie (wartość tego atrybutu dla identycznych sygnatur
musi być taka sama; choć nie zawsze dla róŜnych sygnatur jego wartość jest róŜna).
Liczniki sekcji, czyli atrybuty sek_i, wprowadzono aby ułatwić odszukiwanie sygnatur
podrzędnych lub nadrzędnych w stosunku do zadanej. Proces ten jest wykonywany w
trakcie odpowiedzi na wiele rodzajów zapytań. Liczniki sekcji przechowują po prostu
informację o liczbie jedynek w ramach wyznaczonych arbitralnie fragmentów sygnatury.
Wykorzystanie liczników bazuje na spostrzeŜeniu, Ŝe sygnatura podrzędna, niezaleŜnie od
sposobu podziału na sekcje, musi mieć nie większą liczbę jedynek w kaŜdym fragmencie
sygnatury. Zasadę korzystania z liczników sekcji ilustruje rysunek 5.
Rys. 4. Diagram E-R obrazujący strukturę bazy danych systemu KASEA.
Tabela 2. Skrócony opis poszczególnych zbiorów encji bazy danych systemu KASEA
Zbiór encji
Sygnatury
Opis
Przechowuje sygnatury wykorzystywane
do opisu zakresu konceptów i obszarów
niepewności osobników.
Koncepty
Przechowuje dane na temat konceptów
zdefiniowanych w terminologii.
Osobniki
Przechowuje dane na temat osobników
zdefiniowanych w opisie świata.
Elementy
Zawiera dane na temat par osobników
Relacji
stanowiących elementy relacji.
Relacje
Przechowuje informacje na temat relacji
zdefiniowanych w terminologii.
Koncepty
Przechowuje informacje na temat
Kwantyfikowane konceptów postaci ∃R.C.
Dodatkowe atrybuty
id – identyfikator,
kod_hash – kod mieszający,
sek_i – liczniki sekcji
id – identyfikator,
nazwa – nazwa konceptu
id – identyfikator,
nazwa – nazwa osobnika
Brak
id – identyfikator,
nazwa – nazwa relacji
Brak
Rys. 5. Zasada korzystania z liczników sekcji.
5.
Testy wydajności
Po zaimplementowaniu pierwszej wersji systemu KASEA przeprowadzono wstępne testy
mające na celu weryfikację załoŜeń dotyczących jego wydajności. Testy dotyczyły dwóch
funkcji systemu o zasadniczym znaczeniu – tworzenia mapy konceptów oraz odpowiedzi na
zapytania skierowane do baz wiedzy zawierających duŜe liczby osobników.
ChociaŜ tworzenie mapy konceptów odbywa się przed okresem aktywności systemu
(off-line), we wstępnej fazie jego rozruchu, długi czas przygotowania mapy konceptów
(rzędu kilku dni) mógłby wykluczyć praktyczne jej wykorzystanie w warunkach toczącego
się i rozwijającego projektu informatycznego. Praktyka wskazuje na szczęście, Ŝe
największe fragmenty istniejących ontologii (takŜe ontologii systemu PIPS) to taksonomie,
czyli rozłączne hierarchie terminów, a dla takich struktur czas przetwarzania rośnie liniowo
wraz ze wzrostem liczby konceptów (patrz tabela 3, wszystkie testy przeprowadzono na
komputerze Pentium IV 2 GHz, 1 GB pamięci RAM). Dzięki wykorzystaniu kilku technik
optymalizacyjnych (m.in. zastosowano uporządkowane binarne drzewa decyzyjne [8] do
reprezentacji terminologii w trakcie przetwarzania) udało się uzyskać stosunkowo krótkie
czasy tworzenia map konceptów, które nawet pozwalają myśleć o wykorzystaniu
działającego systemu w warunkach zmieniającej się terminologii.
Jeśli chodzi o przetwarzanie baz wiedzy zawierających duŜą liczbę osobników, system
KASEA został porównany z dostępnymi narzędziami wnioskującymi z ontologii DL:
RACER [9] oraz Jena 2 Toolkit [10]. Tabela 4 pokazuje wyniki eksperymentów badających
czas wczytywania i przetwarzania informacji o zbiorach osobników (FaCT [11] nie został
tu uwzględniony, gdyŜ obsługuje wyłącznie terminologiczną część ontologii).
Czas wczytywania opisu świata przez system KASEA był wyraźnie najdłuŜszy. Jednak
pozwoliło to na uzyskanie bardzo krótkich czasów odpowiedzi na zapytania. Podczas gdy
RACER nie był w stanie odpowiedzieć na zapytanie po załadowaniu 1000 osobników,
KASEA przetwarzała to samo zapytanie dla 11000 osobników w 1,4 sekundy.
Tabela 3. Czas tworzenia mapy konceptów dla taksonomii o róŜnej liczbie
konceptów w systemie KASEA
Liczba konceptów w
taksonomii
3357
82706
184086
545450
Czas tworzenia mapy
konceptów [s]
72
392
973
3639
Tabela 4. Czas przetwarzania danych dla duŜych liczb osobników. Minusy (-)
oznaczają, Ŝe zadanie nie zostało ukończone w ciągu dwóch godzin
Liczba osobników
Jena
Racer
KASEA
Czas wczytywania [s]
400
1000
3800
1
22
3
4
5
43
122
465
Czas przetwarzania zapytania [s]
400
1000
3800
6
250
58
<1
<1
1
6.
Podsumowanie
NaleŜy podkreślić, Ŝe metoda kartograficzna jest jeszcze we wczesnej fazie rozwoju.
Pierwsze testy prototypów potwierdziły jej przydatność i zachowanie w zgodzie z przyjętymi załoŜeniami. Prowadzonych jest jednak wiele prac, które mają na celu zarówno
usunięcie ograniczeń kartografii wiedzy, jak i poszerzenie moŜliwości jej wykorzystania.
Wnioskowanie o konceptach kwantyfikowanych. Jednym z głównych ograniczeń metody
kartograficznej jest konieczność zdefiniowania z góry konceptów kwantyfikowanych,
których będzie się uŜywać w zapytaniach. W obecnej wersji nie moŜna umieścić na mapie
wszystkich spełnialnych konceptów kwantyfikowanych, gdyŜ ich liczba moŜe być
nieskończona. Rozwiązaniem, nad którym toczą się obecnie prace, moŜe być zastosowanie
sygnatur o zmiennej długości, w których dłuŜsze sygnatury odpowiadałyby obszarom w
praktyce rzadziej występującym w obszarach niepewności i zapytaniach.
Zmniejszenie ilości przechowywanych danych. PoniewaŜ sygnatury mogą osiągać duŜe
rozmiary, rozwaŜane jest wprowadzenie środków mających na celu zmniejszenie ilości
potrzebnej do ich przechowania przestrzeni. Oprócz sygnatur o zmiennej długości, rozwaŜane jest wprowadzenie sygnatur hierarchicznych, o róŜnym poziomie szczegółowości.
Badane są takŜe moŜliwości zastosowania innych metod kompresji ciągów danych.
Zwiększenie ekspresywności obsługiwanego dialektu logiki opisowej. W języku OWL
stosowane są pewne konstrukcje wykraczające poza ten dialekt ALC: moŜna definiować
tam hierarchie relacji, relacje symetryczne, zwrotne i przechodnie oraz definiować
ograniczenia liczebności. W tym celu dostosowania metody kartograficznej do pełnej
obsługi języka OWL, pojęcie sygnatur wykorzystuje się równieŜ do opisu zaleŜności
pomiędzy relacjami (a nie tylko konceptami); tworzone są, obok map konceptów, równieŜ
mapy relacji, a poszczególnym relacjom oraz elementom relacji przypisywane są sygnatury.
Pozwala to na osiągnięcie jeszcze większej zgodności metody kartograficznej z OWA, gdyŜ
moŜemy orzekać o kaŜdej parze osobników jako o będącej na pewno w danej relacji, bądź
będącej w danej relacji tylko być moŜe (ideę tę ilustruje rysunek 6).
Wykorzystanie metody kartograficznej w innych dziedzinach zarządzania wiedzą.
Metoda kartograficzna moŜe być zastosowana w innych dziedzinach zarządzania wiedzą.
Obecnie toczą się prace nad wykorzystaniem reprezentacji kartograficznej w dziedzinie
łączenia ontologii (ang. ontology merging), prace te prowadzone są przez T. Grabowską
(patrz [12]). Sygnatury wykorzystuje teŜ M. Zawadzki (patrz [13]) do oceny poziomu
zaufania do asercji pochodzących z róŜnych źródeł danych.
Rys. 6. Graficzna postać przykładowej mapy relacji (a) oraz wnioskowania na
podstawie sygnatury relacji między parą osobników (b)
LITERATURA
[1] Goczyła K., Grabowska T., Waloszek W., Zawadzki M. The Cartographer Algorithm
for Processing and Querying Description Logics Ontologies. LNAI 3528: Advances in
Web Intelligence, Third International Atlantic Web Intelligence Conference, Springer
2005. s. 163-169.
[2] Goczyła K., Waloszek W. Topologiczna analiza ontologii opartych na logice opisowej.
W: Bazy danych. Modele, technologie narzędzia. Analiza danych i wybrane
zastosowania. WKŁ, Warszawa 2005, s. 191-197.
[3] Baader F. A., McGuiness D. L., Nardi D., Patel-Schneider P. F.: The Description Logic
Handbook: Theory, implementation, and applications, Cambridge University Press,
2003.
[4] Semantic Web Initiatives, http://www.semantic-web.org/
[5] OWL - Web Ontology Language Guide, W3C, http://www.w3.org/2004/OWL
[6] Goczyła K., Grabowska T., Waloszek W., Zawadzki M.: Problematyka zarządzania
wiedzą w systemach typu e-health. W: InŜynieria oprogramowania. Nowe wyzwania.
Red. J. Górski, A. Wardziński, WNT, 2004, s. 357-371.
[7] Staab S., Studer R.: Handbook on Ontologies, Springer-Verlag, 2004.
[8] Bryant, R. E. Graph-based algorithms for boolean function manipulation, IEEE
Transaction on Computers, 1986.
[9] Haarslev V., Möller R.: RACER User's Guide and Reference Manual, September 17,
2003, http://www.cs.concordia.ca/~haarslev/racer/racer-manual-1-7-7.pdf
[10] A Semantic Web Framework for Java, http://jena.sourceforge.net/
[11] Horrocks I.: FaCT Reference Manual v1.6, August 1998, Included in FaCT archive
from http://www.cs.man.ac.uk/~horrocks/FaCT/
[12] Goczyła K., Grabowska T. Przetwarzanie zapytań w rozproszonej bazie wiedzy opartej
na logice opisowej. W: Bazy danych. Modele, technologie narzędzia. Analiza danych i
wybrane zastosowania. WKŁ, Warszawa 2005, s. 199-206.
[13] Goczyła K., Zawadzki M. Przetwarzanie i wnioskowanie z wiedzy o róŜnym poziomie
zaufania. W: Bazy danych. Modele, technologie narzędzia. Analiza danych i wybrane
zastosowania. WKŁ, Warszawa 2005, s. 207-212.
CARTOGRAPHIC METHOD OF KNOWLEDGE
REPRESENTATION IN KASEA
The chapter presents a novel method of knowledge representation. The method, called
knowledge cartography, allows for performing reasoning in the process of merging and
augmenting data acquired from Internet sources. The method also enables efficient access to
gathered data. The chapter present implementation details and performance tests results of
KASEA system, which exploits cartographic method for internal knowledge representation.