Widok/Otwórz

Transkrypt

Widok/Otwórz
Rozdział
Sieci semantyczne – dotychczasowe doświadczenia i
perspektywy rozwoju w ocenie Instytutu EMAG
WOJCIECH GÓRKA
Instytut Technik Innowacyjnych EMAG
[email protected]
MICHAŁ SOCHA
Instytut Technik Innowacyjnych EMAG
[email protected]
ADAM PIASECKI
Instytut Technik Innowacyjnych EMAG
[email protected]
Streszczenie
Artykuł przedstawia doświadczenia Instytutu Technik Informatycznych
EMAG związane z wykorzystaniem sieci semantycznych i technologii
informatycznych związanych z semantyką w perspektywie ostatnich 8 lat.
Artykuł prezentuje krótko projekty informatyczne realizowane w
Instytucie EMAG dotyczące lub wykorzystujące semantykę.
Przedstawiony jest zakres użycia technologii semantycznej. Autorzy
przeprowadzają również krytyczną analizę efektów jakie przyniosło
zastosowanie podejścia semantycznego. Dokonane jest również
porównanie osiągnięć Instytutu EMAG w odniesieniu do światowych
trendów i powszechnie dostępnych wdrożonych rozwiązań. W
podsumowaniu analizowane są możliwości i perspektywy jakie niesie
stosowanie technologii semantycznych przez twórców oprogramowania
małej skali. Autorzy przedstawiają również możliwości wykorzystania
globalnej infrastruktury semantycznej w drobnych aplikacjach.
Wskazane są również obszary w których wykorzystanie technologii
semantycznych jest szczególnie korzystne i wpływa znacząco na jakość i
atrakcyjność produktów informatycznych. Treść artykułu jest próbą
subiektywnego opisania relacji w jakiej pozostaje Instytut EMAG jako
twórca rozwiązań informatycznych dla dobrze zdefiniowanego odbiorcy
z trendami światowymi wymuszanymi przez globalne koncerny
informatyczne.
2
W. Górka M. Socha A. Piasecki
1. Wstęp
Inspiracją do napisania artykułu były podobne publikacje traktujące o sieciach
semantycznych, podsumowujące rozwój technologii w tej dziedzinie informatyki z
różnych punktów widzenia. Śledzenie tego fragmentu współczesnej inżynierii
oprogramowania oraz prowadzone w Instytucie EMAG projekty związane z
semantyką skłoniły autorów do przyjrzenia się sieciom semantycznym z własnej
perspektywy i podsumowania użyteczności tego rodzaju technik. Przeprowadzenie
analizy zysków i strat wynikających z zastosowania danej technologii, czy też analiza
użyteczności i skuteczności wybranych bibliotek programowych pozwala na bardziej
świadome i skuteczne prowadzenie kolejnych projektów informatycznych. Analiza
zakończonych projektów jest szczególnie przydatna w projektowaniu architektury
nowych rozwiązań. Krytyczne spojrzenie na własne dokonania pozwala uniknąć
błędów, zwiększyć wydajność czy poprawić jakość prowadzenia kolejnych projektów.
Dokonanie zestawienia porównawczego koncepcji sieci semantycznych z
konkretnymi wdrożeniami pozwala na rzetelną ocenę użyteczności tej technologii.
Dodatkowo jeśli dodane do tego będą koszty dodatkowe jakie należało ponieść
związane z adaptacją nowej technologii do warunków produkcyjnych oraz
przełamywanie zwykłego w takich przypadkach strachu przed nowym, dokonane
podsumowanie będzie pełne.
Autorzy już na wstępie pragną podkreślić, że artykuł, mimo włożonego wysiłku i
staranności, przedstawia ocenę subiektywną, ukształtowaną przez otoczenie naukowoprzemysłowe w jakim funkcjonują autorzy w ramach swojego życia zawodowego.
Ponadto należy podkreślić, że autorzy patrzyli na technologie semantyczne jako,
ogólnie rzecz ujmując, programiści.
2. Idea sieci semantycznych
Przed sieciami semantycznymi w ujęciu informatycznym stawiano jako główny cel
rewolucję lub co najmniej zmianę sposobu korzystania i wykorzystania sieci Internet.
W domyśle zmiana miała prowadzić do pełniejszego, wszechstronnego i
interdyscyplinarnego wykorzystania zgromadzonych i istniejących w Internecie
danych. Motywacją, która prowadziła do wyznaczenia takiego celu była obserwacja,
że współczesny Internet przeznaczony jest przede wszystkim „dla ludzi”. Fakt ten
przejawia się dwojako. Po pierwsze z medium naukowego Internet stał się medium
powszechnym i popularnym, a po drugie treści i dane w przepływające przez sieć
Internet zorganizowane są w formy umożliwiające ich prezentację. Kluczowy jest
wygląd i forma prezentacji, a nie same dane. Takie podejście do danych, powoduje
brak formalnej struktury opisującej dane. Strukturalizacja danych dokonana w oparciu
o jakiś standard, pozwala przetwarzać dane maszynowo i automatycznie. W szerszej
perspektywie pozwala to myśleć o szerokiej integracji dostępnych danych i o rozwoju
przetwarzających je aplikacji. W takiej sytuacji, przy braku struktur danych,
komputery i autonomiczne programy komputerowe służyły do przeglądania,
gromadzenia i wykorzystania danych, ale samo wnioskowanie i wytwarzanie nowych
Sieci semantyczne – dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu
EMAG
3
danych na podstawie danych istniejących było po stronie użytkowników.
Automatyczne wnioskowanie nie bez istnienia jakiś formalnych struktur nie mogło się
rozwinąć. Sieci semantyczne miały więc na celu wprowadzenie swego rodzaju
kompromisu pozwalającego prezentować dane w akceptowalnej przez człowieka
formie graficznej uzupełnionej o dane w formie strukturalnej zrozumiałe dla maszyn i
nie wpływające na formę graficzną. Organizacja opisująca standardy opisu i przesyłu
stron WWW W3C opublikowała szereg standardów pozwalających strukturalizować
prezentowane na stronach WWW dane. Powstała więc infrastruktura do opisywania
danych – wiedzy, faktów, informacji. Składały się na nią kolejne standardy opisu
wiedzy m.in: RDF1, RDF-S2, OWL3. Równolegle, stymulowane przez pojawianie się
semantycznych standardów rozwijało się również oprogramowanie do przeszukiwania
tego rodzaju danych. Powstawały silniki do interpretacji tego rodzaju zapisu (Jena,
Sesame), maszyny wnioskujące w oparciu o zapisane fakty (Pellet, Racer), maszyny
opierające się o reguły itp. Zdefiniowano i zaimplementowano również języki oraz
silniki przeszukiwania danych i zapytań analogiczne do języka SQL dla relacyjnych
baz danych: SPARQL4, SeRQL5. Powstawały również narzędzia pozwalające na
prowadzenie prac deweloperskich związanych z technologiami i opartymi o standardy
semantyczne (Protege, Altova Semantic Works). Wszystkim tym działaniom
infrastrukturalnym towarzyszyły pracy naukowe i popularno-naukowe, w których
wyznaczane były kierunki rozwoju oraz pola zastosowań technologii semantycznych.
Wszystkie te fakty razem tworzą rzeczywistą infrastrukturę sieci semantycznych
pozwalającą na jej szerokie i powszechne wykorzystanie.
Zastosowanie sieci semantycznych okazało się bardzo szerokie. Praktycznie w każdej
dziedzinie informatyki można zdefiniować jakieś zastosowanie sieci semantycznych.
Szczególnym obszarem zastosowań okazała się genetyka[1], która zaadoptowała
formalny język opisu zależności pomiędzy bytami – OWL jak również mechanizmy
związane z regułami do opisu zależności między genami i wyszukiwania nowych
faktów na bazie już zgromadzonych danych. Wizje dotyczące sieci semantycznych
zawierały koncepcje zarządzania usługami sieciowymi przy wykorzystaniu semantyki.
W związku z tym zostały stworzone standardy, których umożliwiały na stworzenie
infrastruktury uzupełniającej pozwalające na semantycznie opisywanie i zarządzanie
usług sieciowych. Zestaw standardów OWL-S6, WSMO7 pozwala na automatyczne
dobieranie udostępnionych usług i ich kolejne wywoływanie. Mechanizm miał
zapewnić automatyczną kompozycję, konwersję różnych formatów danych i
dostosowywanie ich do potrzeb wykonania złożonych zadań z wykorzystaniem
prostych podstawowych usług.
1
RDF: Resource Description Framework: http://www.w3.org/RDF/
RDF-S: RDF Schema: http://www.w3.org/TR/rdf-schema/
3
OWL: Web Ontology Language: http://www.w3.org/2001/sw/wiki/OWL
4
SPARQL Query Language for RDF: http://www.w3.org/TR/rdf-sparql-query/
5
Sesame Query Language:
http://openrdf.callimachus.net/sesame/2.7/docs/users.docbook?view#chapter-serql
6
OWL-S: Semantic Markup for Web Services: http://www.w3.org/Submission/OWL-S
7
WSMO: Web Service Modeling Ontology: http://www.w3.org/Submission/WSMO
2
W. Górka M. Socha A. Piasecki
4
Wspomniana wcześniej możliwość klasyfikacji przy wykorzystaniu standardów
semantycznych jest jedna z cech szeroko pojmowanych technologii sieci
semantycznych, które są najłatwiejsze do zrozumienia i tym samym do wykorzystania
w zastosowaniach aplikacyjnych. Semantyczna klasyfikacja znalazła szerokie
zastosowanie w systemach informatycznych. Główne zastosowania dotyczyły
wykorzystania możliwości klasyfikacji, kategoryzacji różnego rodzaju danych oraz
wnioskowania na podstawie tak zdefiniowanych struktur. Powstały również systemy
udostępniające pewne usługi w sieci. Szczególnym przykładem mogą być biblioteki
semantyczne udostępniające dane o zasobach – zarówno o księgozbiorze jak i o
materiałach w formie cyfrowej. Semantyka odegrała tu główną rolę w odpowiedniej
kategoryzacji i przypisywaniu znaczników do treści tj. tagowaniu jak i w
ustandaryzowaniu formatu opisu bibliograficznego (ontologie Dublin Core1).
Przez pewien czas aktywne były również pomysły i idee związane z publikowaniem
informacji personalnych w ustandaryzowanej formie – ontologia FOAF2 do opisu
osób, ontologia SIOC3 do opisu grup projektowych itp. Idea opierała się na
ustandaryzowanym formacie danych publikowanym w sieci możliwym do pobrania.
Publikacja danych osobowych zakładała rozproszenie tych danych, tak by nie było
konieczności utrzymywania jednego punktu centralnego zbierającego dane o
wszystkich ale wiele punktów informacyjnych. Każdy punkt publikowałby swoje dane
na własnej witrynie internetowej wraz z odnośnikami do tego samego typu danych u
swoich znajomych w ten sposób budując semantyczną sieć informacji o osobach.
Wraz ze wzrostem ilości danych semantycznie opisanych w sieci Internet powstały
również wyszukiwarki semantyczne (np. Hakia) Jak podają twórcy tego serwisu,
różnice w stosunku do innych wyszukiwarek „nie semantycznych” to przede
wszystkim: możliwość uzyskiwania odpowiedzi wprost na zadane pytanie, a nie tylko
całego dokumentu zawierającego potencjalnie taką odpowiedź, możliwość zadawania
pytań w języku naturalnym. Wyszukiwarka stara się więc w jakimś stopniu zrozumieć
treść, którą indeksuje i odpowiednio zakwalifikować wiedzę jaką dany dokument
niesie ze sobą. Innym typem wyszukiwarki jest Swoogle. Jest to wyszukiwarka, której
celem jest gromadzenie informacji na temat źródeł RDF – publikowanych w
Internecie zasobów w postaci plików RDF lub definicji ontologii. Wyszukiwarka
indeksuje klasy, właściwości, instancje, metadane o ontologiach.
Stosunkowo nowym trendem jest publikowanie danych w formacie RDF bezpośrednio
z baz danych. Tego typu źródła danych maja tworzyć sieć (tzw. Linked Data [2])
wzajemnie powiązanych danych istniejących na różnych serwerach – wiedza
rozproszona pomiędzy wieloma serwerami. W ramach tej inicjatywy powstały
narzędzia na przykład D2RQ czy Virtuoso – wspomagające udostępnianie takich
danych, ich przeglądanie i przeszukiwanie.
1
Dublin Core: http://dublincore.org/
Friend of a Friend: http://www.foaf-project.org/
3
Semantically-Interlinked Online Communities: http://www.sioc-project.org/
2
Sieci semantyczne – dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu
EMAG
5
3. Doświadczenia Instytutu EMAG
Zainteresowanie technologiami semantycznymi w Instytucie Systemów Sterowania
(który w kolejnych latach został skonsolidowany z Centrum EMAG, a później
Instytutem Technik Innowacyjnych EMAG) pojawiło się mniej więcej w roku 2005.
Miało to związek z poszukiwaniem rozwiązań technologicznych jakie można
wykorzystać w realizacji systemu informatycznego, którego celem była integracja
wielu różnych źródeł danych. Prowadzony w tym czasie projekt miał na celu rozwój
zakończonego projektu związanego z brokerem usług sieciowych. Kontynuacją tego
projektu (oraz znacznym rozszerzeniem na szerszą skalę) był projektu WKUP.
Jednym z zagadnień do rozwiązania była integracja danych. Przyczyniła się ona do
poszukiwań takich rozwiązań, które pozwoliłyby na zapewnienie dużej elastyczności
rozwiązania jednoczesnym nadaniem znaczenia przepływającym przez system danym.
Pierwsze doświadczenia wypadły bardzo pozytywnie i na ich podstawie powzięto
decyzję wykorzystania technologii związanych z sieciami semantycznymi w projekcie
WKUP – Wirtualny Konsultant Usług Publicznych.
Projekt WKUP w swojej pełnej nazwie wymuszał zastosowanie technik
semantycznych w docelowym rozwiązaniu. Instytut EMAG był realizatorem części
badawczej w projekcie WKUP. Część ta obejmowała wybór tych technologii
semantycznych, które byłyby odpowiednie, a ich zastosowanie uzasadnione w
realizacji celu projektu. Prace analityczne i projektorowe, analiza oczekiwanej od
systemu funkcjonalności wyznaczyły zakres zastosowania sieci semantycznych. W
finalnej, zrealizowanej architekturze systemu było kilka miejsc w których zostały
użyte technologie semantyczne na różne sposoby. System pozwalał na wprowadzanie
przez użytkownika opisu własnej sytuacji w języku naturalnym. Dostarczany opis
mógł być stosunkowo swobodny i krótki, co implikowało jego niejednoznaczność.
Zastosowane rozwiązania informatyczne umożliwiały analizować tego rodzaju
wypowiedzi, określać sens wypowiedzi w kontekście usług publicznych jakie są
właściwe (potrzebne, czy też niezbędne) w sytuacji w jakiej znalazł się użytkownik
systemu WKUP. Analiza wypowiedzi była realizowana w oparciu ontologię SKOS
opracowaną dla słownictwa związanego ze dziedziną administracji publicznej [3]. W
dalszej części po przeanalizowaniu tekstu wypowiedzi w języku naturalnym w
poszukiwaniu odpowiedzi były wykorzystane dwie warstwy ontologii dziedzinowa i
szczegółowa. Przeszukiwanie danych semantyczny odbywało się przez interfejs
SPARQL. Następnie uzyskane odpowiedzi ponownie były przearanżowane w graf
reprezentujący wszystkie odpowiedzi związane w jakikolwiek sposób z zadanym
przez użytkownika pytaniem. Ten kontekstowy graf był analizowany pod kątem
kształtu tj. wzajemnych odległości węzłów i na tej podstawie odpowiedzi były
hierarchizowane. Uszeregowane odpowiedzi były przedstawiane użytkownikowi.
Podobną ścieżkę analizy pytań w języku naturalnym przeprowadzono z
wykorzystaniem sieci neuronowych. W tym przypadku wyniki nie były zadowalające
i ścieżkę tę zarzucono, dając pierwszeństwo rozwiązaniu opartemu o sieci
semantyczne jako bardziej obiecującemu.
Drugim miejscem gdzie wykorzystano technologie semantyczne był broker
integrujący, moduł odpowiedzialny za odpowiednie skomponowanie usługi zbiorczej
6
W. Górka M. Socha A. Piasecki
(z usług podstawowych) i nadzorowanie jej wykonania w celu zaspokojenia potrzeb
użytkownika systemu. Moduł realizujący te funkcje wykorzystywał jako silnik
implementację referencyjną WSMO czyli WSMX. Architektura systemu WKUP
zakładała ze ciężar integracji źródeł danych zostanie rozproszony na szereg Web
Serwisów, które semantycznie opisane mogły być zarządzane przez silnik WSMX.
Silnik w oparciu o dane o użytkowniku i zidentyfikowane potrzeby wyszukiwał wśród
dostępnych usług te, które są właściwe dla użytkownika, a następnie komponował
proces, który miał doprowadzić do zaspokojenie wymagań użytkownika. W ramach
procesu nie tylko były uruchamiane kolejne Web Serwisy ale również była
przeprowadzana interakcja z użytkownikiem w celu zebrania dodatkowych danych
niezbędnych do zakończenia procesu.
Kolejnym miejscem zastosowania semantyki były tzw. ontoformularze[4]. Miały one
na celu wspomóc użytkownika w wypełnianiu formularzy wymaganych przez różnego
rodzaju procedury urzędowe. Ontoformularze bazowały na profilu użytkownika w
ramach którego zapisywane były dane podane przez użytkownika w wypełnianych
formularzach. Następnie dane te mogły być wykorzystywane w kolejnych
formularzach. Mechanizm działał podobnie jak podpowiedzi oferowane przez
przeglądarkę w różnych polach edycyjnych prezentowanych w serwisach
Internetowych. W tym przypadku jednak dane gromadzone były w oparciu o
ontologię. Przykładowo podanie nazwiska było odpowiednio klasyfikowane – czy
było to nazwisko, czy nazwisko rodowe, czy nazwisko któregoś z krewnych. Tak
zgromadzone „inteligentne” dane mogły być równie inteligentnie podpowiadane w
formularzach – czyli w miejscu nazwiska rodowego podpowiadało się tylko wcześniej
podane nazwisko rodowe.
Problem zrozumienia wypowiedzi wprowadzanej w języku naturalnym został
wykorzystany w projekcie realizowanym w Instytucie EMAG, dotyczącym
udostępniania informacji o charakterze publicznym, osobom z dysfunkcjami wzroku i
słuchu. Projekt infomat-e, po pozytywnych doświadczeniach w analizowaniu
wypowiedzi w języku naturalnym w projekcie WKUP był drugim, w którym została
wykorzystana ontologia SKOS [5]. W stosunku do pierwszego użycia zostało
zmodyfikowane użycie ontologii. Na podstawie poprzednich doświadczeń prace nad
budowaniem ontologii usystematyzowano, zostały również zmodyfikowane algorytmy
obliczeniowe pozwalające określić grafa zawierający odpowiedzi systemu na zadane
przez użytkownika pytanie. W trakcie prac nad udoskonaleniem modułu analizy
wypowiedzi w języku naturalnym powstał edytor wspomagający budowanie ontologii.
Wprowadzone zostały mechanizmy pozwalające na badanie stabilności udzielanych
na podstawie sieci semantycznej odpowiedzi. Częścią systemu stały się pytania
kompetencyjne, które pełniły dwie role. Po pierwsze stanowiły dokumentację,
uszczegółowienie tej części ontologii, która zawierała odpowiedzi systemu, a po
drugie były wykorzystywane w automatycznej ocenie całej ontologii. W ramach
edytora powstałe moduł, który wykorzystując pytania kompetencyjne badał działanie
systemu i dostarczał osobie budującej raporty z wykonanych testów.
Inny aspekt technologii semantycznych został eksplorowany w projekcie CCMODE
[6]. Jednym z celów projektu było dokonanie integracji danych w wielu źródeł.
System realizowany w ramach projektu miał pełnić rolę integratora istniejących
Sieci semantyczne – dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu
EMAG
7
systemów tworzących środowisko rozwojowe produktów informatycznych[7]. Jednak
nie chodziło tylko o samą integrację danych, ale o możliwość redystrybucji danych do
podsystemów CCMODE w taki sposób by dane były aktualne, a fakt rozproszenia
danych między różne źródłowe bazy danych nie ograniczał w żaden sposób
przeszukiwania. Wymagania wynikające z architektury systemu zostały zaspokojone
przez stworzenie wirtualnej przestrzeni danych przy wykorzystaniu silnika
realizującego ideę semantycznej integracji danych. Użycie semantycznego silnika
integrującego wymagało by została stworzona ontologia opisująca wszystkie dane
jakie miały być umieszczone w wirtualne wspólnej przestrzeni. Razem z ontologią
opisującą dane istotne dla systemu została stworzona ontologia mapująca pozwalająca
na włączenie relacyjnych baz danych i nadanie znaczenia. Zaletą zastosowania silnika
semantycznego było zapewnienie interfejsu SPARQL dzięki, któremu było możliwe
budowanie skomplikowanych zapytań do wirtualnej bazy.
Analiza użyteczności integracji semantycznej, i sposobów realizacji tej idei była
przeprowadzona w ramach pracy statutowej Instytutu EMAG. Prócz analizy
użyteczności został dokonany przegląd możliwych rozwiązań. Przeprowadzone
zostały podstawowe testy oprogramowań dostarczających możliwości integracji. W
ramach pracy zostały również różne sposoby realizacji integracji i tworzenia
wspólnych przestrzeni danych. Również takich gdzie w wyniku integracji powstawała
wirtualna relacyjna baza danych. Efektem pracy statutowej było wypracowanie
metodyki ATOM [8], która wskazuje kolejne kroki jakie należy podejmować w
przypadku stosowania integracji semantycznej.
Osoby zajmujące się w Instytucie EMAG brały udział w konferencjach naukowych
gdzie były przedstawiane osiągnięcia w dziedzinie semantyki oraz poszukiwano
inspiracji i pomysłów gdzie i w jaki sposób wykorzystać potencjału jaki niesie za sobą
sieć semantyczna.
Udział w konferencjach oraz doświadczenia zdobyte w trakcie realizacji projektów, w
których pojawiała się semantyka zaowocowały pomysłem na stworzenie wirtualnego
laboratorium,
które
umożliwiłoby
dogłębne
eksplorowanie
technologii
semantycznych. Pomysł ten został zrealizowany w projekcie dofinansowany ze
środków publicznych na inwestycje związane z rozwojem infrastruktury
informatycznej nauki w ramach działania 2.3 Programu Operacyjnego Innowacyjna
Gospodarka. Projekt o nazwie Wirtualna platforma Laboratorium Technik
Semantycznych [9] był realizowany w latach 2010 – 2012. Projekt „Wirtualna
platforma Laboratorium Technik Semantycznych” został zrealizowany z myślą o
zwiększeniu innowacyjności polskiej nauki poprzez udostępnienie nowoczesnej
infrastruktury teleinformatycznej umożliwiającej prowadzenie wspólnych badań w
zakresie technik semantycznych. Celem działalności Laboratorium jest dostarczenie
polskiej społeczności naukowej środowiska umożliwiającego realizację prac
badawczych i projektów rozwojowych. Laboratorium LTS ma postać zbioru
połączonych, z wykorzystaniem sieci komunikacyjnych, węzłów obliczeniowych.
Wirtualne laboratorium powstało w oparciu o istniejącą i funkcjonującą infrastrukturę
sieci Internet. Laboratorium LTS dostarcza zasoby informatyczne, zarówno software i
hardware, które mogą być użyte w realizacji projektów oraz w trakcie prowadzenia
badań, szczególnie takich związanych z technologiami semantycznymi. Zasoby
8
W. Górka M. Socha A. Piasecki
Laboratorium zostały tak skomponowane by projekty dotyczące technik
semantycznych nie były obciążone poszukiwaniem i uruchamianiem niezbędnego
oprogramowania narzędziowego.
4. Sieci semantyczne po latach
Podane przykłady zastosowania pokazują, że sieci semantyczne znalazły szerokie pole
zastosowań. Jest to jednak zastosowanie w dużej mierze odbiegające od pierwotnej
idei, jaką było udoskonalenie Internetu i zautomatyzowanie akwizycji danych i
uruchamianie różnego rodzaju usług – transakcji. Należy zauważyć również, że sieci
semantyczne są nadal zagadnieniem niszowym. Wskazuje na to przede wszystkim
mała ilość narzędzi i oprogramowania komercyjnego. Innym ciekawym parametrem
wskazującym na dojrzałość i zainteresowanie dana technologią może być liczba ofert
pracy na stanowiska wymagające znajomości sieci semantycznych, formatu RDF,
języka SPARQL itp. W porównaniu z takimi technologiami jak XML, SQL, HTML są
to śladowe ilości zainteresowania, w większości wymieniane przez ośrodki badawcze
i akademickie.
Sieci semantyczne miały zrewolucjonizować Internet by uczynić z niego bardziej
wydajne narzędzie. Można zadać pytanie czy po kilku latach sieci semantyczne
pozostawiły jakiś wkład lub czy wpłynęły jakoś na usługi oferowane w Internecie.
Sieci semantyczne zakładały duże rozproszenie danych i usług i miały za zadanie
wspomagać poruszanie się wśród tych rozproszonych danych. Po latach okazało się
jednak, że „duzi gracze” zdominowali Internet w wielu dziedzinach. Przykładem może
być idea publikowania informacji personalnych w formacie FOAF i budowanie
powiązań pomiędzy użytkownikami. Idea ta została praktycznie w całości wyparta
przez Facebook i inne portale społecznościowe, w których dane osobowe, powiązania,
relacje między użytkownikami gromadzone są centralnie w jednej usłudze.
Jednak i tutaj pomysły z Semantic Web znalazły swoje zastosowanie. W Facebook
możliwe jest definiowanie własnych relacji i sieci opisujących różne dane o
użytkowniku [10]. W ten sposób rozszerzono standardową właściwość „Like it” o
dowolne możliwe do zdefiniowania przez twórców aplikacji działających na
platformie Facebook. Taki sposób strukturalnego gromadzenia danych o
użytkownikach jest ideą zaczerpniętą z sieci semantycznych – definiowania grafów
opisujących dane na zasadzie „subject – predicate – object”.
Na przykładzie Facebook’a można zauważyć, że idea Semantic Web promująca
rozproszone dane nie sprawdziła się w praktyce. Po części wynikało to z mało
praktycznego podejścia z punktu widzenia użytkownika, a po części ze względu na
brak poparcia biznesowego dla tego typu rozwiązania.
W dziedzinie wyszukiwarek nadal prym wiedzie wyszukiwarka Google. Wprowadza
ona stopniowo udoskonalenia tak by poza zwykłym indeksowaniem treści stron
internetowych wprowadzać możliwość zrozumienia niektórych elementów strony
WWW. Google jako duży „gracz” na rynku ma możliwość promowania pewnych
rozwiązań w zakresie oznaczania znaczenia treści na indeksowanych stronach.
Publikując pewne zalecenia dla twórców stron promuje różnego rodzaju rozwiązania
Sieci semantyczne – dotychczasowe doświadczenia i perspektywy rozwoju w ocenie Instytutu
EMAG
9
w tym zakresie. Google nie zdecydował się jednak promować standardów typu RDF,
RDF-S, OWL itp. czyli osobne pliki reprezentujące treść w ustrukturyzowanej formie.
Promowane są natomiast standardy takie jak Microformats, RDFa, które osadzane są
bezpośrednio w kodzie strony internetowej. Nową inicjatywą różnych wyszukiwarek
(m.in. Google, Bing, Yahoo!) jest inicjatywa schema.org1 wskazująca jak oznaczać na
stronach internetowych w kodzie HTML różnego rodzaju dane. W inicjatywie widać
pewne nawiązania do Semantic Web ale nie zdecydowano się promować takich
standardów jak RDF lub OWL.
Jak widać standardy RDF, RDF-S, OWL nie przyjęły się powszechnie. Są wprawdzie
wykorzystywane w różnych zastosowaniach gdyż stanowią dość elastyczną i wygodną
formę przechowywania danych – wiedzy. Są jednak zbyt skomplikowane i
wymagające specjalistycznej wiedzy, co jest barierą do ich upowszechnienia.
Również infrastruktura i narzędzia do wyszukiwania i komponowania procesów nie
przyjęły się w zastosowaniach komercyjnych. Projekt WSMO przestał być rozwijany.
Wykorzystanie go wymagało olbrzymiej wiedzy, było również bardzo złożone i
skomplikowane. Architektura rozwiązania była również dość skomplikowana.
Słabością zarówno WSMO jak i innych rozwiązań np. OWL-S było również skupienie
się na kompozycji i wyszukiwaniu usług sieciowych ściśle związanych z technologią
Web Services. Niestety wydaje się, że usługi sieciowe wyewoluowały w kierunku
usług sieciowych reprezentowanych przez serwisy REST – znacznie bardziej
elastycznymi i prostszymi do wykorzystania (chociaż znacznie mniej obudowany
definicjami i standardami).
5. Podsumowanie
Rozwój technologii semantycznych przebiega nieco inaczej niż było to oczekiwane.
Włożono wiele pracy w różne narzędzia, specyfikacje, infrastrukturę związaną z
semantyką. Przeprowadzonych zostało wiele projektów naukowych i wdrożeniowych
opierających się lub wspierających rozwój sieci semantycznych.
Pomysł jednak nie przyjął się w globalnej sieci Internet w takim stopniu jak było to
oczekiwane. Wciąż poszukane są nowe sposoby zagospodarowania dotychczasowych
wyników prac i pomysłów. Często są one adoptowane do istniejących już rozwiązań,
ale w nieco innym ujęciu niż początkowo było to planowane.
W przypadku działalności Instytutu EMAG w dziedzinie sieci semantycznych,
zdajemy sobie sprawę, że nie jesteśmy „globalnym graczem”. Jesteśmy przez to
„skazani” na ruchy „większych” graczy w zakresie, jaki wytyczą dla standardów w
globalnej sieci Internet. Jednak wykorzystanie sieci semantycznych (lub częściej
infrastruktury, który ta idea wytworzyła) jest możliwe i przydatne w różnych
aplikacjach i systemach wewnętrznych. Dodanie różnego typu rozwiązań związanych
z sieciami semantycznymi wnosi dużą wartość dodaną dla tworzonej aplikacji lub
systemu. Efekt ten można zauważyć w następujących dziedzinach: organizacja danych
1
https://schema.org
10
W. Górka M. Socha A. Piasecki
o skomplikowanej i niejednorodnej strukturze, ujednolicenie różnych struktur danych,
potrzeba ułatwienia dostępu do danych dla zwykłych użytkowników, wprowadzenie
do systemu lub aplikacji komponentów związanych z przetwarzaniem języka
naturalnego.
Z dotychczasowych doświadczeń wynika również to by działania związane z sieciami
semantycznymi nie klasyfikować wąsko – zamykając się jedynie w tej dziedzinie.
Same sieci semantyczne są dość wąską dziedziną, która tak naprawdę ma sens w
powiązaniu z większą całością i w takiej perspektywie trzeba ją stosować.
LITERATURA
1.
Liviu Badea: Semantic Web Reasoning for Analyzing Gene Expression Profiles, Principles
and Practice of Semantic Web Reasoning Lecture Notes in Computer Science 2006, Volume
4187, pp 78-89.
2. Bizer, Christian, Heath, Tom and Berners-Lee, Tim: Linked Data - the story so far.
International Journal on Semantic Web and Information Systems, 2009 5, (3), 1-22.
3. Górka W., Socha M., Piasecki A., Gańko J.: Intermediate information layer. The use of the
SKOS ontology to create information about e-resources provided by the public administration.
2008, AAIA Wisła.
4. Bownik Ł., Górka W., Piasecki A.: Automatic Form Filling, In: Engineering the Computer
Science and IT, 2009, IN-Tech Vienna.
5. Górka W., Socha M., Piasecki A., Sitek B.: System informacji publicznej dla osób z
dysfunkcjami narządów wzroku i słuchu INFOMAT-E 2010, AAIA Wisła.
6. Białas A.: Projekt budowy środowiska do rozwoju, wytwarzania i utrzymywania produktów
informatycznych o podwyższonych wymaganiach bezpieczeństwa: Zastosowanie wzorców
projektowych w konstruowaniu zabezpieczeń informatycznych zgodnych ze standardem
Common Criteria. Instytut Technik Innowacyjnych EMAG, Katowice 2011, s 29÷46.
7. Socha M., Górka W.: Building an integrated development environment using open source
freeware tools, based on CCMODE project experience: Internet in the Information Society.
Computer systems architecture and security. Wyższa Szkoła Biznesu w Dąbrowie Górniczej,
Dąbrowa Górnicza 2013.
8. Piasecki A., Górka W., Szymocha A.: Semantyczna integracja systemów informatycznych
oraz zarządzanie wiedza w organizacjach: Technologie wiedzy w zarządzaniu publicznym
’09, s. 305, Akademia Ekonomiczna, Katowice 2009.
9. Piasecki A., Pałka A.: Wykorzystanie wirtualnej platformy Laboratorium Technik
Semantycznych LTS w nauce i dydaktyce: Internet w Społeczeństwie Informacyjnym –
zastosowania Internetu i systemów komputerowych, Wyższa Szkoła Biznesu w Dąbrowie
Górniczej, Dąbrowa Górnicza 2013.
10. Weaver J., Tarjan P.: Facebook Linked Data via the Graph API. Semantic Web. IOS Press,
Volume 4, Number 3 / 2013