BKonopka_Ontologies_..
Transkrypt
BKonopka_Ontologies_..
Ontologie i podobieństwo
semantyczne
Bogumił Konopka
Grupa Biofizyki i Bioinformatyki
Nanoporów
(dr hab. inż. M. Kotulska, prof. PWr)
Instytut Inżynierii Biomedycznej i Pomiarowej
WPPT PWr
O czym będzie wykład?
●
Ontologia – co to jest?
●
Czym są ontologie?
●
Jakie są ich główne zadania?
●
Jakie są typy ontologii?
●
Jakie są zasady ich projektowania?
●
Przykłady ontologii (SNOMED-CT, GO)
●
Co to jest podobieństwo semantyczne
●
●
Algorytmy obliczania podobieństwa semantycznego
Internet drugiej generacji – semantic web
2
Ontologia jako nauka
Ontologia [gr. on óntos ‘będący’, ‘byt’, óntos on ‘rzeczywiście będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’], filozficzna nauka o bycie; w sensie pierwotnym — termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym;
Encyklopedia PWN ●
Ontologia odpowiada na pytania dotyczące otaczającej
nas rzeczywistości.
●
Czym są rzeczy?
●
Co jest ich esencją?
●
●
Co w nich pozostaje nawet gdy
ulegają zmianom
(np. zmienią kolor lub kształt).
Co sprawia, że są tym czym są?
3
●
Ontologia starożytna rozróżniała dwa pojęcia
●
●
●
Esencja – czyli coś co nadaje rzeczy
sens/znaczenie; jest to pewna idea lub koncepcja –
nie musi istnieć
Egzystencja – oznacza coś co jest obecne w
świecie, namacalne
Przykład:
Centaur to pół człowiek,
pół koń.
Ma esencję,
pomimo tego że nie istnieje
4
http://farm7.static.flickr.com/6065/6064594985_0a1d61209a.jpg
Ontologia jako nauka
Ontologie przez małe „o”
●
●
●
„Ontologia to jednoznaczne, formalne określenie
konceptualizacji” (T. Gruber 1993)(google
„konceptualizacja”: ujmowanie w pojęcia)
Konceptualizacja to inaczej abstrakcyjne,
uproszczone przedstawienie fragmentu otaczającego
świata - model
Każda ontologia składa się ze:
●
słownika terminów określających pewną dziedzinę
●
związków pomiędzy terminami
●
zbioru reguł ograniczających ontologię
5
Do czego służą ontologie?
●
Najważniejszym zadaniem ontologii jest
precyzyjne identyfikowanie klas obiektów oraz
relacji między nimi w zadanej dziedzinie
wiedzy.
6
Ontologie przez małe „o” - przykłady
●
Prosty przykład z
dziedziny elektroniki:
●
„Wzmacniacz
operacyjny to typ
urządzenia
elektronicznego, a
tranzystory to elementy
składowe wzmacniacza
operacyjnego”.
Urządzenie
elektroniczne
TYP
Wzmacniacz
operacyjny
EL.
Składowy
Tranzystor
7
Ontologie przez małe „o”
●
Enzym
Białko A + CH3 X
Uczestniczy
Modyfikacja
potranslacyjna
Cel: <białko>
Enzym: <białko>
JEST
Fosforylacja
Substrat:: PO4 3-
Białko A-CH3
Substrat
Nazwa: <cząsteczka>
Przeprowadza
JEST
Enzym
PH: <wart. PH>
Ki: <wart. Ki>
Metylacja
Substrat : CH3-
JEST
Kinaza
Przeprowadza fosforylację
Substrat: PO43-
JEST
Metylaza
Przeprowadza metylację
Substrat: CH38
Ontologie – zapis formalny
●
Ontologia może zostać opisana przez parę <O,L>, gdzie
●
O to opis struktury ontologii;
●
L leksykon pojęć
Struktura O to zbiór
●
C zbiór terminów
●
R zbiór relacji.
●
●
C
A. Maedche 2003, Ontology Learning for the Semantic Web
●
O
O={C , R , H , A }, gdzie :
HC – hierarchia terminów
C
Dla
H ={h=c i , c j , r :c i , c j ∈C ,r ∈R }
AO to zbiór aksjomatów, pozwalających na
wprowadzenie dodatkowych ograniczeń do O.
9
Ontologia – zapis formalny
●
Leksykon definicji zdefiniowany jest jako
C
R
L={L , L , F ,G}, gdzie:
●
LC to zbiór definicji dla terminów
●
LR to zbiór definicji dla relacji
●
F i G to funkcje przypisania terminów/relacji do ich
definicji
10
Ontologie – zapis formalny
●
F⊆LC x C opisuje pary elementów
termin-definicja:
C
F l c =c ∈C : l c , c∈ F dla wszystkich l c ∈ L
−1
C
F c =l∈ L : l c , c∈F dla wszystkich c∈C
●
R
G⊆ L x R opisuje pary elementów
relacja-definicja
G l r =r ∈ R :l r , r ∈G dla wszystkich l r ∈ L R
G−1 r =l∈ L R :l r ,r ∈G dla wszystkich r ∈ R
11
Ontologie – zapis formalny
●
Przykład
●
Ontologia O = {C,R,HCAO},
●
●
C = {c1,c2,c3}
●
R={r1,r2}
●
HC={(c1,c2,r1),(c2,c3,r2)}
●
AO=Ø
Leksykon L = {LC,LR,F,G}
●
Urządzenie
elektroniczne
TYP
Wzmacniacz
operacyjny
EL.
Składowy
Tranzystor
LC={'U. Elektroniczne',...
'Wzm. operacyjny','Tranzystor'}
●
LR={'TYP','El. Składowy'}
●
F(c1)='U. Elektroniczne' , G(r2)='El. Skłdaowy'
12
Funkcje ontologii Dzielenie się wiedzą
●
Unifikacja różnych sposobów przedstawienia
tych samych obiektów
●
●
●
Umożliwienie wymiany danych pomiędzy
aplikacjami komputerowymi
Ułatwienie komunikacji pomiędzy ludźmi
Namacalne/formalne przedstawienie teorii
Uporządkowanie
struktury wiedzy
●
Umożliwienie tworzenia aplikacji
wykorzystujących zebraną wiedzę
13
Funkcje ontologii - przykłady
●
Dzielenie się wiedzą
●
●
●
●
Grupa badawcza
projektuje ontologię
urządzeń elektronicznych
Inne grupy korzystają z
udostępnionej ontologii
Wszyscy posługują się
tym samym słownictwem
Możliwe jest
wykorzystanie wspólnej
wiedzy w systemach
automatycznego
projektowania
●
Uporządkowanie
struktury wiedzy
●
Ontologia ludzi na
uczelni
typ
Człowiek
Wykładowca
Student
Kobieta
Mężczyzna
14
Funkcje ontologii - przykłady
●
Dzielenie się wiedzą
●
●
●
●
Grupa badawcza
projektuje ontologię
urządzeń elektronicznych
Inne grupy korzystają z
udostępnionej ontologii
Wszyscy posługują się
tym samym słownictwem
Możliwe jest
wykorzystanie wspólnej
wiedzy w systemach
automatycznego
projektowania
●
Uporządkowanie
struktury wiedzy
●
Ontologia ludzi na
uczelni
typ
Wykładowca
Funkcja
Student
Kobieta
Człowiek
typ
Mężczyzna
15
Rodzaje ontologii
Podział ze względu na funkcję
●
Ontologia – słownik
●
●
●
Nacisk na zdefiniowanie
słownictwa w dziedzinie
Definiowane pojęcia
mogą być
wykorzystywane do
opisu określonych
układów
Przykład – ontologia
urządzeń
elektronicznych (slajd 8)
●
Ontologia - zapis
wiedzy
●
●
●
Nacisk na odpowiednią
strukturyzację
Relacje i terminy są
zapisem wiedzy samym
w sobie
Przykład – ontologia
modyfikacji
potranslacyjnych
(slajd 9)
16
N. Guarino, Formal Ontology in Information Systems.
Proceedings of FOIS’98, Trento, Italy, 6-8 June 1998. Amsterdam, IOS Press, pp. 3-15.
Rodzaje ontologii
Podział ze względu na szczegółowość
●
Ontologie wysokiego rzędu
– opisują bardzo ogólne terminy
np. przestrzeń, czas, części,
itp... – mają zastosowanie w
innych ontologiach
●
Ontologie
dziedzinowe/zadaniowe –
uszczegóławiają ogólne terminy,
uwzględniając konkretną
dziedzinę/zadanie np. medycyna
/ diagnozowanie
●
Ontologie aplikacyjne –
bardzo szczegółowe, często
opisują role konkretnych
bytów/elementów opisywanej
dziedziny podczas określonych
procesów/zdarzeń
17
Zasady projektowania ontologii
1.Przejrzystość
2.Możliwość rozbudowy
3.Koherentność
4.Minimalizacja ograniczeń
5.Przedstawianie wiedzy rozłącznej oraz wiedzy
kompletnej
6.Minimalizacja różnic składniowych
7.Standaryzacja konwencji nazewnictwa
18
Zasady projektowania ontologii
●
Przejrzystość
●
●
●
●
Ontologia powinna w efektywny sposób definiować
znaczenie wykorzystywanych terminów.
Definicje powinny być obiektywne i mogą mieć
formę formalnych aksjomatów.
Definicja powinna zawierać warunki konieczne i
warunki wystarczające dla zdefiniowania danego
terminu.
Wszystkie definicje powinny być dodatkowo
opisane językiem naturalnym.
19
Zasady projektowania ontologii
●
Przejrzystość
●
●
Modyfikacja
Ontologia powinna w efektywny sposób
definiować
potranslacyjna
„Reakcja chemiczna w wyniku,
znaczenie wykorzystywanych terminów.
której modyfikacji ulega
ukształtowane białko”
Definicje powinny być obiektywne i mogą mieć
Musi mieć
formę formalnych aksjomatów.
Cel: (białko)
●
●
Definicja powinna zawierać warunki konieczne i
Może zachodzić przy udziale
warunki wystarczające dla zdefiniowania
danego
Enzym:
(białko)
terminu.
Wszystkie definicje powinny być dodatkowo
opisane językiem naturalnym.
20
Zasady projektowania ontologii
●
Możliwość rozbudowy
●
Terminy powinny być zdefiniowane w taki sposób,
że dodawanie bardziej wyspecjalizowanych lub
zupełnie nowych elementów nie pociąga za sobą
konieczności zmian w już istniejących definicjach.
(Np. dodadanie glikozylacji, )
21
Zasady projektowania ontologii
Koherentność
●
●
Wnioski wyciągane na podstawie struktury ontologii
powinny być spójne z definicjami. Jeżeli na
podstawie ontologii tworzony jest wniosek, który jest
sprzeczny z definicjami terminów to taka ontologia
nie jest koherentna.
Przykład Pozytywny
–
●
Fosforylacja to Modyfikacja potranslacyjna
przeprowadzana przez enzym, który jest kinazą.
http://i.istockimg.com
●
Przykład Negatywny:
–
Dłoń – część ręki
składająca się z palców
22
Zasady projektowania ontologii
Koherentność
●
●
Wnioski wyciągane na podstawie struktury ontologii
powinny być spójne z definicjami. Jeżeli na
podstawie ontologii tworzony jest wniosek, który jest
sprzeczny z definicjami terminów to taka ontologia
nie jest koherentna.
Przykład Pozytywny
–
●
Fosforylacja to Modyfikacja potranslacyjna
przeprowadzana przez enzym, który jest kinazą.
http://i.istockimg.com
●
Przykład Negatywny:
–
Dłoń – „Część ręki
składająca się z palców”
Śródręcze
23
Zasady projektowania ontologii
●
Minimalizacja ograniczeń
●
Aby ontologia była jak najbardziej uniwersalna,
należy minimalizować liczbę wprowadzanych
ograniczeń do tych najbardziej koniecznych.
–
–
Np. jak zdefiniować cel modyfikacji w naszej
przykładowej ontologii? ( „białko ludzkie”?, „białko
bakteryjne”? ...)
Można założyć, że "Cel" jest określany przez
„identyfikator białka”, ale bez definiowania konkretnego
formatu np. Uniprot albo PDB
Co zyskujemy?
24
Zasady projektowania ontologii
●
Przedstawianie wiedzy rozłącznej oraz wiedzy
kompletnej
●
W klasie należy wydzielać rozłączne pod_klasy np.
dla klasy (Białko) można stworzyć pod_klasy
(Globularne, Membranowe, Fibryle).
–
●
Pod_klasy są rozłączne ponieważ to samo białko nie
może być jednocześnie Globularne i Membranowe.
Rozkład klasy na pod_klasy jest kompletny, gdy
wszystkie możliwe przypadki klasy nadrzędnej
można zakwalifikować do jednej z pod_klas
25
Zasady projektowania ontologii
●
Minimalizacja różnic składniowych
●
Przy definiowaniu pojęć bliźniaczych należy
posługiwać się tą samą składnią
Kinaza
●Definicja: "Enzym przeprowadzający
fosforylację"
Informacje:
●1. Jest "Enzym"
●2. Ma "Substrat" PO3
●
Metylotransferaza
●Definicja: Przypadek klasy "Enzym",
"Białko przeprowadzające modyfikację
postranslacyjną. Jednym z substratów
jest CH3"
●
Axiom:
●= (("Enzym" "Kinaza") ("CH3"))
●
Axiom:
●= (("Enzym" "Kinaza") ("PO3"))
●
26
Zasady projektowania ontologii
●
Standaryzacja konwencji nazewnictwa
●
●
Żeby ułatwić zrozumienie terminów, powinno się
stosować te same wzorce nazewnictwa dla
bliźniaczych terminów,
Przykład negatywny:
–
●
Palec_Kciuk, Wskazujący_Palec_u_Dłoni
Przykład pozytywny
–
Palec_Kciuk, Palec_Wskazujący
27
Przykładowe ontologie
●
BFO - Basic Formal Ontology
●
DOLCE
●
SNOMED - CT
●
OGMS – (Ontology for General Medical Science)
●
Gene Ontology
●
ChEBI
●
EXACT (Experimental ACTions ontology)
●
Portale z ontologiami:
http://bioportal.bioontology.org/
http://www.obofoundry.org/
28
SNOMED – CT (1)
Systematized NOmenclature of MEDicine -Clinical Terms
●
Baza unifikująca terminologię wykorzystywaną w
różnych obszarach medycyny:
●
Procedury
●
Aparatura
●
Czynności administracyjne
●
Diagnostyka
●
Jednostki chorobowe
●
... itd.
29
SNOMED – CT (2)
Systematized NOmenclature of MEDicine -Clinical Terms
●
●
Zasadnicze cele SNOMED'u to ułatawienie:
●
akwizycji
●
analizy
●
wymiany danych medycznych
Obszary zastosowania:
●
Systemy opieki medycznej - kliniki
●
Badania naukowe w medycynie
●
Systemy nadzoru publicznej opieki medycznej
●
Analiza kosztów
●
...
30
SNOMED – CT (3)
Systematized NOmenclature of MEDicine -Clinical Terms
●
●
●
Leksykon składa się z prawie 400 tys. klas
(terminów)
Terminy są zhierarchizowane przez relację
„is_a” (łączy bardziej ogólnych przodków z
potomkami)
Inne relacje wprowadzają dodatkowe
informacje (np. <viral pneumonia> „has a
finding site” <lung>)
31
SNOMED – CT (4)
Systematized NOmenclature of MEDicine -Clinical Terms
●
Terminy są podzielone na kilkanaście
rozłącznych hierarchii np:
●
Rezultaty badań klinicznych/zaburzenia
–
●
Procedury
–
●
Terminy opisujące obserwacje i rezultaty badań (w tym
choroby)
Wszelkie procedury medyczne od zadań
administracyjnych po procedury diagnostyczne
Produkt Biologiczny/Farmaceutyczny
–
Terminy związane z lekami traktowanymi jako produkty, a
nie substancje. Wykorzystywane np przy przetwarzaniu
zamówień lub wydawaniu recept.
32
SNOMED – CT (5)
Systematized NOmenclature of MEDicine -Clinical Terms
●
●
●
Polska jest członkiem IHTSDO od grudnia 2011
Za wykorzystanie i dystrybucję bazy
SNOMED‑CT w polsce odpowiada Centrum
Systemów Informacyjnych Ohrony Zdrowia
(CSIOZ).
www.csioz.gov.pl
33
Gene Ontology - GO
●
Cel
●
●
Zadania
●
Tworzenie i kontrola słownika wyrażeń
●
●
●
Standaryzacja opisu genów oraz białek
Opisywanie obiektów
Dostarczenie narzędzi do przetwarzania zgromadzonych danych
Struktura
●
Molecular function (8660)
●
Biological Process (17893)
●
Cellular Component (2625)
Gene Ontology - GO
Gene Ontology - GO
Gene Ontology GO
●
Opisywany obiekt: 2he4A > Q15599
Molecular function
Biological Process
Cellular Component
GO:0005515
GO:0006461
GO:0016324
GO:0008022
GO:0048839
GO:0016020
GO:0016247
GO:0012505
GO:0005886
GO:0005737
GO:0005634
Gene Ontology GO
●
Opisywany obiekt: 2he4A > Q15599
Molecular function
Biological Process
Cellular Component
protein binding
protein complex assembly
nucleus
protein Cterminus binding
inner ear development
cytoplasm
channel regulator activity
plasma membrane
membrane
apical plasma membrane
extrinsic to membrane
Co to jest podobieństwo semantyczne?
Semantyka językoznawcza – nauka o znaczeniu wyrazów
Podobieństwo semantyczne – podobieństwo znaczenia
W oparciu o terminy
W oparciu o
krawędzie ontologii
Metody hybrydowe
C Pesquita, D Faria, A´ O Falca, P Lord, F M Couto, Semantic Similarity in
Biomedical Ontologies, PLoS Comput Biol 5(7): e1000443.
doi:10.1371/journal.pcbi.1000443
Podział miar podobieństwa semantycznego
Miary bazujące na krawędziach
Metody mierzące odległość pomiędzy terminami
●
Metody mierzące wspólną drogę do korzenia drzewa
http://bioinformatics.clemson.edu/G-SESAME
●
Miary bazujące na krawędziach
●
●
Zaleta – bardzo intuicyjne, zbliżone do sposobu wnioskowania ludzi
Podstawowe założenia:
●
●
Węzły i krawędzie są rozmieszczone równomiernie
Krawędzie na tym samym poziomie w grafie odpowiadają tej samej odległości semantycznej (znaczeniowej)
Miary bazujące na węzłach
Miary bazujące na węzłach
Wykorzystują właściwości porównywanych terminów, terminów poprzedzających (“przodków”) lub terminów następujących (“dzieci”).
●
Np. Information Content IC (informatywność) ●
IC=−log p c
●
●
p(c) – prawdopodobieństwo
wystąpienia terminu “c” w
określonej bazie
p (c) oblicza się jako częstotliwość przypisań danego terminu i jego potomków;
IC oblicza się również wykorzystując liczbę “dzieci” terminu;
Miary bazujące na węzłach
●
MICA (Most Informative Common Ancestor)
●
DCA (Disjoint Common Ancestor)
Miary bazujące na węzłach
●
Najbardziej popularne miary podobieństwa semantycznego korzystające z IC.
●
Resnik
sim Res c 1, c 2 = IC c MICA
●
Lin
●
Jian & Conrath
2xICc MCIA
sim Lin c 1, c 2=
IC c 1 IC c 2
sim JC c 1, c 2 =1−IC c 1 IC c 2 −2xIC c MICA
●
Schlicker
sim Rel c 1, c 2 =sim Lin c 1, c2 x 1− p c A
Cx – termin x
p(cA)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor)
Miary bazujące na węzłach
●
Zalety metod korzystających z IC:
●
●
●
Mniej wrażliwe na zmienną odległość znaczeniową pomiędzy terminami
Mniej wrażliwe na nierównomierny rozkład terminów w grafie
Wady:
●
Na częstotliwość przypisywania danego terminu mają wpływ trendy w nauce
Porównywanie zbiorów terminów
Porównywanie
dwóch zbiorów
Porównywanie zbiorów terminów
●
Porównywanie parami:
●
Wszystkie pary
●
●
Najlepsze pary
Metody łączenia wyników:
●
Średnia
●
Maksimum
●
Białko A
Suma
GO:0043229
Białko B
GO:0043231
GO:0043227
0.475
0.593
GO:0005622
0.700
0.588
Porównywanie zbiorów terminów
Porównywanie zbiorów terminów
●
Najlepsze rozwiązanie porównywania zbiorów to średnia z najlepiej pasujących par.
●
wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a uśredniającymi
∑ max j go Ai , go Bj ∑ max i go Ai , go Aj
Similarity A , B=
i
j
Białko A
mn
GO:0043229
Białko B
GO:0043231
GO:0043227
0.475
0.593
GO:0005622
0.700
0.588
Ocena poprawności miary
●
●
Nie ma obiektywnego punktu odniesienia. Można wykorzystywać inne właściwości, aby ocenić stopień podobieństwa:
●
Podobieństwo sekwencji aminokwasowej – korelacja (ograniczenie do nonIEA)
●
Ekseprymenty ekspresji genów – korelacja
●
Wyniki klasyfikacji białek
●
...
IEA – Inferred Electronically Annotation
Ocena poprawności miary
●
●
Żadna z metod opisanych w literaturze nie została uznana za najlepszą
Skuteczność metod zmienia się w zależności od:
●
Pierwotnego przeznaczenia
●
Bazy danych ●
Stosowanej miary skuteczności
●
Internet - teraz
●
●
●
Medium, które
umożliwia swobodny
dostęp do informacji
Umożliwia swobodną
publikację, własnymi
poglądami, wiedzą, ...
World Wide Web
Consortium – pracuje
nad udoskonalaniem
sieci
http://answers.yourdictionary.com
Przyszłość ontologii
Semantic web – sieć semantyczna
●
Internet drugiej generacji
●
Strony internetowe mają zawierać dane oraz
meta‑dane
–
●
●
Dzięki ontologiom informacja ma mieć dobrze
zdefiniowane znaczenie
Programy komputerowe będą mogły w sposób
„świadomy” interpretować informację i korzystać z
niej
Możliwe będzie zlecanie im złożonych zadań np.
umówienie wizyty u lekarza lub zakup produktów
żywnościowych.
Przyszłość ontologii