Clarin PL

Transkrypt

Clarin PL
CLARIN-PL
CLARIN – infrastruktura naukowa
technologii językowych
i jej potencjał jako narzędzia badawczego
Maciej Piasecki
Politechnika Wrocławska
Instytut Informatyki
Grupa Naukowa G4.19
[email protected]
2013-04-17
Projekt CLARIN
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
CLARIN =
Common Language Resources and Technology Infrastructure
Wspólne zasoby językowe i infrastruktura technologiczna
Część
europejskiej mapy drogowej infrastruktury naukowej
(European Roadmap for Research Infrastructures)
ESFRI (European Strategy Forum on Research
Infrastructures)
Polskiej Mapy Drogowej Infrastruktury Badawczej
Cel
połączenie zasobów i narzędzi językowych dla wszystkich
języków europejskich w ramach jednej wspólnej sieciowej
infrastruktury naukowej
Obszar działania: nauki humanistyczne i społeczne
Projekt CLARIN
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
CLARIN ERIC - konsorcjum naukowe typu ERIC (European Research
Infrastructure Consortium)
Członkowie
Austria
Bułgaria
Czechy
Dania
Estonia
Holandia
Niemcy
Polska
Dutch Language Union (organizacja międzypaństwowa)
Obserwatorzy
Norwegia
Podstawowe pojęcia
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Zasoby językowe
zbiory danych i bazy danych opisujące język naturalny oraz jego
użycie
sformalizowany opis wybranych aspektów języka naturalnego
Narzędzia językowe
programy komputerowe do przetwarzania tekstu i mowy na różnych
poziomach analizy języka naturalnego
automatyczna analiza struktur językowych, np. analiza składniowa
zastosowania użytkowe, np. rozpoznawanie i klasyfikacja nazw
własnych
Technologia językowa = zasoby + narzędzia + infrastruktura
Infrastruktura językowa
wspólna baza technologiczna zapewniająca połączenie
zróżnicowanych narzędzi i zasobów językowych
Zasoby językowe
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Korpusy (duże zbiory) dokumentów tekstowych i nagrań mowy:
przykłady użycia (fragmenty, wypowiedzi lub całe dokumenty)
anotowane - opisane pod względem lingwistycznym w
sformalizowany sposób (np. pod względem gramatycznym, czy też
znaczenia)
Słowniki
morfologiczne,
własności gramatycznych słów,
nazw własnych,
leksykony semantyczne, leksykalne sieci semantyczne,
wielojęzyczne słowniki itp.
Gramatyki (sformalizowane)
Inne zasoby
np. schematy anotacji oraz metadanych, funkcje podobieństwa
semantycznego słów, listy częstościowe, modele językowe itd.
Narzędzia językowe
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Analizatory morfologiczne – rozpoznające znane słowa i
przypisujące im opis własności gramatycznych
Programy do ujednoznaczniania znaczeń słów w tekście
Parsery (analizatory struktury)
dokonujące analizy składniowej
oraz semantycznej tekstu
Programy do rozpoznawania mowy i pisma ręcznego
Programy do analizy znaczenia i informacji wyrażonej
w tekście
rozpoznawanie i klasyfikacja nazw własnych
rozpoznawanie powiązań anaforycznych
rozpoznawanie sytuacji
itp.
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła
boczny pas autostrady A7 koło Laatzen w pobliżu
Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła
boczny pas autostrady A7 koło Laatzen w pobliżu
Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła
boczny pas autostrady A7 koło Laatzen w pobliżu
Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła
boczny pas autostrady A7 koło Laatzen w pobliżu
Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła
boczny pas autostrady A7 koło Laatzen w pobliżu
Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła
boczny pas autostrady A7 koło Laatzen w pobliżu
Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja
zamknęła boczny pas autostrady A7 koło Laatzen w
pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja
zamknęła boczny pas autostrady A7 koło Laatzen w
pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja
zamknęła boczny pas autostrady A7 koło Laatzen w
pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny
pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na
południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas)
XV OZ Socjologiczny
Szczecin
2013-09-12
Analiza tekstu – przykład
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny
pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na
południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas),
przyczyna(Syt:zagrożenie, Syt:zamknięcie)
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny
pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na
południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas),
przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen)
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny
pas autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na
południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas),
przyczyna(Syt:zagrożenie, Syt:zamknięcie), bliskość(Pas, Laatzen),
bliskość(Pas, Hanower)
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny pas
autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie,
Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)
sytuacje:
S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??,
źródło=??)
S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot=
boczny pas, czas=??)
przyczyna(S1, S2), poprzedza(S1,S2)
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny pas
autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie,
Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)
sytuacje:
S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??,
źródło=??)
S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot=
boczny pas, czas=??)
przyczyna(S1, S2), poprzedza(S1,S2)
wiedza nadawcy: ??
Analiza tekstu – przykład
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny pas
autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
obiekty: miejscowości, drogi, części dróg, służby
sytuacje: zagrożenie powodziowe, zamknięcie
relacje: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie,
Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)
sytuacje:
S1 (typ=stan, klasa=zagrożenie powodziowe, czas=??, miejsce=??,
źródło=??)
S2 (typ=zdarzenie, klasa=zamknięcie, sprawca= policja, przedmiot=
boczny pas, czas=??)
przyczyna(S1, S2), poprzedza(S1,S2)
wiedza nadawcy: ??
powiązania z informacją w pozostałej części tekstu: ??, np. uszczegółowienie
Analiza tekstu – narzędzia
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
„Ze względu na zagrożenie powodziowe policja zamknęła boczny pas
autostrady A7 koło Laatzen w pobliżu Hanoweru w kierunku na południe.”
(Onet.pl za Deutsche Welle, 30 V 2013)
analiza morfologiczna: formy podstawowe, cechy morfologiczne
<orth>zagrożenie</orth> <lex
disamb="1"><base>zagrożenie</base><ctag>subst:sg:acc:n
</ctag></lex>
płytka analiza składniowa, np. frazy i zależności
rozpoznawanie odniesień do obiektów (bytów nazwanych): miejscowości,
drogi, części dróg, służby
rozpoznawanie relacji semantycznych: przyczyna, przestrzenne
elementy relacji: zamknięcie(Policja, Pas), przyczyna(Syt:zagrożenie,
Syt:zamknięcie), bliskość(Pas, Laatzen), bliskość(Pas, Hanower)
rozpoznawanie sytuacji: zagrożenie powodziowe, zamknięcie
rozpoznawanie relacji czasowych
rozpoznanie relacji między fragmentami tekstu
odniesienie do bazy wiedzy kontekstowej
Analiza tekstu – stan bieżący
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
1.
2.
3.
4.
Analiza morfologiczna: formy podstawowe, cechy morfologiczne
Ujednoznacznienie opisów gramatycznych słów
Płytka analiza składniowa, np. frazy i zależności
Wydobywanie z tekstu słowników:
terminów (w tym wielowyrazowych)
nazw własnych
tezaurusów
5. Ujednoznacznienie znaczeń słów w tekście
6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)
7. Ocena nastawienia emocjonalnego i rozpoznanie opinii
8. Rozpoznawanie relacji semantycznych
9. Rozpoznawanie sytuacji
10. Rozpoznawanie relacji czasowych
11. Rozpoznanie relacji między fragmentami tekstu
12. Analiza struktury dyskursu
13. Pełna interpretacja znaczenia tekstu
Architektura technologii językowych – połączenie modułów
Analiza tekstu – CLARIN-PL
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
1.
2.
3.
4.
Analiza morfologiczna: formy podstawowe, cechy morfologiczne
Ujednoznacznienie opisów gramatycznych słów
Płytka analiza składniowa, np. frazy i zależności
Wydobywanie z tekstu słowników:
terminów (w tym wielowyrazowych)
nazw własnych
tezaurusów
5. Ujednoznacznienie znaczeń słów w tekście
6. Rozpoznawanie odniesień do obiektów (bytów nazwanych)
7. Ocena nastawienia emocjonalnego i rozpoznanie opinii
8. Rozpoznawanie relacji semantycznych
9. Rozpoznawanie sytuacji
10. Rozpoznawanie relacji czasowych
11. Analiza struktury dyskursu
12. Rozpoznanie relacji między fragmentami tekstu
13. Pełna interpretacja znaczenia tekstu
Architektura technologii językowych – połączenie modułów
Analiza relacji znaczeniowych
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
płaca
wynagrodzenie
pensja
zarobek
uposażenie
emerytura
zatrudnienie
dochód
renta
wynagradzanie
składka
0,453229
0,370166
0,359917
0,303791
0,279672
0,270655
0,264029
0,248828
0,239462
0,227758
wydajność pracy
czynsz
stopa procentowa
inflacja
oprocentowanie
zasiłek
świadczenie
podwyżka
wydatek
premia
0,225918
0,22524
0,224882
0,219127
0,218563
0,216317
0,215161
0,213452
0,210603
0,210519
Analiza relacji znaczeniowych
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
ojczyzna
naród
0,168143
lud
0,132219
kraj
0,132182
rzeczpospolita 0,128922
kraina
0,118424
wolność
0,116838
królestwo
0,114325
ludzkość
0,111024
państwo
0,104643
religia
0,104022
państwowość 0,103556
chwała
0,102265
honor
0,101467
wiara
0,100979
potęga
0,0988643
potomek
0,0979
imperium
0,0976763
zbawiciel
0,0975855
patriotyzm 0,097074
bóg
0,0968453
Przykładowe zastosowania
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Wyszukiwanie wielowyrazowych terminów lub nazw
w dowolnej formie gramatycznej
w różnych wersjach (pełnej, skróconej, częściowych akronimów)
powiązanie akronimów z terminami i nazwami
z uwzględnieniem wszystkich odwołań do terminu
ograniczenie wyszukiwania jedynie do tekstów określonego
charakteru
Poglądowa mapa kolekcji dokumentów
grupy oparte na podobieństwie zawartości
krótkie poglądowe streszczenia
Wydobywanie cechy przypisywanych do obiektów, pojęć
atrybuty
opinie wartościujące
Przykładowe zastosowania
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Automatyczne wydobywanie słownika typowego dla danej dziedzinie
wyrazy i wielowyrazowe terminy, zwroty, nazwy itd.
rozpoznanie kontekstów znaczeniowych w jakich są używane wyrazy
powiązania znaczeniowe
grupy tematyczne
powiązanie słownictwa z grupami ludzi
Rozpoznawanie współwystępowania obiektów w związkach lub
sytuacjach
analiza statystyczna rozpoznanych powiązań i sytuacji – w wielkiej skali na
klastrach obliczeniowych
automatyczne wydobywanie sieci społecznościowych
Analiza struktury dyskursu
rozpoznawanie aktów dialogu (mowy)
schematy i odniesienia do stereotypów
Bariery w dostępie
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Fizyczna
narzędzia i zasoby nie są dostępne w sieci
Informacyjna
brak opisu narzędzi i zasobów
brak katalogów i możliwości łatwego odnalezienia
Technologiczna
brak standardów, możliwości łączenia elementów technologii
brak wspólnej platformy – różnorodność rozwiązań
technologicznych
brak sprzętu o określonych parametrach
Wiedzy
wymagane umiejętności programistyczne
wymagana wiedza z zakresu inżynierii języka naturalnego
Prawna
licencje ograniczające dostęp i wykorzystanie
szczególnie w odniesieniu do korpusów
Infrastruktura językowa
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Funkcje infrastruktury
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Odpowiedni system składowania (repozytoryjny)
trwałość danych (system archiwizacji)
jednoznaczny opis danych za pomocą trwałych identyfikatorów
(Persistent Identifiers)
metadane o złożonej strukturze (CMDI)
zarządzanie metadanymi zgodnie z przyjętymi standardami (np.
ISOcat, RELcat)
wirtualne kolekcje oparte na metadanych
Rozproszona identyfikacja i autoryzacja użytkowników
oparta na federacjach narodowych
zasada jednego konta i jednego logowania
Integracja zasobów i usług
w oparciu o usługi sieciowe (Web Services)
dostęp poprzez aplikacje sieciowe
brak konieczności ściągania i instalowania
Aplikacje – przykłady
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Ułatwienie dostępu
połączony katalog metadanych
federacyjne wyszukiwanie w korpusach tekstu i mowy
Gromadzenie i zarządzanie danymi
tworzenie własnych kolekcji
rozszerzanie istniejących
wykorzystanie istniejących archiwów
Rozszerzenie wyszukiwania w zasobach
automatyczna generacja metadanych w oparciu o narzędzia
językowe
Wydobywanie informacji i wiedzy
automatyczna generacja zestawień
analiza statystyczna oparta na faktach wydobytych z korpusu
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
CLARIN-PL
Konsorcjum CLARIN-PL: polska część infrastruktury CLARIN
Centrum Technologii Językowych CLARIN-PL
www.clarin-pl.eu
Politechnice Wrocławskiej, Grupa Naukowa G4.19
zapewniające funkcje sieciowe infrastruktury CLARIN
udostępniające
repozytorium
zestaw wybranych aplikacji zbudowanych we współpracy z
użytkownikami
wsparcie dla użytkowników – naukowców
Korpusy
Uzupełnienie brakujących elementów podstawowej technologii
językowej dla języka polskiego
Wybrane zasoby dwujęzyczne
CLARIN-PL: projekt
XV OZ Socjologiczny
Szczecin
2013-09-12
CLARIN-PL
Okres: 2013-2015
Partnerzy:
Politechnika Wrocławska, Instytut Informatyki (lider)
Instytut Podstaw Informatyki Polskiej Akademii Nauk
Instytut Slawistyki Polskiej Akademii Nauk
Polsko-Japońska Wyższa Szkoła Technik Komputerowych
Uniwersytet Łódzki
Uniwersytet Wrocławski
CLARIN-PL
Dziękuję bardzo za uwagę