Nowoczesne biblioteki cyfrowe w środowisku rozproszonych usług

Transkrypt

Nowoczesne biblioteki cyfrowe w środowisku rozproszonych usług
2008. INFORMACJA DLA NAUKI A ŚWIAT ZASOBÓW CYFROWYCH
Cezary Mazurek
Poznańskie Centrum Superkomputerowo-Sieciowe
[email protected]
Maciej Stroiński
Poznańskie Centrum Superkomputerowo-Sieciowe
[email protected]
Marcin Werla
Poznańskie Centrum Superkomputerowo-Sieciowe
[email protected]
Jan Węglarz
Poznańskie Centrum Superkomputerowo-Sieciowe
[email protected]
Nowoczesne biblioteki cyfrowe w środowisku
rozproszonych usług atomowych
Modern digital libraries in the environment
of distributed atomic services
Abstrakt
Niniejszy referat przedstawia rezultaty projektu badawczego "Mechanizmy usług atomowych dla
rozproszonych bibliotek cyfrowych" finansowanego przez MNiSW (nr projektu: 3 T11C 023 30).
W ramach tego projektu przeanalizowano popularne systemy i modele bibliotek cyfrowych,
a następnie na podstawie tej analizy podzielono funkcjonalność biblioteki cyfrowej na cztery
atomowe usługi. Usługi te są odpowiedzialne za przechowywanie treści obiektów cyfrowych,
przechowywanie metadanych, przechowywanie powiązań między obiektami cyfrowymi oraz
wyszukiwanie obiektów cyfrowych. W ramach projektu opracowano model danych i protokoły
komunikacyjne, pozwalające na korzystanie z biblioteki cyfrowej opartej na tych usługach.
Praktyczną implementacją wyników badawczych wspomnianego projektu jest działająca w sieci
PIONIER od czerwca 2007 roku Federacja Bibliotek Cyfrowych (FBC). W referacie, poza
wspomnianymi rezultatami projektu badawczego, przedstawiono główne funkcje serwisu FBC
przeznaczone dla czytelników oraz dla instytucji udostępniających zasoby cyfrowe. Omówiono też
dalsze kierunki rozwoju FBC.
Słowa kluczowe
biblioteki cyfrowe; usługi atomowe; systemy rozproszone; Federacja Bibliotek Cyfrowych;
agregacja metadanych; protokoły komunikacyjne
Abstract
This paper presents results of a research project titled “Mechanisms of atomic services for
distributed digital libraries” funded by the Polish Ministry of Science and Education (grant
number: 3 T11C 023 30). Within this project popular models and systems of digital libraries
were analysed. On the basis of this analysis the functionality of a digital library system was
divided into four atomic services. These services are responsible for storing the content of digital
objects, storing objects metadata, storing relations between digital objects, and searching these
objects.Moreover, the data models and protocols were developed allowing the creation of
a digital library based on atomic services. Practical implementation of project results is the
PIONIER Network Digital Libraries Federation (DLF) service available since June 2007. In this
Nowoczesne biblioteki cyfrowe w środowisku rozproszonym usług atomowych
3
paper, besides of the research project results, also the main functionality of the DLF is described,
both for digital library readers and for institutions making their digital resources available online. Finally, further directions of the DLF development are pointed out.
Keywords
digital libraries; atomic services; distributed systems; Digital Libraries Federation; metadata
aggregation; communication protocols
1. Wstęp
Największa obecnie biblioteka cyfrowa w Polsce, Wielkopolska
Biblioteka Cyfrowa (WBC), dostępna publicznie od października 2002 roku,
powstała
jako
efekt
współpracy
poznańskiego
środowiska
naukowego, a w szczególności Poznańskiej Fundacji Bibliotek Naukowych
(PFBN), Biblioteki Kórnickiej PAN (BK PAN) oraz Poznańskiego Centrum
Superkomputerowo-Sieciowego (PCSS). Działania związane z powstaniem tej
biblioteki, zdobyte przy tym doświadczenie oraz opracowane oprogramowanie
(system dLibra), okazały się istotnym przyczynkiem do powstawania kolejnych
bibliotek cyfrowych w Polsce. Biblioteki te początkowo powstawały w tempie
kilku rocznie, jednak ich stały i konsekwentny rozwój oraz działania
wspierające, takie jak współorganizowane od 2004 roku przez PCSS i PFBN
cykliczne warsztaty „Biblioteki cyfrowe”1,doprowadziły do widocznego
w ostatnich dwóch latach znacznego wzrostu liczby inicjatyw mających na celu
utworzenie nowych bibliotek cyfrowych. Liczba bibliotek cyfrowych
dostępnych w Polsce pod koniec 2007 roku (17) wzrosła o prawie 200%
w stosunku do analogicznej liczby z końca roku 2005 (6). Według obecnych
szacunków pod koniec roku 2008 publicznie dostępnych będzie około
35 bibliotek cyfrowych. Oznacza to ponad 100% przyrost pomiędzy rokiem
2007 i 2008.
Tak intensywna rozbudowa infrastruktury bibliotek cyfrowych w Polsce
stała się podstawą do rozpoczęcia przez PCSS prac badawczych, dotyczących
architektury usług sieciowych w środowisku rozproszonych bibliotek
cyfrowych. Prace te realizowane były m.in. w ramach projektu zatytułowanego
"Mechanizmy usług atomowych dla rozproszonych bibliotek cyfrowych"
finansowanego przez MNiSW (nr projektu: 3 T11C 023 30). Rezultaty tych
prac opisane zostały w rozdziale 2 niniejszego artykułu. Rozdział 3 przedstawia
praktyczną implementację koncepcji opracowanej w ramach wspomnianego
projektu badawczego, czyli dostępną od czerwca 2007 roku Federację Bibliotek
Cyfrowych. Artykuł kończy podsumowanie i opis kierunków dalszych prac.
2. Usługi atomowe dla rozproszonych bibliotek cyfrowych
Głównym celem projektu badawczego „Mechanizmy usług atomowych
dla rozproszonych bibliotek cyfrowych” było opracowanie spójnego zestawu
otwartych protokołów dla atomowych usług bibliotek cyfrowych, które
1
Warsztaty “Biblioteki cyfrowe” [online] [dostęp 1 września 2008]. Dostępny w Internecie:
<http://dl.psnc.pl/warsztaty>.
Cezary Mazurek, Maciej Stroiński, Marcin Werla, Jan Węglarz
4
umożliwią dostęp do pełnej funkcjonalności, oferowanej obecnie przez różne
systemy bibliotek cyfrowych. Pierwszym etapem projektu była analiza
najpopularniejszych modeli i systemów bibliotek cyfrowych właśnie pod kątem
dostępnej w nich funkcjonalności 2. Miało to na celu wydzielenie z zakresu
funkcjonalnego bibliotek cyfrowych spójnych grup funkcjonalnych, które
następnie zostaną przekształcone w usługi atomowe. Ostatecznie zdefiniowano
następujące usługi atomowe 3:
•
•
•
•
usługa przechowywania obiektów cyfrowych – przechowuje
i wersjonuje treść obiektów cyfrowych dowolnego typu,
składających się z jednego lub wielu strumieni danych;
usługa przechowywania metadanych – pozwala na opisywanie obiektów
cyfrowych o złożonej strukturze metadanymi w wielu różnych
schematach, skojarzonymi z dowolnymi poziomami struktury
opisywanych obiektów;
usługa kompozycji i relacji obiektów cyfrowych – pozwala na tworzenie
relacji pomiędzy obiektami cyfrowymi lub elementami ich struktury
oraz na tworzenie grup powiązanych obiektów;
usługa wyszukiwania obiektów cyfrowych – umożliwia przeszukiwanie
zbioru obiektów cyfrowych danego typu lub zbioru metadanych
o określonym formacie.
Dla tych usług zdefiniowano model danych oraz wykorzystujące go
interfejsy4, zaprojektowane zgodnie z podejściem ROA5 (ang. resource-oriented
architecture, tj. architektura zorientowana na zasoby). Takie podejście
umożliwia tworzenie systemów informatycznych o dwupoziomowej
architekturze, w których usługi aplikacyjne funkcjonują na podstawie
mechanizmów usług atomowych. Schematycznie przedstawia to rysunek 1
widoczny poniżej.
2
Dudczak , A.; Heliński, M.; Mazurek, C.; Parkoła T.; Werla, M. Analiza funkcjonalności wybranych modeli
i systemów zarządzania bibliotekami cyfrowymi. W: Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej.
Technologie Informacyjne. Gdańsk : Wydawnictwo Politechniki Gdańskiej, 2007, s. 407-416. ISBN 978-8360779-01-9. V Krajowa Konferencja Technologie Informacyjne, Gdańsk, 20 - 23 maj, 2007.
3
Mazurek, C.; Parkoła, T.; Werla, M. Atomowe usługi w środowisku rozproszonych bibliotek cyfrowych.
W: II Krajowa Konferencja Naukowa “Technologie przetwarzania danych”, Poznań, 24 - 26 wrzesień,
2007. Poznań : Wydawnictwo Politechniki Poznańskiej, 2007, s. 446-457. ISBN 978-83-7143-349-8.
4
Dudczak A.; Mazurek C.; Werla M. RESTful Atomic Services for Distributed Digital Libraries. W: 1st
International Conference on Information Technology, Gdańsk, 18 - 21 maja, 2008. Gdańsk: s. 267–270.
ISBN 978-1-4244-244-9.
5
Richardson, L.; Ruby, S. RESTful Web Services. O’Reilly: 2007. ISBN 0-596-52926-0.
Nowoczesne biblioteki cyfrowe w środowisku rozproszonym usług atomowych
5
Rysunek 1. Dwupoziomowa architektura biblioteki cyfrowej działającej na podstawie usług
atomowych
Źródło: Opracowanie własne autorów
Powyższy model został wykorzystany przy projektowaniu architektury
Federacji Bibliotek Cyfrowych (FBC). W systemie tym na poziomie usług
atomowych umiejscowione są m.in. dwie usługi przechowujące metadane.
Pierwsza z nich odpowiada za metadane obiektów dostępnych w polskich
bibliotekach cyfrowych, druga natomiast przechowuje dane obiektów
przeznaczonych do digitalizacji. Dane te są automatycznie pobierane przy
pomocy protokołu OAI-PMH z rozproszonych bibliotek cyfrowych,
funkcjonujących w sieci PIONIER. Są one podstawą do działania
zaawansowanych funkcji FBC, które omówiono w następnym punkcie artykułu.
3. Federacja Bibliotek Cyfrowych w sieci PIONIER
Federacja Bibliotek Cyfrowych (http://fbc.pionier.net.pl/) to zaawansowana usługa sieciowa realizowana w oparciu o metadane opisujące zasoby
polskich bibliotek cyfrowych. Główne cele FBC to6:
•
•
•
ułatwienie wykorzystania zasobów polskich bibliotek cyfrowych
i repozytoriów;
zwiększenie widoczności i popularyzacja zasobów polskich bibliotek
cyfrowych i repozytoriów w internecie;
udostępnienie użytkownikom i twórcom bibliotek cyfrowych nowych,
zaawansowanych usług sieciowych opartych na zasobach polskich
bibliotek cyfrowych i repozytoriów.
Cele te są realizowane przy założeniu, iż nie ma potrzeby ani
konieczności przekazywania zasobów cyfrowych na rzecz FBC, aby były one
poprzez FBC widoczne. Nie ma również opłat za korzystanie z FBC, ani
za udostępnianie poprzez nią zasobów, a podstawą działania są otwarte
standardy. Użycie otwartych standardów ma na celu umożliwienie przyłączanie
bibliotek cyfrowych do FBC bez ograniczeń związanych z technologiami
stosowanymi przez konkretnych dostawców oprogramowania.
6
Federacja Bibliotek Cyfrowych – O Serwisie [online] [dostęp 1 września 2008]. Dostępny w Internecie:
<http://fbc.pionier.net.pl/owoc/about?id=about-fbc>.
6
Cezary Mazurek, Maciej Stroiński, Marcin Werla, Jan Węglarz
Rysunek 2. Strona główna Federacji Bibliotek Cyfrowych
Źródło: http://fbc.pionier.net.pl/
Obecnie FBC obejmuje zasoby 25 bibliotek cyfrowych, dające razem
około 165 tysięcy obiektów cyfrowych. Strona główna FBC widoczna jest
na rysunku 2. Podstawowe funkcje FBC związane są z przeszukiwaniem
gromadzonych metadanych, zarówno w sposób podstawowy, jak i przy pomocy
zaawansowanych formularzy wyszukiwawczych. Ponadto w sekcji
„Digitalizacja” serwisu WWW FBC dostępny jest raport zawierający listę
publikacji przeznaczonych do digitalizacji w ramach poszczególnych bibliotek
cyfrowych. Metadane na temat dostępnych zasobów cyfrowych i obiektów
przeznaczonych do digitalizacji są wykorzystywane również w mechanizmie
wykrywania duplikatów oraz zapobiegania ich powstawania. Dzięki temu
mechanizmowi instytucje prowadzące biblioteki cyfrowe już na etapie
planowania digitalizacji mogą w zautomatyzowany sposób wykluczyć z tych
planów obiekty wcześniej zdigitalizowane w innych ośrodkach. Ponadto w FBC
dostępne są również podstawowe statystyki na temat liczby gromadzonych
zasobów oraz opisujących ich metadanych, a także szereg dodatków
popularyzujących FBC i widoczne w niej zasoby. Przykładem takiego dodatku
może być rozszerzenie wyszukiwawcze dla przeglądarek WWW opracowane
w standardzie OpenSearch. Rozszerzenie to na przełomie czerwca i lipca 2008
roku zostało włączone w oficjalną polską dystrybucję przeglądarek Firefox 2 i 3
(patrz rysunek 3).
Nowoczesne biblioteki cyfrowe w środowisku rozproszonym usług atomowych
7
Rysunek 3. Dodatek wyszukiwawczy FBC włączony do polskiej edycji przeglądarki Firefox 3
Źródło: http://dl.psnc.pl/2008/06/17/
W efekcie łączna miesięczna liczba użytkowników FBC wzrosła
z około 25 tysięcy (czerwiec 2008) do ponad 42 tysięcy (lipiec 2008). Poza
wzrostem liczby użytkowników FBC z pewnością wzrosła również wśród
polskich internautów świadomość istnienia polskich bibliotek cyfrowych.
Dzięki wspomnianemu dodatkowi wyszukiwawczemu mogą oni korzystać
z zasobów tych bibliotek równie łatwo jak wcześniej z wyszukiwarki Google,
Wikipedii czy Encyklopedii PWN.
4. Zakończenie
W niniejszym artykule opisano rezultaty projektu badawczego
„Mechanizmy usług atomowych dla rozproszonych bibliotek cyfrowych”.
Opracowany w ramach tego projektu model usług atomowych oraz elementy
jego prototypowej implementacji, zrealizowane z wykorzystaniem techniki
REST, zostały wykorzystane do stworzenia Federacji Bibliotek Cyfrowych –
nowoczesnej usługi sieciowej gromadzącej i przetwarzającej metadane,
udostępniane przez polskie biblioteki cyfrowe. FBC ma na celu ułatwienie
wykorzystania polskich zasobów cyfrowych, zwiększenie ich widoczności
i popularyzację w Internecie oraz udostępnianie nowych zaawansowanych
usług sieciowych, zarówno użytkownikom bibliotek cyfrowych jak i ich
twórcom.
Równolegle do dynamicznego rozwoju bibliotek cyfrowych w Polsce
budowana była infrastruktura europejska, m.in. w ramach takich projektów jak:
Minerva, Michael, The European Library czy TEL-ME-MOR. Obecnie
większość inicjatyw i projektów europejskich związanych z bibliotekami
cyfrowymi skupiona jest na tworzeniu Europeany, mającej stać się europejskim
cyfrowym archiwum, muzeum i biblioteką. Serwis ten ma docelowo
8
Cezary Mazurek, Maciej Stroiński, Marcin Werla, Jan Węglarz
udostępniać zasoby związane z historią, kulturą i nauką wszystkich krajów
europejskich. Jest to moment niezwykle istotny dla polskich bibliotek
cyfrowych – moment, w którym niezbędne jest połączenie ich z Europeaną
i wyniesienie polskich zasobów cyfrowych na poziom europejski. Jednym
ze sposobów realizacji tego celu jest rozpoczęty w czerwcu 2008 roku projekt
EuropeanaLocal7,którego zadaniem jest włączenie zasobów lokalnych
i regionalnych bibliotek cyfrowych do prototypu Europeany. Kluczową rolę
w przypadku Polski będzie tu pełniła Federacja Bibliotek Cyfrowych, mająca
w ciągu kilku najbliższych lat stać się pojedynczym punktem gromadzącym,
porządkującym i przekazującym metadane, dotyczące polskich zasobów
cyfrowych na potrzeby Europeany.
Bibliografia
[1] Warsztaty “Biblioteki cyfrowe” [online] [odczyt 1 września 2008]. Dostępny w Internecie:
<http://dl.psnc.pl/warsztaty/>.
[2] Dudczak, A.; Heliński, M.; Mazurek, C.; Parkoła, T.; Werla, M. Analiza funkcjonalności
wybranych modeli i systemów zarządzania bibliotekami cyfrowymi. W:Zeszyty Naukowe
Wydziału ETI Politechniki Gdańskiej. Technologie Informacyjne. Gdańsk: Wydawnictwo
Politechniki Gdańskiej, 2007, s. 407-416. ISBN 978-83-60779-01-9.
[3] Mazurek, C.; Parkoła,T.; Werla, M. Atomowe usługi w środowisku rozproszonych bibliotek
cyfrowych. W: II Krajowa Konferencja Naukowa “Technologie przetwarzania danych”,
Poznań, 24-26 wrzesień, 2007. Poznań : Wydawnictwo Politechniki Poznańskiej, 2007, s.
446-457. ISBN 978-83-7143-349-8.
[4] Dudczak, A.; Mazurek, C.; Werla, M. RESTful Atomic Services for Distributed Digital
Libraries. W: 1st International Conference on Information Technology, Gdańsk, 18 - 21
maja, 2008. Gdańsk, s. 267–270. ISBN 978-1-4244-244-9.
[5] Richardson, L.; Ruby, S. RESTful Web Services. O’Reilly : 2007. ISBN 0-596-52926-0.
[6] Federacja Bibliotek Cyfrowych – O Serwisie [online] [dostęp 1 września 2008]. Dostępny
w Internecie: <http://fbc.pionier.net.pl/owoc/about?id=about-fbc>.
[7] EuropeanaLocal – Strona projektu [online] [dostęp 1 września 2008]. Dostępny
w Internecie: <http://www.europeanalocal.eu/>.
7
EuropeanaLocal – Strona projektu [online][dostęp 1 września 2008]. Dostępny w Internecie:
<http://www.europeanalocal.eu>.