Zachowanie cyfrowego dziedzictwa archiwalnego

Transkrypt

Zachowanie cyfrowego dziedzictwa archiwalnego
Doświadczenia płynące z projektu
Cyfrowego Repozytorium Dokumentów
CREDO
Grzegorz Płoszajski
Tomasz Traczyk
Instytut Automatyki i Informatyki Stosowanej
Politechnika Warszawska
23 czerwca 2016
Doświadczenia płynące z projektu CREDO
Projekt CREDO
Cyfrowe REpozytorium DOkumentów
Projekt pt. „Cyfrowe repozytorium dokumentów – CREDO”
realizowany w ramach przedsięwzięcia pilotażowego NCBiR
Wsparcie badań naukowych i prac rozwojowych w skali demonstracyjnej
DEMONSTRATOR+
współfinansowany z działania 1.5 POIG
Umowa nr UOD-DEM-1-385/001
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
2/15
Doświadczenia płynące z projektu CREDO
Projekt CREDO
Wykonawcy
Projekt CREDO – konsorcjum
Polska Wytwórnia Papierów Wartościowych S.A. – lider
Politechnika Warszawska,
Instytut Automatyki i Informatyki Stosowanej
SkyTechnology sp. z o.o.
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
3/15
Doświadczenia płynące z projektu CREDO
Cele projektu CREDO
Cele projektu CREDO
I
Stworzenie repozytorium cyfrowego mogącego pełnić funkcje
I
repozytorium krótkoterminowego
I
I
I
I
archiwum długoterminowego
I
I
I
I
długookresowe zapewnienie trwałości i użyteczności zasobów
gwarancja wiarygodnego (łac. credibile) odczytu zasobu
archiwum cyfrowe zgodne z OAIS i innymi standardami,
zdatne do certyfikacji
Zbudowanie instalacji demonstracyjnej o pojemności 2 PB
I
I
niezawodny system plików z replikacją
pojemność wielopetabajtowa, pojedyncze pliki wieloterabajtowe
zarządzanie i aplikacje po stronie użytkownika
z dyslokacją w dwóch odległych lokalizacjach
Komercjalizacja projektu
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
4/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Co udało się zrobić
I
I
Zbudować dwa repozytoria o łącznej pojemności ponad 2 PB
Zrealizować kluczowe funkcje archiwum cyfrowego zgodnego z OAIS
I
I
sesje archiwalne
pakiety archiwalne zawierające zasoby i metadane
I
Skonstruować system otwarty na nowe technologie
I
Uzyskać dobrą efektywność ekonomiczną działania archiwum
I
Zapewnić przechowywanie danych z wysoką niezawodnością
(bitstream preservation)
I
W znacznej mierze zapewnić długoletnią dostępność treści
(content preservation)
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
5/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie danych cyfrowych (bitstream preservation)
Otwartość na nowe nośniki i systemy plików
I
I
Obecnie dyski magnetyczne i taśmy, możliwe użycie dysków SSD
W przyszłości możliwe użycie innych nośników
I
I
I
I
I
inne algorytmy badania niezawodności
inne metody zarządzania energią
...
zautomatyzowana migracja na nowe nośniki
Możliwe użycie różnych systemów plików
I
I
archiwum CREDO obsłuży dowolny system plików zgodny z POSIX
zgodność z POSIX można uzyskać dzięki dodatkowej warstwie
Wnioski
I
Przystosowanie archiwum do różnych nośników jest możliwe
I
Oderwanie od powszechnie znanych systemów plików jest trudne
i może nie być rozumiane
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
6/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie danych cyfrowych (bitstream preservation)
Niezawodność przechowywania w CREDO
I
Replikacja niskopoziomowa – na poziomie systemu plików
I
I
Replikacja wysokopoziomowa – zarządzana przez archiwum
I
I
I
także w różnych technologicznie systemach plików
także w odległych centrach danych (dyslokacja zasobów)
Optymalizacja alokacji i relokacji
I
I
I
może być zastąpiona innym mechanizmem wspomagania
niezawodności zapisu, np. kodami korekcyjnymi
z uwzględnieniem danych statystycznych dotyczących awaryjności
z dążeniem do alokacji na pewniejszych nośnikach
Automatyczne odświeżanie magnetyczne i relokacja
I
z „ucieczką” z nośników niepewnych lub przestarzałych
Wnioski
I
Nie mamy wciąż innych metod na trwałość zapisu cyfrowego niż
replikacja/dyslokacja i przepisywanie
I
Ale użycie tych metod można zoptymalizować
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
7/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie danych cyfrowych (bitstream preservation)
Weryfikowalność poprawności przechowywania
I
Monitorowanie sprzętu w CREDO
I
I
I
dla dysków ocena niezawodności zapisu na podst. danych SMART
możliwe dodanie innych metod dla nowych typów nośników
Monitorowanie stanu zasobów w CREDO
I
regularne dwupoziomowe monitorowanie stanu zasobów
na poziomie systemu plików
I
na poziomie archiwum: okresowe sprawdzanie
I
I
I
I
sprawdzanie sum kontrolnych niskopoziomowych porcji informacji
kompletności pakietów
skrótów cyfrowych plików
Wnioski
I
Wobec niedoskonałości metod przechowywania danych cyfrowych
monitorowanie jest niezbędne
I
Jest ono potrzebne także ze względu na wymogi certyfikacji
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
8/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie danych cyfrowych (bitstream preservation)
Efektywność ekonomiczna
I
Tzw. archiwum głębokie
I
I
I
I
dostęp na zamówienie (off-line), a nie na żądanie
z oszacowaniem czasu dostawy
„Inteligentne” wyłączanie urządzeń pamięciowych (serwerów)
Optymalizacja okresów dostępu do poszczególnych obszarów danych
w celu minimalizacji zużycia energii
Wnioski
I
Archiwum dyskowe bez zarządzania energią generuje
nieakceptowalne koszty
I
Efektywne zarządzanie energią wymaga dość wyrafinowanego
harmonogramowania – jest to wyzwanie nawet dla doświadczonych
specjalistów
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
9/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie treści (content preservation)
Integralność i autentyczność informacji
I
Przechowywanie zasobów łącznie z metadanymi
I
I
Kopia wybranych metadanych w bazie danych archiwum
I
I
metadane w archiwum zapisane w XML – możliwość poprawnej
interpretacji po latach
możliwość wykorzystania różnych standardów, także jeszcze
nieistniejących
Mechanizmy sprawdzania integralności
I
I
I
zgodności zawartości pakietu z zadeklarowaną
niezmienności zapisu (skróty cyfrowe)
zgodności formatu plików z zadeklarowanym
Wnioski
I
Przechowywanie metadanych w archiwum (i przynajmniej
ograniczona ich obsługa) jest niezbędne dla prawidłowego
przechowywania treści
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
10/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie treści (content preservation)
Integralność i autentyczność informacji, c.d.
I
I
Dostawca powinien przygotować metadane pakietu SIP, zawierające
deklaracje weryfikowane przez archiwum
Metadane są dostarczane z użyciem uzgodnionych standardów
I
I
I
w CREDO przyjęto na razie ograniczoną wersję METS
możliwe jest użycie innych standardów, np. XFDU
W projekcie nie podejmowano problemu podpisów elektronicznych
I
I
konserwacja podpisów wymaga zmian w podpisanych zasobach
archiwizacja z systemów EZD może wymagać rozwiązania problemu
Wnioski
I
Proces przyjmowania informacji powinien być oparty na jasno
określonych obowiązkach dostawców i archiwum
I
Ścisłe procedury i stosowanie standardów sprzyjają sprawnemu
przyjmowaniu przez archiwum dużych ilości informacji
I
Ścisłe procedury ułatwią rozstrzyganie ewentualnych sporów
dotyczących integralności informacji
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
11/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie treści (content preservation)
Dostępność informacji
I
Interpretowalność zasobu po latach – środki w CREDO
I
możliwość ograniczenia dopuszczalnych formatów
I
I
I
sprawdzanie formatu oparte na rejestrze PRONOM i związanym
z nim programie DROID
użyto typów MIME i identyfikatorów PRONOM (dokładniejszych)
możliwość powiązania zasobów z dokumentacją formatów, także
przechowywaną w archiwum
Wnioski
I
W archiwum długoterminowym mającym zapewnić przechowywanie
treści (content preservation) można akceptować jedynie niektóre
formaty danych
I
Szczególnie godne polecenia są formaty tekstowe, np. XML
I
Dla wybranych formatów warto przechowywać ich dokumentację
Nie wiadomo, czy użycie „obcego” rejestru formatów jest bezpieczne
w dłuższym okresie
I
IAiIS PW – GP & TT
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
12/15
Doświadczenia płynące z projektu CREDO
Co udało się zrobić
Przechowywanie treści (content preservation)
Dostępność informacji, c.d.
I
Możliwość odnalezienia zasobu: wyszukiwanie w bazie danych
I
I
I
I
różnorodne, współistniejące identyfikatory zasobów (DOI, URI itp.)
metadane opisowe „zrzutowane” do Dublin Core
możliwość pozyskania do b.d. tzw. metadanych zagłębionych
wyszukiwanie w XML za pomocą języka XQuery
Wnioski
I
Trzeba zapewnić możliwość skutecznego wyszukiwania zasobów
I
Szczegółowa interpretacja metadanych nie jest jednak zadaniem
archiwum długoterminowego
I
Podstawowe metadane warto pozyskać do bazy danych w celu
efektywnego wyszukiwania
Pozostałe metadane można przechować w bazie danych w XML, co
także umożliwia wyszukiwanie
I
I
IAiIS PW – GP & TT
w szczególności metadane zagłębione trudno sprowadzić do
ujednoliconej prostej postaci
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
13/15
Doświadczenia płynące z projektu CREDO
Czego się nie udało zrobić
Czego się nie udało zrobić
I
I
Zweryfikować założeń projektu z rzeczywistymi przyszłymi
użytkownikami
Przetestować archiwum
I
I
na znaczącej wielkości prawdziwych danych
na w miarę długim horyzoncie czasowym
I
Wypracować sensownego modelu współdziałania strony
naukowo-badawczej z przedsiębiorstwem
I
Obecnie obowiązujący (i stale pogłębiany!) model finansowania
badań stosowanych należy ocenić jako zupełnie nieudany
W przedsięwzięciach tego typu partnerem Uczelni
I
I
I
IAiIS PW – GP & TT
nie powinien być przedsiębiorca – ewentualny przyszły sprzedawca
wyników
powinny być podmioty bezpośrednio zainteresowane zastosowaniem
wyniku prac – i to one powinny otrzymać finansowanie
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
14/15
Doświadczenia płynące z projektu CREDO
Podsumowanie
Podsumowanie
I
Projekt CREDO pozwolił stworzyć działające archiwum cyfrowe
I
I
I
I
I
I
o znacznej pojemności
zgodne z OAIS i zdatne do certyfikacji
zapewniające wysoką niezawodność przechowywania
mogące korzystać z różnych nośników
efektywne energetycznie
z dużymi możliwościami dalszego rozwoju i dostosowywania
I
I
I
do potrzeb użytkowników
do zmian wynikających z upływu czasu, np. postępu technologii
Doświadczenia z projektu mogą być wykorzystane w dalszych
i nowych pracach
I
IAiIS PW – GP & TT
szczególnie potrzebna jest współpraca z faktycznymi użytkownikami
archiwów cyfrowych
Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016
15/15