Zachowanie cyfrowego dziedzictwa archiwalnego
Transkrypt
Zachowanie cyfrowego dziedzictwa archiwalnego
Doświadczenia płynące z projektu Cyfrowego Repozytorium Dokumentów CREDO Grzegorz Płoszajski Tomasz Traczyk Instytut Automatyki i Informatyki Stosowanej Politechnika Warszawska 23 czerwca 2016 Doświadczenia płynące z projektu CREDO Projekt CREDO Cyfrowe REpozytorium DOkumentów Projekt pt. „Cyfrowe repozytorium dokumentów – CREDO” realizowany w ramach przedsięwzięcia pilotażowego NCBiR Wsparcie badań naukowych i prac rozwojowych w skali demonstracyjnej DEMONSTRATOR+ współfinansowany z działania 1.5 POIG Umowa nr UOD-DEM-1-385/001 IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 2/15 Doświadczenia płynące z projektu CREDO Projekt CREDO Wykonawcy Projekt CREDO – konsorcjum Polska Wytwórnia Papierów Wartościowych S.A. – lider Politechnika Warszawska, Instytut Automatyki i Informatyki Stosowanej SkyTechnology sp. z o.o. IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 3/15 Doświadczenia płynące z projektu CREDO Cele projektu CREDO Cele projektu CREDO I Stworzenie repozytorium cyfrowego mogącego pełnić funkcje I repozytorium krótkoterminowego I I I I archiwum długoterminowego I I I I długookresowe zapewnienie trwałości i użyteczności zasobów gwarancja wiarygodnego (łac. credibile) odczytu zasobu archiwum cyfrowe zgodne z OAIS i innymi standardami, zdatne do certyfikacji Zbudowanie instalacji demonstracyjnej o pojemności 2 PB I I niezawodny system plików z replikacją pojemność wielopetabajtowa, pojedyncze pliki wieloterabajtowe zarządzanie i aplikacje po stronie użytkownika z dyslokacją w dwóch odległych lokalizacjach Komercjalizacja projektu IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 4/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Co udało się zrobić I I Zbudować dwa repozytoria o łącznej pojemności ponad 2 PB Zrealizować kluczowe funkcje archiwum cyfrowego zgodnego z OAIS I I sesje archiwalne pakiety archiwalne zawierające zasoby i metadane I Skonstruować system otwarty na nowe technologie I Uzyskać dobrą efektywność ekonomiczną działania archiwum I Zapewnić przechowywanie danych z wysoką niezawodnością (bitstream preservation) I W znacznej mierze zapewnić długoletnią dostępność treści (content preservation) IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 5/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie danych cyfrowych (bitstream preservation) Otwartość na nowe nośniki i systemy plików I I Obecnie dyski magnetyczne i taśmy, możliwe użycie dysków SSD W przyszłości możliwe użycie innych nośników I I I I I inne algorytmy badania niezawodności inne metody zarządzania energią ... zautomatyzowana migracja na nowe nośniki Możliwe użycie różnych systemów plików I I archiwum CREDO obsłuży dowolny system plików zgodny z POSIX zgodność z POSIX można uzyskać dzięki dodatkowej warstwie Wnioski I Przystosowanie archiwum do różnych nośników jest możliwe I Oderwanie od powszechnie znanych systemów plików jest trudne i może nie być rozumiane IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 6/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie danych cyfrowych (bitstream preservation) Niezawodność przechowywania w CREDO I Replikacja niskopoziomowa – na poziomie systemu plików I I Replikacja wysokopoziomowa – zarządzana przez archiwum I I I także w różnych technologicznie systemach plików także w odległych centrach danych (dyslokacja zasobów) Optymalizacja alokacji i relokacji I I I może być zastąpiona innym mechanizmem wspomagania niezawodności zapisu, np. kodami korekcyjnymi z uwzględnieniem danych statystycznych dotyczących awaryjności z dążeniem do alokacji na pewniejszych nośnikach Automatyczne odświeżanie magnetyczne i relokacja I z „ucieczką” z nośników niepewnych lub przestarzałych Wnioski I Nie mamy wciąż innych metod na trwałość zapisu cyfrowego niż replikacja/dyslokacja i przepisywanie I Ale użycie tych metod można zoptymalizować IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 7/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie danych cyfrowych (bitstream preservation) Weryfikowalność poprawności przechowywania I Monitorowanie sprzętu w CREDO I I I dla dysków ocena niezawodności zapisu na podst. danych SMART możliwe dodanie innych metod dla nowych typów nośników Monitorowanie stanu zasobów w CREDO I regularne dwupoziomowe monitorowanie stanu zasobów na poziomie systemu plików I na poziomie archiwum: okresowe sprawdzanie I I I I sprawdzanie sum kontrolnych niskopoziomowych porcji informacji kompletności pakietów skrótów cyfrowych plików Wnioski I Wobec niedoskonałości metod przechowywania danych cyfrowych monitorowanie jest niezbędne I Jest ono potrzebne także ze względu na wymogi certyfikacji IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 8/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie danych cyfrowych (bitstream preservation) Efektywność ekonomiczna I Tzw. archiwum głębokie I I I I dostęp na zamówienie (off-line), a nie na żądanie z oszacowaniem czasu dostawy „Inteligentne” wyłączanie urządzeń pamięciowych (serwerów) Optymalizacja okresów dostępu do poszczególnych obszarów danych w celu minimalizacji zużycia energii Wnioski I Archiwum dyskowe bez zarządzania energią generuje nieakceptowalne koszty I Efektywne zarządzanie energią wymaga dość wyrafinowanego harmonogramowania – jest to wyzwanie nawet dla doświadczonych specjalistów IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 9/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie treści (content preservation) Integralność i autentyczność informacji I Przechowywanie zasobów łącznie z metadanymi I I Kopia wybranych metadanych w bazie danych archiwum I I metadane w archiwum zapisane w XML – możliwość poprawnej interpretacji po latach możliwość wykorzystania różnych standardów, także jeszcze nieistniejących Mechanizmy sprawdzania integralności I I I zgodności zawartości pakietu z zadeklarowaną niezmienności zapisu (skróty cyfrowe) zgodności formatu plików z zadeklarowanym Wnioski I Przechowywanie metadanych w archiwum (i przynajmniej ograniczona ich obsługa) jest niezbędne dla prawidłowego przechowywania treści IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 10/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie treści (content preservation) Integralność i autentyczność informacji, c.d. I I Dostawca powinien przygotować metadane pakietu SIP, zawierające deklaracje weryfikowane przez archiwum Metadane są dostarczane z użyciem uzgodnionych standardów I I I w CREDO przyjęto na razie ograniczoną wersję METS możliwe jest użycie innych standardów, np. XFDU W projekcie nie podejmowano problemu podpisów elektronicznych I I konserwacja podpisów wymaga zmian w podpisanych zasobach archiwizacja z systemów EZD może wymagać rozwiązania problemu Wnioski I Proces przyjmowania informacji powinien być oparty na jasno określonych obowiązkach dostawców i archiwum I Ścisłe procedury i stosowanie standardów sprzyjają sprawnemu przyjmowaniu przez archiwum dużych ilości informacji I Ścisłe procedury ułatwią rozstrzyganie ewentualnych sporów dotyczących integralności informacji IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 11/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie treści (content preservation) Dostępność informacji I Interpretowalność zasobu po latach – środki w CREDO I możliwość ograniczenia dopuszczalnych formatów I I I sprawdzanie formatu oparte na rejestrze PRONOM i związanym z nim programie DROID użyto typów MIME i identyfikatorów PRONOM (dokładniejszych) możliwość powiązania zasobów z dokumentacją formatów, także przechowywaną w archiwum Wnioski I W archiwum długoterminowym mającym zapewnić przechowywanie treści (content preservation) można akceptować jedynie niektóre formaty danych I Szczególnie godne polecenia są formaty tekstowe, np. XML I Dla wybranych formatów warto przechowywać ich dokumentację Nie wiadomo, czy użycie „obcego” rejestru formatów jest bezpieczne w dłuższym okresie I IAiIS PW – GP & TT Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 12/15 Doświadczenia płynące z projektu CREDO Co udało się zrobić Przechowywanie treści (content preservation) Dostępność informacji, c.d. I Możliwość odnalezienia zasobu: wyszukiwanie w bazie danych I I I I różnorodne, współistniejące identyfikatory zasobów (DOI, URI itp.) metadane opisowe „zrzutowane” do Dublin Core możliwość pozyskania do b.d. tzw. metadanych zagłębionych wyszukiwanie w XML za pomocą języka XQuery Wnioski I Trzeba zapewnić możliwość skutecznego wyszukiwania zasobów I Szczegółowa interpretacja metadanych nie jest jednak zadaniem archiwum długoterminowego I Podstawowe metadane warto pozyskać do bazy danych w celu efektywnego wyszukiwania Pozostałe metadane można przechować w bazie danych w XML, co także umożliwia wyszukiwanie I I IAiIS PW – GP & TT w szczególności metadane zagłębione trudno sprowadzić do ujednoliconej prostej postaci Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 13/15 Doświadczenia płynące z projektu CREDO Czego się nie udało zrobić Czego się nie udało zrobić I I Zweryfikować założeń projektu z rzeczywistymi przyszłymi użytkownikami Przetestować archiwum I I na znaczącej wielkości prawdziwych danych na w miarę długim horyzoncie czasowym I Wypracować sensownego modelu współdziałania strony naukowo-badawczej z przedsiębiorstwem I Obecnie obowiązujący (i stale pogłębiany!) model finansowania badań stosowanych należy ocenić jako zupełnie nieudany W przedsięwzięciach tego typu partnerem Uczelni I I I IAiIS PW – GP & TT nie powinien być przedsiębiorca – ewentualny przyszły sprzedawca wyników powinny być podmioty bezpośrednio zainteresowane zastosowaniem wyniku prac – i to one powinny otrzymać finansowanie Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 14/15 Doświadczenia płynące z projektu CREDO Podsumowanie Podsumowanie I Projekt CREDO pozwolił stworzyć działające archiwum cyfrowe I I I I I I o znacznej pojemności zgodne z OAIS i zdatne do certyfikacji zapewniające wysoką niezawodność przechowywania mogące korzystać z różnych nośników efektywne energetycznie z dużymi możliwościami dalszego rozwoju i dostosowywania I I I do potrzeb użytkowników do zmian wynikających z upływu czasu, np. postępu technologii Doświadczenia z projektu mogą być wykorzystane w dalszych i nowych pracach I IAiIS PW – GP & TT szczególnie potrzebna jest współpraca z faktycznymi użytkownikami archiwów cyfrowych Zachowanie cyfrowego dziedzictwa archiwalnego – Kraków 2016 15/15