Proteomics Data Collection (ProDaC)
Transkrypt
Proteomics Data Collection (ProDaC)
Wstęp Proteomics Data Collection Aspekty metodologiczne Proteomics Data Collection (ProDaC): Publishing and Collecting Proteomics Data Sets in Public Repositories Using Standard Formats Anna Dobrowolska Wydział Matematyki i Informatyki Uniwersytetu Jagiellońskiego 13 października 2014 Wstęp Proteomics Data Collection 1 Wstęp 2 Proteomics Data Collection 3 Aspekty metodologiczne Aspekty metodologiczne Wstęp Proteomics Data Collection Aspekty metodologiczne Definicja Proteomika - nauka zajmująca się badaniem białek. Obejmuje analizowanie budowy przestrzennej peptydów oraz mierzenie poziomu złożoności aminokwasów. Wstęp Budowa białek Proteomics Data Collection Aspekty metodologiczne Wstęp Proteomics Data Collection Aspekty metodologiczne Spektrometria mas Dzięki rozwojowi technologii, szczególnie urządzeniom służącym do spektrometrii mas – spektrometrom, ilość uzyskiwanych danych bardzo szybko wzrasta. Spektrometria mas – technika analityczna, polegająca na mierzeniu stosunku masy do ładunku elektrycznego danego jonu. W celu uzyskania pomiaru jonizuje się daną cząsteczkę lub atom, a następne określa ilość jonów w funkcji ich stosunku masy do ładunku. Wynik nazywamy widmem masowym. Wstęp Proteomics Data Collection Aspekty metodologiczne Nadmiar danych Mało danych - mały problem, dużo danych - duży problem... Wstęp Proteomics Data Collection Aspekty metodologiczne Proteomics Standards Initiative Pierwszą próbą utworzenia generycznych standardów formatów danych było powstanie Proteomics Standards Initiative, która jest częścią Human Proteome Organisation. Wprowadziła wytyczne odnośnie minimalnych, niezbędnych informacji na temat badania proteomicznego oraz rozwinęła najważniejsze formaty danych, które spotkały się z szeroką akceptacją w środowisku naukowym m. in. PSIMI. Wstęp Proteomics Data Collection Aspekty metodologiczne Proteomics Data Collection W 2006 roku Komisja Europejska ufundowała zorganizowaną akcję nazwaną Proteomics Data Collection, dzięki której powstała 6 wersja biblioteki programistycznej umożliwiającej gromadzenie, przetwarzanie i udostępnianie badań. Ścisła współpraca ze społecznością naukową zaowocowała ustabilizowaniem sposobu kolekcjonowania, przetwarzania i współdzielenia danych zbieranych podczas badań. Do opracowanych standardów dołączyły zaawansowane narzędzia konwertujące popularne formaty danych z gwarancją bezpieczeństwa, konwersja odbywała się bez narażenia na utratę części danych. Wstęp Proteomics Data Collection Aspekty metodologiczne Proteomics Data Collection Powstał całkowicie nowy system, oparty na spójnych danych, umożliwiający w prosty sposób przeszukiwanie i porównywanie wyników badań. Kolejnym krokiem było opracowanie automatycznej walidacji danych. Scentralizowany system, oprócz norm, określił również sposób pracy z danymi, zaczynając od przygotowania danych, kończąc na ich opracowaniu i publikacji. W celu osiągnięcia założeń ProDaC podzielono pracę konieczną do wykonania na kilka etapów. Każdy z nich jest rozwiązaniem konkretnego problemu. Wstęp Proteomics Data Collection Aspekty metodologiczne Standardy reprezentacji danych Standardy obejmują sposób przechowywania danych na różnych etapach eksperymentu: wynik badania spektrometrem, dane wejściowe oprogramowania przetwarzającego wynik oraz dane przetworzone przez oprogramowanie. Platforma jest na tyle prosta w obsłudze, że publikowanie i utrzymywanie dokumentacji nie jest problematyczną kwestią. Dzięki temu przyjęte standardy PSI zostały szybko rozwinięte i ukończone. Wstęp Proteomics Data Collection Aspekty metodologiczne Realizacja standardów - mzML Wielu dostawców proponuje odmienne narzędzia do pracy z danymi. Standardowym formatem danych w proteomice jest dzisiaj mzML. Format ten jest zaprojektowany w oparciu o XML. Połączono zalety dwóch poprzednich najpopularniejszych formatów: mzData oraz mzXML. Oparcie o XML jest spowodowane łatwością walidacji tego formatu, dzięki istnieniu plików XSD. Pliki XSD wraz z dokumentacją oraz przykładami są opublikowane w Internecie. Wstęp Proteomics Data Collection Aspekty metodologiczne mzML - nagłowek Przykładowy plik formatu mlZML pobrany ze strony: http://www.peptideatlas.org/tmp/mzML1.1.0.html. W podanym źródle znajdują się również szczegółowe opisy podczególnych tagów. 1 < mzML xmlns = " http :// psi . hupo . org / ms / mzml " 2 xmlns : xsi = " http :// www . w3 . org /2001/ XMLSchema instance " 3 xsi : schemaLocation = " http :// psi . hupo . org / ms / mzml http :// psidev . info / files / ms / mzML / xsd / mzML1 .1.0. xsd " 4 id = " urn : lsid : psidev . info : mzML . instanceDocuments . tiny . pwiz " 5 version = " 1.0 " > Wstęp Proteomics Data Collection Aspekty metodologiczne mzML 1 2 3 4 5 6 7 8 9 < cvList count = " 2 " > < cv id = " MS " fullName = " Proteomics Standards Initiative Mass Spectrometry Ontology " version = " 1.18.2 " URI = " http :// psidev . cvs . sourceforge . net /* checkout */ psidev / psi / psi - ms / mzML / c o n trolledVocabulary / psi - ms . obo " / > < cv id = " UO " fullName = " Unit Ontology " version = " 04:03:2009 " URI = " http :// obo . cvs . sourceforge . net /* checkout */ obo / obo / ontology / phenotype / unit . obo "/> </ cvList > < fileDescription > < fileContent > ... </ mzML > Wstęp Proteomics Data Collection Aspekty metodologiczne Walidacja mzML Ze względu na złożoność danych plik XSD nie są jedynym sposobem walidacji poprawności danych. ProDaC zapewnia zestaw walidatorów, umożliwiających sprawdzenie poprawności danych pod kątem spełniania standardów. Kolejne to walidatory semantyczne sprawdzające poprawność danych znajdujących się w tagach. Przykładowo tagi CV odpowiadają za zbiór ściśle określonych słów lub fraz które umożliwiają przyporządkowanie badania do konkretnej kategorii. Walidacja jest początkowym krokiem w mechanizmie uzyskiwania certyfikatu, gwarantującym wysoką jakość danych. Wstęp Proteomics Data Collection Aspekty metodologiczne Walidacja mzML Istnieje biblioteka umożliwiająca pisanie walidatorów dla mzML. Umożliwia łączenie walidacji struktury pliku, dzięki XSD oraz walidacji semantycznej. Jest to otwarte oprogramowanie. Przed jej powstaniem popularnym rozwiązaniem było pisanie walidatorów w oparciu o język Perl. Wykorzystywane narzędzia umożliwiały tylko analizę strukturalną, stąd obecnie wykorzystywane są tylko przez programistów. Współczesne narzędzia opierają się na zbiorze reguł oraz dopuszczalnego słownictwa, wyrażeń. Naukowcy mogą samodzielnie dodawać nowe reguły, bez konieczności modyfikowania kodu źródłowego walidatorów. Dzięki temu specjalistyczna wiedza z zakresu programowania nie jest konieczna do dopasowania walidatora pod konkretne badania. Walidatory są dostępne w Internecie. W wyniku analizy plików badacze uzyskują informację o statusie oraz w przypadku błędów więcej informacji. Wstęp Proteomics Data Collection Aspekty metodologiczne Narzędzia integracyjne Ze względu na to, że nie wszystkie programy przystosowane są do najnowszych standardów niezbędne jest tworzenie narzędzi umożliwiających konwersję danych. Dzięki temu możliwe jest korzystanie z większej ilości repozytoriów danych. Przykładowo repozytorium PRIDE posiada własny format danych, brak konwerterów utrudniałby wymianę wiedzy wśród naukowców. Popularnym konwerterem jest ProCon. Pozwala importować dane z różnych wyszukiwarek i lokalnych baz danych oraz eksportować je w wybranych formatach. Ważną zaletą jest interfejs umożliwiający ręczne rozwiązywanie konfliktów w przypadku kiedy wystąpią. Wstęp Proteomics Data Collection Aspekty metodologiczne Repozytoria danych Bazy danych są bardzo ważnym komponentem systemów zarządzających dużą ilością danych. Każde repozytorium powinno zapewniać: łatwy i szybki dostęp do danych dla naukowców z całego świata, interfejs WWW, obsługę standardowych formatów danych, łatwość publikacji nowych wyników, możliwość rozbudowy o automatyczną interpretację danych, porównywanie danych, nie tylko w obrębie bazy danych, ale również innych źródeł, być rozwiązaniem open source, nie jest to wymagane, ale cenione. Wstęp Proteomics Data Collection Aspekty metodologiczne Repozytoria danych - PRIDE Przykładowym repozytorium spełniającym te wymagania jest Proteomics Identyfication database – PRIDE, utrzymywane na serwerach Europejskiego Instytutu Bioinformatyki. Jest wspierane przez ProDaC. Udostępnianie wyników prowadzonych eksperymentów bez uzyskiwania z tego tytułu korzyści jest dla części naukowców problematyczne. Z tego powodu w tym repozytorium możliwa jest publikacja danych tylko dla wybranych osób, w ten sam sposób działa wzajemne ocenianie prac. Aktualnie, repozytorium wykorzystuje własny format danych PRIDE XML, trwają pracę nad dostosowaniem do nowych standardów mzML. Wstęp Proteomics Data Collection Aspekty metodologiczne Zarządzanie przepływem danych Dla powodzenia projektu ProDaC niezbędne jest zapewnienie optymalnego przepływu danych między platformami przetwarzającymi dane, a repozytoriami. Można wyróżnić dwie ścieżki przepływu danych: związane z plikami - pliki przechowywane są na dyskach twardych komputerów znajdujących się w jednostkach badawczych. Dzięki integracji ze specjalnymi wyszukiwarkami mogą być one rezultatem wyszukiwania. związane z bazami danych - dane przechowywane są w bazach danych, a następnie importowane do centralnego repozytorium PRIDE. Ze względu na różne źródła danych, proces scalania danych powinien obejmować konwersję na odpowiedni format danych. Wstęp Proteomics Data Collection Aspekty metodologiczne Eksploracja danych Z każdego eksperymentu naukowego z biegiem czasu powstaje coraz więcej danych. Wcześniej dane gromadzone były chaotycznie, nie było publicznych repozytoriów danych, ani konkretnych zasad publikacji. Z tego względu wiele eksperymentów było powtarzanych wielokrotnie, tylko i wyłącznie z powodu niewiedzy o tym, że inni badacze już je przeprowadzili. Dzięki takim magazynom danych jak PRIDE możliwa jest nie tylko ochrona uzyskanych wyników, ale również oszczędność czasu i środków naukowców. Uporządkowane dane są dostępne również dla badaczy innych, pokrewnych dziedzin, dzięki czemu dostępna wiedza jest szeroko wykorzystywana. Jakość danych nieustannie wzrasta dzięki systemom wzajemnej oceny, dopiero dane które zostaną zrecenzowane zostają udostępnione publicznie, jeżeli autor tego chce. Publikowanie może ograniczyć się do wybranej grupy osób. Wstęp Proteomics Data Collection Aspekty metodologiczne Struktura ProDaC Ścisła współpraca ze społecznością naukową całego świata spowodowała niewątpliwy sukces całego programu. Aktualnie konsorcjum posiada 12 głównych partnerów oraz 30 powiązanych instytucji. Współpracuje z wieloma grupami m. in. akademickimi, przemysłowymi, naukowymi. Cyklicznie organizowane są spotkania, konferencje oraz dyskusje. Wstęp Proteomics Data Collection Aspekty metodologiczne Podsumowanie ProDaC jest pierwszą inicjatywą ufundowaną przez Komisję Europejską obejmującą wszystkie aspekty standaryzacji w proteomice. Doświadczenie pokazuje, że definiowanie standardów jest procesem długofalowym i żmudnym, ale we współpracy ze środowiskiem naukowym daje bardzo dobre rezultaty. Wstęp Proteomics Data Collection Aspekty metodologiczne Bibliografia S. J. Hubbard, A. R. Jones, Proteome Bioinformatics, Methods in Molecular Biology, Humana Press, 2010 s. 345-369 http://pl.wikipedia.org/wiki/Proteomika http://pl.wikipedia.org/wiki/Spektrometria_mas http://www.fp6-prodac.eu/