Proteomics Data Collection (ProDaC)

Transkrypt

Proteomics Data Collection (ProDaC)
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Proteomics Data Collection (ProDaC): Publishing
and Collecting Proteomics Data Sets in Public
Repositories Using Standard Formats
Anna Dobrowolska
Wydział Matematyki i Informatyki Uniwersytetu Jagiellońskiego
13 października 2014
Wstęp
Proteomics Data Collection
1
Wstęp
2
Proteomics Data Collection
3
Aspekty metodologiczne
Aspekty metodologiczne
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Definicja
Proteomika - nauka zajmująca się badaniem białek. Obejmuje analizowanie budowy przestrzennej peptydów oraz mierzenie poziomu
złożoności aminokwasów.
Wstęp
Budowa białek
Proteomics Data Collection
Aspekty metodologiczne
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Spektrometria mas
Dzięki rozwojowi technologii, szczególnie urządzeniom służącym do
spektrometrii mas – spektrometrom, ilość uzyskiwanych danych bardzo szybko wzrasta. Spektrometria mas – technika analityczna, polegająca na mierzeniu stosunku masy do ładunku elektrycznego danego jonu. W celu uzyskania pomiaru jonizuje się daną cząsteczkę
lub atom, a następne określa ilość jonów w funkcji ich stosunku masy
do ładunku. Wynik nazywamy widmem masowym.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Nadmiar danych
Mało danych - mały problem, dużo danych - duży problem...
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Proteomics Standards Initiative
Pierwszą próbą utworzenia generycznych standardów formatów danych było powstanie Proteomics Standards Initiative, która jest częścią Human Proteome Organisation. Wprowadziła wytyczne odnośnie minimalnych, niezbędnych informacji na temat badania proteomicznego oraz rozwinęła najważniejsze formaty danych, które spotkały się z szeroką akceptacją w środowisku naukowym m. in. PSIMI.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Proteomics Data Collection
W 2006 roku Komisja Europejska ufundowała zorganizowaną akcję nazwaną Proteomics Data Collection, dzięki której powstała 6
wersja biblioteki programistycznej umożliwiającej gromadzenie, przetwarzanie i udostępnianie badań. Ścisła współpraca ze społecznością
naukową zaowocowała ustabilizowaniem sposobu kolekcjonowania,
przetwarzania i współdzielenia danych zbieranych podczas badań.
Do opracowanych standardów dołączyły zaawansowane narzędzia
konwertujące popularne formaty danych z gwarancją bezpieczeństwa, konwersja odbywała się bez narażenia na utratę części danych.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Proteomics Data Collection
Powstał całkowicie nowy system, oparty na spójnych danych, umożliwiający w prosty sposób przeszukiwanie i porównywanie wyników
badań. Kolejnym krokiem było opracowanie automatycznej walidacji
danych. Scentralizowany system, oprócz norm, określił również sposób pracy z danymi, zaczynając od przygotowania danych, kończąc
na ich opracowaniu i publikacji. W celu osiągnięcia założeń ProDaC
podzielono pracę konieczną do wykonania na kilka etapów. Każdy z
nich jest rozwiązaniem konkretnego problemu.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Standardy reprezentacji danych
Standardy obejmują sposób przechowywania danych na różnych etapach eksperymentu: wynik badania spektrometrem, dane wejściowe
oprogramowania przetwarzającego wynik oraz dane przetworzone przez
oprogramowanie. Platforma jest na tyle prosta w obsłudze, że publikowanie i utrzymywanie dokumentacji nie jest problematyczną kwestią. Dzięki temu przyjęte standardy PSI zostały szybko rozwinięte
i ukończone.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Realizacja standardów - mzML
Wielu dostawców proponuje odmienne narzędzia do pracy z danymi.
Standardowym formatem danych w proteomice jest dzisiaj mzML.
Format ten jest zaprojektowany w oparciu o XML. Połączono zalety dwóch poprzednich najpopularniejszych formatów: mzData oraz
mzXML. Oparcie o XML jest spowodowane łatwością walidacji tego
formatu, dzięki istnieniu plików XSD. Pliki XSD wraz z dokumentacją oraz przykładami są opublikowane w Internecie.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
mzML - nagłowek
Przykładowy plik formatu mlZML pobrany ze strony:
http://www.peptideatlas.org/tmp/mzML1.1.0.html.
W podanym źródle znajdują się również szczegółowe opisy podczególnych tagów.
1 < mzML xmlns = " http :// psi . hupo . org / ms / mzml "
2
xmlns : xsi = " http :// www . w3 . org /2001/ XMLSchema instance "
3
xsi : schemaLocation = " http :// psi . hupo . org / ms / mzml
http :// psidev . info / files / ms / mzML / xsd / mzML1 .1.0.
xsd "
4
id = " urn : lsid : psidev . info : mzML . instanceDocuments .
tiny . pwiz "
5
version = " 1.0 " >
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
mzML
1
2
3
4
5
6
7
8
9
< cvList count = " 2 " >
< cv id = " MS " fullName = " Proteomics Standards
Initiative Mass Spectrometry Ontology "
version = " 1.18.2 " URI = " http :// psidev . cvs .
sourceforge . net /* checkout */ psidev / psi / psi - ms /
mzML / c o n trolledVocabulary / psi - ms . obo " / >
< cv id = " UO " fullName = " Unit Ontology " version = "
04:03:2009 " URI = " http :// obo . cvs . sourceforge . net
/* checkout */ obo / obo / ontology / phenotype / unit . obo
"/>
</ cvList >
< fileDescription >
< fileContent >
...
</ mzML >
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Walidacja mzML
Ze względu na złożoność danych plik XSD nie są jedynym sposobem
walidacji poprawności danych. ProDaC zapewnia zestaw walidatorów, umożliwiających sprawdzenie poprawności danych pod kątem
spełniania standardów. Kolejne to walidatory semantyczne sprawdzające poprawność danych znajdujących się w tagach. Przykładowo tagi CV odpowiadają za zbiór ściśle określonych słów lub fraz
które umożliwiają przyporządkowanie badania do konkretnej kategorii. Walidacja jest początkowym krokiem w mechanizmie uzyskiwania certyfikatu, gwarantującym wysoką jakość danych.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Walidacja mzML
Istnieje biblioteka umożliwiająca pisanie walidatorów dla mzML. Umożliwia łączenie walidacji struktury pliku, dzięki XSD oraz walidacji
semantycznej. Jest to otwarte oprogramowanie. Przed jej powstaniem popularnym rozwiązaniem było pisanie walidatorów w oparciu
o język Perl. Wykorzystywane narzędzia umożliwiały tylko analizę
strukturalną, stąd obecnie wykorzystywane są tylko przez programistów. Współczesne narzędzia opierają się na zbiorze reguł oraz
dopuszczalnego słownictwa, wyrażeń. Naukowcy mogą samodzielnie
dodawać nowe reguły, bez konieczności modyfikowania kodu źródłowego walidatorów. Dzięki temu specjalistyczna wiedza z zakresu
programowania nie jest konieczna do dopasowania walidatora pod
konkretne badania. Walidatory są dostępne w Internecie. W wyniku
analizy plików badacze uzyskują informację o statusie oraz w przypadku błędów więcej informacji.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Narzędzia integracyjne
Ze względu na to, że nie wszystkie programy przystosowane są do
najnowszych standardów niezbędne jest tworzenie narzędzi umożliwiających konwersję danych. Dzięki temu możliwe jest korzystanie
z większej ilości repozytoriów danych. Przykładowo repozytorium
PRIDE posiada własny format danych, brak konwerterów utrudniałby wymianę wiedzy wśród naukowców. Popularnym konwerterem
jest ProCon. Pozwala importować dane z różnych wyszukiwarek i
lokalnych baz danych oraz eksportować je w wybranych formatach.
Ważną zaletą jest interfejs umożliwiający ręczne rozwiązywanie konfliktów w przypadku kiedy wystąpią.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Repozytoria danych
Bazy danych są bardzo ważnym komponentem systemów zarządzających dużą ilością danych. Każde repozytorium powinno zapewniać:
łatwy i szybki dostęp do danych dla naukowców z całego świata,
interfejs WWW,
obsługę standardowych formatów danych,
łatwość publikacji nowych wyników,
możliwość rozbudowy o automatyczną interpretację danych,
porównywanie danych, nie tylko w obrębie bazy danych, ale również
innych źródeł,
być rozwiązaniem open source, nie jest to wymagane, ale cenione.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Repozytoria danych - PRIDE
Przykładowym repozytorium spełniającym te wymagania jest Proteomics Identyfication database – PRIDE, utrzymywane na serwerach Europejskiego Instytutu Bioinformatyki. Jest wspierane przez
ProDaC. Udostępnianie wyników prowadzonych eksperymentów bez
uzyskiwania z tego tytułu korzyści jest dla części naukowców problematyczne. Z tego powodu w tym repozytorium możliwa jest publikacja danych tylko dla wybranych osób, w ten sam sposób działa
wzajemne ocenianie prac. Aktualnie, repozytorium wykorzystuje własny format danych PRIDE XML, trwają pracę nad dostosowaniem
do nowych standardów mzML.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Zarządzanie przepływem danych
Dla powodzenia projektu ProDaC niezbędne jest zapewnienie optymalnego przepływu danych między platformami przetwarzającymi
dane, a repozytoriami. Można wyróżnić dwie ścieżki przepływu danych:
związane z plikami - pliki przechowywane są na dyskach twardych
komputerów znajdujących się w jednostkach badawczych. Dzięki integracji ze specjalnymi wyszukiwarkami mogą być one rezultatem wyszukiwania.
związane z bazami danych - dane przechowywane są w bazach danych, a następnie importowane do centralnego repozytorium PRIDE.
Ze względu na różne źródła danych, proces scalania danych powinien
obejmować konwersję na odpowiedni format danych.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Eksploracja danych
Z każdego eksperymentu naukowego z biegiem czasu powstaje coraz więcej danych. Wcześniej dane gromadzone były chaotycznie,
nie było publicznych repozytoriów danych, ani konkretnych zasad
publikacji. Z tego względu wiele eksperymentów było powtarzanych
wielokrotnie, tylko i wyłącznie z powodu niewiedzy o tym, że inni
badacze już je przeprowadzili. Dzięki takim magazynom danych jak
PRIDE możliwa jest nie tylko ochrona uzyskanych wyników, ale również oszczędność czasu i środków naukowców. Uporządkowane dane
są dostępne również dla badaczy innych, pokrewnych dziedzin, dzięki
czemu dostępna wiedza jest szeroko wykorzystywana. Jakość danych nieustannie wzrasta dzięki systemom wzajemnej oceny, dopiero
dane które zostaną zrecenzowane zostają udostępnione publicznie,
jeżeli autor tego chce. Publikowanie może ograniczyć się do wybranej
grupy osób.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Struktura ProDaC
Ścisła współpraca ze społecznością naukową całego świata spowodowała niewątpliwy sukces całego programu. Aktualnie konsorcjum posiada 12 głównych partnerów oraz 30 powiązanych instytucji. Współpracuje z wieloma grupami m. in. akademickimi, przemysłowymi,
naukowymi. Cyklicznie organizowane są spotkania, konferencje oraz
dyskusje.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Podsumowanie
ProDaC jest pierwszą inicjatywą ufundowaną przez Komisję Europejską obejmującą wszystkie aspekty standaryzacji w proteomice.
Doświadczenie pokazuje, że definiowanie standardów jest procesem
długofalowym i żmudnym, ale we współpracy ze środowiskiem naukowym daje bardzo dobre rezultaty.
Wstęp
Proteomics Data Collection
Aspekty metodologiczne
Bibliografia
S. J. Hubbard, A. R. Jones, Proteome Bioinformatics, Methods in
Molecular Biology, Humana Press, 2010 s. 345-369
http://pl.wikipedia.org/wiki/Proteomika
http://pl.wikipedia.org/wiki/Spektrometria_mas
http://www.fp6-prodac.eu/