Bazy danych - Politechnika Wrocławska
Transkrypt
Bazy danych - Politechnika Wrocławska
10/23/2013 Politechnika Wrocławska Politechnika Wrocławska Bazy danych molekularnych Kartotekowa (prosta) baza danych (ang. flat-file) Bazy danych Human Genome Project Genome Projects: http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Politechnika Wrocławska Politechnika Wrocławska Bazy danych molekularnych Relacyjna baza danych Extended Markup Language (XML) Odczyt i przetwarzanie – języki: XQUERY XSLT KaŜda tabela jest podłączona do co najmniej jednej innej poprzez współdzielone pole - klucz Politechnika Wrocławska Politechnika Wrocławska Jak kodujemy rodzaje relacji oraz terminologię: Ontologie Gene Ontology (GO), rys. Pesquita C, PLOS 2009 Utrzymywanie jakości danych w bazach i hurtowniach danych Dane powinny być: -potwierdzone -nieredundatne (nienadmiarowe) -spójne Metody: -automatyczne (szybkie) -ręczne, ang. human curation, (wiarygodne, kosztowne, wolne). Tę informację zawsze trzeba sprawdzić – jest podana ! 1 10/23/2013 Politechnika Wrocławska Politechnika Wrocławska Gdzie najlepiej szukać danych ogólnych? NCBI (przy NIH, USA) National Center for Biotechnology Information od 1988 http://www.ncbi.nlm.nih.gov/ NCBI (NIH, USA) EMBL-EBI (UK) Ameryka Europa DDBJ (Japonia) Azja International Nucleotide Sequence Database Collaboration (INSDC) –1988 r. Pierwsze określenie formatu elektronicznego i przepisanie na niego z nośników papierowych. http://insdc.org/ Politechnika Wrocławska Politechnika Wrocławska Bazy danych NCBI EMBL -EBI Pierwsza baza danych DNA – EMBL (Heidelberg (1982) European Molecular Biology Laboratory EMBL- EBI European Bioinformatics Institute (EBI), 1995, UK Dwie bazy danych : -sekwencje nukleotydowe (EMBL-Bank) sekwencje -białkowe UniProt, 2003 r (UniProt/Swiss-Prot doświadczalne z dokładnna anotacją + UniProt/TrEMBL Translated EMBL) + UniParc (pochodzi z bazy PIR-Protein Information Resource (PIRPSD, Protein Sequence Database ), funkcjonalnie anotowane sekwencje białkowe) Politechnika Wrocławska • GenBank - sekwencje DNA (indywidualne laboratoria, European Molecular Biology Laboratory (EMBL), DNA Database of Japan (DDBJ), U.S. Patent and Trademark Office RefSeq - nieredundantny zbiór referencyjny z GenBank, ulepszony przez ekspertów • Online Mendelian Inheritance in Man (OMIM) – baza fenotypów (chorobowych) dla Human Genome Project • Molecular Modeling Database (MMDB) – struktury 3D białek • Unique Human Gene Sequence Collection (UniGene), • Gene Map of the Human Genome, • Taxonomy Browser, • Cancer Genome Anatomy Project (CGAP), wspólnie z National Cancer Institute. • PubMed i PubMedCentral (PMC)– publikacje z bazy Medline i współpracujących czasopism (u źródła lub z NCBI) Politechnika Wrocławska Serwisy i narzędzia NCBI Formaty danych molekularnych. Zapis do pliku •Entrez – system przeszukiwania baz danych NCBI •BLAST (Basic Local Alignment Search Tool) – przeszukiwanie podobieństwa sekwencji (w DNA/RNA, białkach) w celu identyfikacji genów, pokrewieństw, linii dziedziczenia. Wersje (do wybranych zastosowań, np. tylko białka): PSI-BLAST (Position Sensitive Iterated BLAST) – lepsza dokł., PHI-BLAST, BLAST2sequences •Open Reading Frame Finder (ORF Finder) przykład-link •Electronic PCR, •Sequin and BankIt – serwis składowania sekwencji •……………………………….. SEND Wszystkie narzędzia i bazy danych NCBI są dostępne poprzez www oraz ftp 2 10/23/2013 Politechnika Wrocławska Politechnika Wrocławska GBFF - GeneBank ( lub GenePept) FlatFile GB FF (*.gb – nukleotydy, *.gp-białka) podzielony jest na 3 części: • nagłówek (rozmaite) – deskryptory całego pliku • cechy (FEATURES) – anotacje pliku • sekwencja nukleotydowa (ORIGIN) • // zakończenie pliku Wybrane cechy nagłówka LOCUS - pozostałość historyczna, coraz mniejsze znaczenie DEFINITION – bardzo istotny, dokładny format zaleŜny od typu molekuły KEYWORDS – niechętnie przez NCBI (bo niestandardowe) SOURCE Sam plik jest kartotekowego, ale jego przeglądarka umoŜliwia linki Przykład: sequence.gb Politechnika Wrocławska Identyfikatory sekwencji Accession - odpowiada celowi w bazie Nukleotyd: 1 litera+ 5 cyfr lub 2 litery + 6 cyfr Białko: 3 litery + 5 cyfr Prefiksy ujawniają źródło, np. CY (GeneBank, Genome Project) http://www.ncbi.nlm.nih.gov/Sequin/acc.html gi (GI) – numer przydzielony do kaŜdej sekwencji NCBI (mogą być rózne dla tego samego celu, z róŜnych źródeł). Umieszczony jest w polu: CDS/db_xref (oraz Version)- nukleotydy Version – białka Przykład: ACCESSION CY072557 VERSION CY072557.1 GI:304420244 Politechnika Wrocławska Politechnika Wrocławska Identyfikatory RefSeq Przykład: gi|4557284|ref|NM_000646.1|[4557284] Prefiksy: *M_ (mRNA), *R_ (non-coding transcript), *P_ (protein) Data Element Comment gi "GenBank Identifier", or sequence ID number. "gi|" denotes that the number which follows is a unique sequence id. Any change to the sequence data will result in a new gi number. 4557284 The gi number. ref Indicates that RefSeq is the source database. NM_000646.1 The RefSeq accession and version number. Politechnika Wrocławska FASTA >gi|295236985|gb|CY062036.1| Influenza A virus (A/New York/0259/2009(H1N1)) segment 6, complete sequence ATGAATCCAAACCAAAAGATAATAACCATTGGTTCGGTCTG TATGACAATTGGAATGGCTAACTTAATATTACAAATTGGAA ACATAATCTCAATATGGATTAGCCACTCAATTCAACTTGGG AATCAAAATCAGATTGAAACATGCAATCAAAGCGTCATTAC TTATGAAAACAACACTTGGGTAAATCAGACATATGTTAACA TCAGC gi –kod sekwencji | gb- Accession.ver | DEFINITION z pliku GBFF EMBL -EBI (na ćwiczeniach) Pierwsza baza danych DNA – EMBL (Heidelberg (1982) European Molecular Biology Laboratory EMBL- EBI European Bioinformatics Institute (EBI), 1995, UK Dwie bazy danych : -sekwencje nukleotydowe (EMBL-Bank) sekwencje -białkowe UniProt, 2003 r (UniProt/Swiss-Prot doświadczalne z dokładnna anotacją + UniProt/TrEMBL Translated EMBL) + UniParc (pochodzi z bazy PIR-Protein Information Resource (PIRPSD, Protein Sequence Database ), funkcjonalnie anotowane sekwencje białkowe) 3 10/23/2013 Politechnika Wrocławska Politechnika Wrocławska Pełny genom znamy dla: Wzrost liczby danych do analizy http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html źródło: GenBank http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html Źródło: Wikipedia- Protein Structure Initiative Politechnika Wrocławska Podsumowanie 4