Bazy danych - Politechnika Wrocławska

Transkrypt

Bazy danych - Politechnika Wrocławska
10/23/2013
Politechnika Wrocławska
Politechnika Wrocławska
Bazy danych molekularnych
Kartotekowa (prosta) baza danych (ang. flat-file)
Bazy danych
Human Genome Project
Genome Projects:
http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html
Politechnika Wrocławska
Politechnika Wrocławska
Bazy danych molekularnych
Relacyjna baza danych
Extended Markup Language (XML)
Odczyt i przetwarzanie – języki:
XQUERY
XSLT
KaŜda tabela jest podłączona do co najmniej jednej innej
poprzez współdzielone pole - klucz
Politechnika Wrocławska
Politechnika Wrocławska
Jak kodujemy rodzaje relacji oraz terminologię:
Ontologie
Gene Ontology (GO), rys. Pesquita C, PLOS 2009
Utrzymywanie jakości danych w bazach i
hurtowniach danych
Dane powinny być:
-potwierdzone
-nieredundatne (nienadmiarowe)
-spójne
Metody:
-automatyczne (szybkie)
-ręczne, ang. human curation,
(wiarygodne, kosztowne,
wolne). Tę informację zawsze
trzeba sprawdzić – jest
podana !
1
10/23/2013
Politechnika Wrocławska
Politechnika Wrocławska
Gdzie najlepiej szukać danych ogólnych?
NCBI (przy NIH, USA)
National Center for Biotechnology Information
od 1988
http://www.ncbi.nlm.nih.gov/
NCBI (NIH, USA)
EMBL-EBI (UK)
Ameryka
Europa
DDBJ (Japonia)
Azja
International Nucleotide Sequence Database Collaboration
(INSDC) –1988 r. Pierwsze określenie formatu elektronicznego i
przepisanie na niego z nośników papierowych.
http://insdc.org/
Politechnika Wrocławska
Politechnika Wrocławska
Bazy danych NCBI
EMBL -EBI
Pierwsza baza danych DNA – EMBL (Heidelberg (1982)
European Molecular Biology Laboratory
EMBL- EBI
European Bioinformatics Institute (EBI), 1995, UK
Dwie bazy danych :
-sekwencje nukleotydowe (EMBL-Bank) sekwencje
-białkowe UniProt, 2003 r (UniProt/Swiss-Prot doświadczalne z
dokładnna anotacją + UniProt/TrEMBL Translated EMBL) +
UniParc (pochodzi z bazy PIR-Protein Information Resource (PIRPSD, Protein Sequence Database ), funkcjonalnie anotowane
sekwencje białkowe)
Politechnika Wrocławska
• GenBank - sekwencje DNA (indywidualne laboratoria, European Molecular
Biology Laboratory (EMBL), DNA Database of Japan (DDBJ), U.S. Patent and
Trademark Office
RefSeq - nieredundantny zbiór referencyjny z GenBank, ulepszony przez ekspertów
• Online Mendelian Inheritance in Man (OMIM) – baza fenotypów
(chorobowych) dla Human Genome Project
• Molecular Modeling Database (MMDB) – struktury 3D białek
• Unique Human Gene Sequence Collection (UniGene),
• Gene Map of the Human Genome,
• Taxonomy Browser,
• Cancer Genome Anatomy Project (CGAP), wspólnie z National Cancer Institute.
• PubMed i PubMedCentral (PMC)– publikacje z bazy Medline i
współpracujących czasopism (u źródła lub z NCBI)
Politechnika Wrocławska
Serwisy i narzędzia NCBI
Formaty danych molekularnych.
Zapis do pliku
•Entrez – system przeszukiwania baz danych NCBI
•BLAST (Basic Local Alignment Search Tool) – przeszukiwanie
podobieństwa sekwencji (w DNA/RNA, białkach) w celu identyfikacji
genów, pokrewieństw, linii dziedziczenia. Wersje (do wybranych
zastosowań, np. tylko białka): PSI-BLAST (Position Sensitive Iterated
BLAST) – lepsza dokł., PHI-BLAST, BLAST2sequences
•Open Reading Frame Finder (ORF Finder)
przykład-link
•Electronic PCR,
•Sequin and BankIt – serwis składowania sekwencji
•………………………………..
SEND
Wszystkie narzędzia i bazy danych NCBI są dostępne poprzez www
oraz ftp
2
10/23/2013
Politechnika Wrocławska
Politechnika Wrocławska
GBFF - GeneBank ( lub GenePept) FlatFile
GB FF (*.gb – nukleotydy, *.gp-białka) podzielony jest na 3 części:
• nagłówek (rozmaite) – deskryptory całego pliku
• cechy (FEATURES) – anotacje pliku
• sekwencja nukleotydowa (ORIGIN)
• // zakończenie pliku
Wybrane cechy nagłówka
LOCUS - pozostałość historyczna, coraz mniejsze znaczenie
DEFINITION – bardzo istotny, dokładny format zaleŜny od typu
molekuły
KEYWORDS – niechętnie przez NCBI (bo niestandardowe)
SOURCE
Sam plik jest kartotekowego, ale jego przeglądarka umoŜliwia linki
Przykład:
sequence.gb
Politechnika Wrocławska
Identyfikatory sekwencji
Accession - odpowiada celowi w bazie
Nukleotyd: 1 litera+ 5 cyfr lub 2 litery + 6 cyfr
Białko: 3 litery + 5 cyfr
Prefiksy ujawniają źródło, np. CY (GeneBank, Genome Project)
http://www.ncbi.nlm.nih.gov/Sequin/acc.html
gi (GI) –
numer przydzielony do kaŜdej sekwencji NCBI
(mogą być rózne dla tego samego celu, z róŜnych źródeł).
Umieszczony jest w polu:
CDS/db_xref (oraz Version)- nukleotydy
Version – białka
Przykład:
ACCESSION CY072557
VERSION CY072557.1 GI:304420244
Politechnika Wrocławska
Politechnika Wrocławska
Identyfikatory RefSeq
Przykład:
gi|4557284|ref|NM_000646.1|[4557284]
Prefiksy: *M_ (mRNA), *R_ (non-coding transcript), *P_ (protein)
Data Element
Comment
gi
"GenBank Identifier", or
sequence ID number. "gi|"
denotes that the number
which follows is a unique
sequence id. Any change to
the sequence data will result
in a new gi number.
4557284
The gi number.
ref
Indicates that RefSeq is the
source database.
NM_000646.1
The RefSeq accession and
version number.
Politechnika Wrocławska
FASTA
>gi|295236985|gb|CY062036.1| Influenza A virus (A/New
York/0259/2009(H1N1)) segment 6, complete sequence
ATGAATCCAAACCAAAAGATAATAACCATTGGTTCGGTCTG
TATGACAATTGGAATGGCTAACTTAATATTACAAATTGGAA
ACATAATCTCAATATGGATTAGCCACTCAATTCAACTTGGG
AATCAAAATCAGATTGAAACATGCAATCAAAGCGTCATTAC
TTATGAAAACAACACTTGGGTAAATCAGACATATGTTAACA
TCAGC
gi –kod sekwencji | gb- Accession.ver | DEFINITION z pliku GBFF
EMBL -EBI (na ćwiczeniach)
Pierwsza baza danych DNA – EMBL (Heidelberg (1982)
European Molecular Biology Laboratory
EMBL- EBI
European Bioinformatics Institute (EBI), 1995, UK
Dwie bazy danych :
-sekwencje nukleotydowe (EMBL-Bank) sekwencje
-białkowe UniProt, 2003 r (UniProt/Swiss-Prot doświadczalne z
dokładnna anotacją + UniProt/TrEMBL Translated EMBL) +
UniParc (pochodzi z bazy PIR-Protein Information Resource (PIRPSD, Protein Sequence Database ), funkcjonalnie anotowane
sekwencje białkowe)
3
10/23/2013
Politechnika Wrocławska
Politechnika Wrocławska
Pełny genom znamy dla:
Wzrost liczby danych do analizy
http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html
źródło: GenBank
http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html
Źródło:
Wikipedia- Protein Structure
Initiative
Politechnika Wrocławska
Podsumowanie
4