GET THAT PROTEIN! Eller TDDB77 Databaser och bioinformatik http://www.ida.liu.se/~TDDB77 1 Lärare Examinator: Patrick Lambrix FÖ: Patrick, Pawel Pietrzak LA: Pawel, Sandra Nore projekt: Pawel, Sandra, Patrick databasadministration: Almut Herzog kursadministration: Annika Falk studierektor: Patrick Lambrix 2 Kurslitteratur • Elmasri, Navathe, Fundamentals of Database Systems, 3rd edition, Addison Wesley, 2000. • Artiklar • Labkompendium: Databases, ADIT-2, version spring 2004 (Bokakademin Kårallen) 3 Databaser • Ett (av flera) sätt att lagra data i elektronisk format • Används i det vardagliga livet: bank, bokning av hotel eller resa, sökning i biblioteket, handla • nya tillämpningar: multimediadatabaser, geografiska informationssystem, realtiddatabaser 4 Databaser • databashanteringssystem (DBMS): en uppsättning program som tillåter en användare att skapa och underhålla en databas • databassystem = databas + databashanteringssystem 5 Bioinformatik • Bioinformatics is the application of computer technology to the management of biological information. Computers are used to gather, store, analyze and integrate biological and genetic information which can then be applied to gene-based drug discovery and development. (http://www.bioplanet.com/) 6 Bioinformatik • Kända sekvenser samlas i en stor databas. Insamlande och studier av sekvenser och jämförelser av sekvensernas uppbyggnad i olika organismer kallas bioinformatik. Forskningen inom bioinformatik är beroende av avancerad datalogi och matematik. (forksningsrådens strategidokument 2000) 7 Bioinformatik • Inom bioinformatiken utvecklas datavetenskapliga metoder och programvaror som används vid analys av biologisk data. (programmet för bioinformatik, Skövde) 8 Bioinformatik Ämnen på ISMB2001: • protein structure and modeling • sequence motifs, alignments and families • networks and modeling • gene structure, regulation and modeling • sequence and phylogeny • databases, information and knowledge management 9 TDDB77 Databaser och Bioinformatik • Denna kurs: fokus på biologiska databanker 10 Relation med andra kurser inom TB-programmet: - förkunskaper: molekylärbiologi, programmering - TFTB23, bioinformatik - översikt och tillämpningar - TDDC12, datavetenskapliga och matematiska metoder i bioinformatik - TFTB17, projekt molekylär bioteknik 11 Biologiska databanker • biologisk data i elektronisk format • exempel: SWISS-PROT, EMBL, DDBJ, PDB, GENBANK, KEGG, ACEDB • används dagligen i forskningen 12 Biologiska databanker Forskningsresultat Databanksystem Modell Databankhanteringssystem Frågor Svar behandling av frågor/uppdateringar Access till lagrad data Fysiska databanken 13 Frågeställningar • Vilken information lagrar man? • Hur lagras informationen? (hög och låg nivå) • Hur accessar man informationen? (användarnivå, systemnivå) • Hur återställer man en databank efter crash? • Hur kan flera användare accessa och uppdatera informationen samtidigt? • Hur kan man accessa informationen i flera databanker samtidigt? 14 Personer • • • • databankadministratör databankdesigner användare (’end user’) programmerare av tillämpningar • DBMS designer • utvecklare av verktyg • operator, underhåll 15 1 tgctacccgc gcccgggctt ctggggtgtt ccccaaccac ggcccagccc tgccacaccc 61 cccgcccccg gcctccgcag ctcggcatgg gcgcgggggt gctcgtcctg ggcgcctccg 121 agcccggtaa cctgtcgtcg gccgcaccgc tccccgacgg cgcggccacc gcggcgcggc 181 tgctggtgcc cgcgtcgccg cccgcctcgt tgctgcctcc cgccagcgaa agccccgagc 241 cgctgtctca gcagtggaca gcgggcatgg gtctgctgat ggcgctcatc gtgctgctca 301 tcgtggcggg caatgtgctg gtgatcgtgg ccatcgccaa gacgccgcgg ctgcagacgc 361 tcaccaacct cttcatcatg tccctggcca gcgccgacct ggtcatgggg ctgctggtgg 421 tgccgttcgg ggccaccatc gtggtgtggg gccgctggga gtacggctcc ttcttctgcg 481 agctgtggac ctcagtggac gtgctgtgcg tgacggccag catcgagacc ctgtgtgtca 541 ttgccctgga ccgctacctc gccatcacct cgcccttccg ctaccagagc ctgctgacgc 601 gcgcgcgggc gcggggcctc gtgtgcaccg tgtgggccat ctcggccctg gtgtccttcc 661 tgcccatcct catgcactgg tggcgggcgg agagcgacga ggcgcgccgc tgctacaacg 721 accccaagtg ctgcgacttc gtcaccaacc gggcctacgc catcgcctcg tccgtagtct 781 ccttctacgt gcccctgtgc atcatggcct tcgtgtacct gcgggtgttc cgcgaggccc 841 agaagcaggt gaagaagatc gacagctgcg agcgccgttt cctcggcggc ccagcgcggc 901 cgccctcgcc ctcgccctcg cccgtccccg cgcccgcgcc gccgcccgga cccccgcgcc 961 ccgccgccgc cgccgccacc gccccgctgg ccaacgggcg tgcgggtaag cggcggccct 1021 cgcgcctcgt ggccctacgc gagcagaagg cgctcaagac gctgggcatc atcatgggcg 1081 tcttcacgct ctgctggctg cccttcttcc tggccaacgt ggtgaaggcc ttccaccgcg 1141 agctggtgcc cgaccgcctc ttcgtcttct tcaactggct gggctacgcc aactcggcct 1201 tcaaccccat catctactgc cgcagccccg acttccgcaa ggccttccag ggactgctct 1261 gctgcgcgcg cagggctgcc cgccggcgcc acgcgaccca cggagaccgg ccgcgcgcct 1321 cgggctgtct ggcccggccc ggacccccgc catcgcccgg ggccgcctcg gacgacgacg 1381 acgacgatgt cgtcggggcc acgccgcccg cgcgcctgct ggagccctgg gccggctgca 1441 acggcggggc ggcggcggac agcgactcga gcctggacga gccgtgccgc cccggcttcg 1501 cctcggaatc caaggtgtag ggcccggcgc ggggcgcgga ctccgggcac ggcttcccag 1561 gggaacgagg agatctgtgt ttacttaaga ccgatagcag gtgaactcga agcccacaat 1621 cctcgtctga atcatccgag gcaaagagaa aagccacgga ccgttgcaca aaaaggaaag 1681 tttgggaagg gatgggagag tggcttgctg atgttccttg ttg 16 DEFINITION ACCESSION SOURCE ORGANISM REFERENCE AUTHORS TITLE REFERENCE AUTHORS TITLE Homo sapiens adrenergic, beta-1-, receptor NM_000684 human 1 Frielle, Collins, Daniel, Caron, Lefkowitz, Kobilka Cloning of the cDNA for the human beta 1-adrenergic receptor 2 Frielle, Kobilka, Lefkowitz, Caron Human beta 1- and beta 2-adrenergic receptors: structurally and functionally related receptors derived from distinct genes 17 Vilken information lagrar man? • Model av verkligheten - Entity-Relationship modell (ER) - Unified Modeling Language (UML) 18 Entity-Relationship • • • • • entiteter och attribut entitetstyper nyckelattribut relationer kardinalitetsvillkor 19 Entity-relationship protein-id source PROTEIN accession m definition Reference n title article-id ARTICLE author 20 Hur lagras informationen? (hög nivå) Hur accessar man informationen? (användarnivå) • • • • Text (IR) Semistrukturerad data Datamodeller (DB) Regler + Fakta (KB) struktur precision 21 Text - Information Retrieval • sökning baseras på ord • konceptuella modeller: boolesk, vektor, probabilistisk, … • filmodell: flat fil, inverterad fil, ... 22 IR - Filmodell: inverterad fil inverterad fil anslagningsfil WORD HITS LINK … … … adrenergic 32 … … cloning … receptor 22 … … … DOCUMENTS … Doc1 … Doc2 1 … 53 … DOC# LINK dokumentfil … … 5 … 1 2 … 5 … … 23 Vektormodellen (förenklad) Doc1 (1,1,0) Doc2 (0,1,0) cloning Q (1,1,1) adrenergic sim(d,q) = d . q |d| x |q| receptor 24 Databaser • Relationsdatabaser: - modell: tabeller + relationsalgebran - frågespråk (SQL) • Objektorienterade databaser: - modell: fortlevande objekt, meddelande, inkapsling, ärvning - frågespråk (t.ex. OQL) • System: GDB (R), ACEDB (OO) 25 Relationsdatabaser PROTEIN REFERENCE PROTEIN-ID 1 ACCESSION DEFINITION SOURCE PROTEIN-ID ARTICLE-ID NM_000684 Homo sapiens adrenergic, beta-1-, receptor human 1 1 1 2 ARTICLE ARTICLE-ID 1 1 1 1 1 1 2 2 2 2 AUTHOR Frielle Collins Daniel Caron Lefkowitz Kobilka Frielle Kobilka Lefkowitz Caron TITLE Cloning of the cDNA for the human …. Cloning of the cDNA for the human …. Cloning of the cDNA for the human …. Cloning of the cDNA for the human …. Cloning of the cDNA for the human …. Cloning of the cDNA for the human …. Human beta 1- and beta 2-adrenergic receptors Human beta 1- and beta 2-adrenergic receptors Human beta 1- and beta 2-adrenergic receptors Human beta 1- and beta 2-adrenergic receptors 26 Relationsdatabaser PROTEIN REFERENCE PROTEIN-ID 1 ACCESSION DEFINITION SOURCE PROTEIN-ID ARTICLE-ID NM_000684 Homo sapiens adrenergic, beta-1-, receptor human 1 1 1 2 ARTICLE-AUTHOR ARTICLE-ID 1 1 1 1 1 1 2 2 2 2 ARTICLE-TITLE AUTHOR Frielle Collins Daniel Caron Lefkowitz Kobilka Frielle Kobilka Lefkowitz Caron ARTICLE-ID TITLE 1 Cloning of the cDNA for the human beta 1-adrenergic receptor 2 Human beta 1- and beta 2adrenergic receptors: structurally and functionally related receptors derived from distinct genes 27 SQL select source from protein where accession = NM_000684; PROTEIN PROTEIN-ID 1 ACCESSION DEFINITION SOURCE NM_000684 Homo sapiens adrenergic, beta-1-, receptor human 28 SQL select title from protein, article-title, reference where protein.accession = NM_000684 and protein.protein-id = reference.protein-id and reference.article-id = article-title.article-id; PROTEIN PROTEIN-ID 1 REFERENCE PROTEIN-ID ARTICLE-ID 1 1 1 2 ARTICLE-TITLE ACCESSION DEFINITION SOURCE NM_000684 Homo sapiens adrenergic, beta-1-, receptor human ARTICLE-ID TITLE 1 Cloning of the … 2 Human beta 1- … 29 Hur lagras informationen? (låg nivå) Forskningsresultat Databanksystem Modell Databankhanteringssystem Frågor Svar behandling av frågor/uppdateringar Access till lagrad data Fysiska databanken 30 31 Hur accessar man informationen? (systemnivå) Forskningsresultat Databanksystem Modell Databankhanteringssystem Frågor Svar behandling av frågor/uppdateringar Access till lagrad data Fysiska databanken 32 Hur återställer man en databank efter crash? Återställning vid • datorstop (system crash) • systemfel • samtidighetsfel (flera användare) • skivfel • katastrofer 33 Hur kan flera användare accessa och uppdatera informationen samtidigt? Forskningsresultat Databanksystem Modell Databankhanteringssystem behandling av frågor/uppdateringar Access till lagrad data Fysiska databanken 34 Flera användare Administratör 1 TID Administratör 2 Read(Antal-proteiner) Antal-proteiner = Antal-proteiner + 30 Read(Antal-proteiner) Antal-proteiner = Antal-proteiner + 25 Write(Antal-proteiner) Write(Antal-proteiner) 35 Hur kan man accessa informationen i flera databanker samtidigt? query 36 query Answer1 Answer2 Answer3 Sub-query1 Sub-query1 Sub-query1 Answer1 Answer2 Answer3 Answer1 Answer2 Answer3 37 query Answer1 Answer2 Answer3 Answer1.1 Answer1.2 Sub-query2(answer1) Answer1.1 Sub-query2(answer1) Answer1.2 Sub-query2(answer1) Answer1.1 Answer1.2 38 query Answer1 Answer2 Answer3 Answer1.1 Answer1.2 Answer2.1 Answer2.2 Sub-query2(answer2) Answer2.1 Sub-query2(answer2) Answer2.2 Sub-query2(answer2) Answer2.1 Answer2.2 39 query Answer1 Answer2 Answer3 Answer1.1 Answer1.2 Answer2.1 Answer2.2 Answer3.1 Sub-query2(answer3) Answer3.1 Sub-query2(answer3) Sub-query2(answer3) Answer3.1 40 result query Answer1 Answer2 Answer3 Answer1.1 Answer1.2 Answer2.1 Answer2.2 Answer3.1 Answer.a Answer.b Answer.c Answer.d Answer.e Answer.f Subquery3(Answer1.1,Answer1.2, Answer.a Answer2.1,Answer2.2,Answer3.1) Answer.b Answer.c Answer.d Subquery3(Answer1.1,Answer1.2, Answer.e Answer2.1,Answer2.2,Answer3.1) Answer.f 41 Kursöversikt - FÖ • • • • Introduktion Relationsdatabaser och SQL Datamodellering, ER/EER diagram Att gå från ER diagram till relationsscheman 42 Kursöversikt - FÖ • • • • • Normalisering Datastrukturer för databaser (2) Transaktioner och samtidighet Databasåterställning Information retrieval, semistrukturerad data, objektorienterade databaser • Ontologier, integrering av databaser 43 Kursöversikt - LA+projekt • Lab1: SQL • Lab2: Databasdesign och ER modelering • Projekt i bioinformatik genomdatabas proteindatabas enzymdatabas databas för biologiska reglersystem 44 Kursöversikt - LA+projekt • Rapporteringsdeadline vid varje tentatillfälle • behövs ett särskillt databaskonto --> automatisk vid registrering på kursen databaskontona tas bort efter 1 år • anmälan till laborationer via kurshemsidan • skrivarkvota: 250 ’impressions’ 45 Examination • skriftlig tenta • labserie • projekt 46 47