GET THAT PROTEIN!
Eller
TDDB77
Databaser och bioinformatik
http://www.ida.liu.se/~TDDB77
1
Lärare
Examinator: Patrick Lambrix
FÖ: Patrick, Pawel Pietrzak
LA: Pawel, Sandra Nore
projekt: Pawel, Sandra, Patrick
databasadministration: Almut Herzog
kursadministration: Annika Falk
studierektor: Patrick Lambrix
2
Kurslitteratur
• Elmasri, Navathe, Fundamentals of
Database Systems, 3rd edition, Addison
Wesley, 2000.
• Artiklar
• Labkompendium: Databases, ADIT-2,
version spring 2004 (Bokakademin
Kårallen)
3
Databaser
• Ett (av flera) sätt att lagra data i elektronisk
format
• Används i det vardagliga livet: bank,
bokning av hotel eller resa, sökning i
biblioteket, handla
• nya tillämpningar: multimediadatabaser,
geografiska informationssystem,
realtiddatabaser
4
Databaser
• databashanteringssystem (DBMS): en
uppsättning program som tillåter en
användare att skapa och underhålla en
databas
• databassystem = databas +
databashanteringssystem
5
Bioinformatik
• Bioinformatics is the application of
computer technology to the management of
biological information. Computers are used
to gather, store, analyze and integrate
biological and genetic information which
can then be applied to gene-based drug
discovery and development.
(http://www.bioplanet.com/)
6
Bioinformatik
• Kända sekvenser samlas i en stor databas.
Insamlande och studier av sekvenser och
jämförelser av sekvensernas uppbyggnad i
olika organismer kallas bioinformatik.
Forskningen inom bioinformatik är
beroende av avancerad datalogi och
matematik. (forksningsrådens
strategidokument 2000)
7
Bioinformatik
• Inom bioinformatiken utvecklas
datavetenskapliga metoder och
programvaror som används vid analys av
biologisk data. (programmet för
bioinformatik, Skövde)
8
Bioinformatik
Ämnen på ISMB2001:
• protein structure and modeling
• sequence motifs, alignments and families
• networks and modeling
• gene structure, regulation and modeling
• sequence and phylogeny
• databases, information and knowledge
management
9
TDDB77 Databaser och
Bioinformatik
• Denna kurs: fokus på biologiska databanker
10
Relation med andra kurser inom
TB-programmet:
- förkunskaper: molekylärbiologi,
programmering
- TFTB23, bioinformatik - översikt och
tillämpningar
- TDDC12, datavetenskapliga och
matematiska metoder i bioinformatik
- TFTB17, projekt molekylär bioteknik
11
Biologiska databanker
• biologisk data i elektronisk format
• exempel: SWISS-PROT, EMBL, DDBJ,
PDB, GENBANK, KEGG, ACEDB
• används dagligen i forskningen
12
Biologiska databanker
Forskningsresultat
Databanksystem
Modell
Databankhanteringssystem
Frågor
Svar
behandling av
frågor/uppdateringar
Access till lagrad data
Fysiska
databanken
13
Frågeställningar
• Vilken information lagrar man?
• Hur lagras informationen? (hög och låg nivå)
• Hur accessar man informationen?
(användarnivå, systemnivå)
• Hur återställer man en databank efter crash?
• Hur kan flera användare accessa och
uppdatera informationen samtidigt?
• Hur kan man accessa informationen i flera
databanker samtidigt?
14
Personer
•
•
•
•
databankadministratör
databankdesigner
användare (’end user’)
programmerare av tillämpningar
• DBMS designer
• utvecklare av verktyg
• operator, underhåll
15
1 tgctacccgc gcccgggctt ctggggtgtt ccccaaccac ggcccagccc tgccacaccc
61 cccgcccccg gcctccgcag ctcggcatgg gcgcgggggt gctcgtcctg ggcgcctccg
121 agcccggtaa cctgtcgtcg gccgcaccgc tccccgacgg cgcggccacc gcggcgcggc
181 tgctggtgcc cgcgtcgccg cccgcctcgt tgctgcctcc cgccagcgaa agccccgagc
241 cgctgtctca gcagtggaca gcgggcatgg gtctgctgat ggcgctcatc gtgctgctca
301 tcgtggcggg caatgtgctg gtgatcgtgg ccatcgccaa gacgccgcgg ctgcagacgc
361 tcaccaacct cttcatcatg tccctggcca gcgccgacct ggtcatgggg ctgctggtgg
421 tgccgttcgg ggccaccatc gtggtgtggg gccgctggga gtacggctcc ttcttctgcg
481 agctgtggac ctcagtggac gtgctgtgcg tgacggccag catcgagacc ctgtgtgtca
541 ttgccctgga ccgctacctc gccatcacct cgcccttccg ctaccagagc ctgctgacgc
601 gcgcgcgggc gcggggcctc gtgtgcaccg tgtgggccat ctcggccctg gtgtccttcc
661 tgcccatcct catgcactgg tggcgggcgg agagcgacga ggcgcgccgc tgctacaacg
721 accccaagtg ctgcgacttc gtcaccaacc gggcctacgc catcgcctcg tccgtagtct
781 ccttctacgt gcccctgtgc atcatggcct tcgtgtacct gcgggtgttc cgcgaggccc
841 agaagcaggt gaagaagatc gacagctgcg agcgccgttt cctcggcggc ccagcgcggc
901 cgccctcgcc ctcgccctcg cccgtccccg cgcccgcgcc gccgcccgga cccccgcgcc
961 ccgccgccgc cgccgccacc gccccgctgg ccaacgggcg tgcgggtaag cggcggccct
1021 cgcgcctcgt ggccctacgc gagcagaagg cgctcaagac gctgggcatc atcatgggcg
1081 tcttcacgct ctgctggctg cccttcttcc tggccaacgt ggtgaaggcc ttccaccgcg
1141 agctggtgcc cgaccgcctc ttcgtcttct tcaactggct gggctacgcc aactcggcct
1201 tcaaccccat catctactgc cgcagccccg acttccgcaa ggccttccag ggactgctct
1261 gctgcgcgcg cagggctgcc cgccggcgcc acgcgaccca cggagaccgg ccgcgcgcct
1321 cgggctgtct ggcccggccc ggacccccgc catcgcccgg ggccgcctcg gacgacgacg
1381 acgacgatgt cgtcggggcc acgccgcccg cgcgcctgct ggagccctgg gccggctgca
1441 acggcggggc ggcggcggac agcgactcga gcctggacga gccgtgccgc cccggcttcg
1501 cctcggaatc caaggtgtag ggcccggcgc ggggcgcgga ctccgggcac ggcttcccag
1561 gggaacgagg agatctgtgt ttacttaaga ccgatagcag gtgaactcga agcccacaat
1621 cctcgtctga atcatccgag gcaaagagaa aagccacgga ccgttgcaca aaaaggaaag
1681 tttgggaagg gatgggagag tggcttgctg atgttccttg ttg
16
DEFINITION
ACCESSION
SOURCE ORGANISM
REFERENCE
AUTHORS
TITLE
REFERENCE
AUTHORS
TITLE
Homo sapiens adrenergic, beta-1-, receptor
NM_000684
human
1
Frielle, Collins, Daniel, Caron, Lefkowitz,
Kobilka
Cloning of the cDNA for the human
beta 1-adrenergic receptor
2
Frielle, Kobilka, Lefkowitz, Caron
Human beta 1- and beta 2-adrenergic
receptors: structurally and functionally
related receptors derived from distinct
genes
17
Vilken information lagrar man?
• Model av verkligheten
- Entity-Relationship modell (ER)
- Unified Modeling Language (UML)
18
Entity-Relationship
•
•
•
•
•
entiteter och attribut
entitetstyper
nyckelattribut
relationer
kardinalitetsvillkor
19
Entity-relationship
protein-id
source
PROTEIN
accession
m
definition
Reference
n
title
article-id
ARTICLE
author
20
Hur lagras informationen?
(hög nivå)
Hur accessar man informationen?
(användarnivå)
•
•
•
•
Text (IR)
Semistrukturerad data
Datamodeller (DB)
Regler + Fakta (KB)
struktur
precision
21
Text - Information Retrieval
• sökning baseras på ord
• konceptuella modeller:
boolesk, vektor, probabilistisk, …
• filmodell:
flat fil, inverterad fil, ...
22
IR - Filmodell: inverterad fil
inverterad fil
anslagningsfil
WORD
HITS
LINK
…
…
…
adrenergic
32
…
…
cloning
…
receptor
22
…
…
…
DOCUMENTS
…
Doc1
…
Doc2
1
…
53
…
DOC# LINK
dokumentfil
…
…
5
…
1
2
…
5
…
…
23
Vektormodellen (förenklad)
Doc1 (1,1,0)
Doc2 (0,1,0)
cloning
Q (1,1,1)
adrenergic
sim(d,q) = d . q
|d| x |q|
receptor
24
Databaser
• Relationsdatabaser:
- modell: tabeller + relationsalgebran
- frågespråk (SQL)
• Objektorienterade databaser:
- modell: fortlevande objekt,
meddelande, inkapsling, ärvning
- frågespråk (t.ex. OQL)
• System: GDB (R), ACEDB (OO)
25
Relationsdatabaser
PROTEIN
REFERENCE
PROTEIN-ID
1
ACCESSION
DEFINITION
SOURCE
PROTEIN-ID
ARTICLE-ID
NM_000684
Homo sapiens
adrenergic,
beta-1-, receptor
human
1
1
1
2
ARTICLE
ARTICLE-ID
1
1
1
1
1
1
2
2
2
2
AUTHOR
Frielle
Collins
Daniel
Caron
Lefkowitz
Kobilka
Frielle
Kobilka
Lefkowitz
Caron
TITLE
Cloning of the cDNA for the human ….
Cloning of the cDNA for the human ….
Cloning of the cDNA for the human ….
Cloning of the cDNA for the human ….
Cloning of the cDNA for the human ….
Cloning of the cDNA for the human ….
Human beta 1- and beta 2-adrenergic receptors
Human beta 1- and beta 2-adrenergic receptors
Human beta 1- and beta 2-adrenergic receptors
Human beta 1- and beta 2-adrenergic receptors
26
Relationsdatabaser
PROTEIN
REFERENCE
PROTEIN-ID
1
ACCESSION
DEFINITION
SOURCE
PROTEIN-ID
ARTICLE-ID
NM_000684
Homo sapiens
adrenergic,
beta-1-, receptor
human
1
1
1
2
ARTICLE-AUTHOR
ARTICLE-ID
1
1
1
1
1
1
2
2
2
2
ARTICLE-TITLE
AUTHOR
Frielle
Collins
Daniel
Caron
Lefkowitz
Kobilka
Frielle
Kobilka
Lefkowitz
Caron
ARTICLE-ID
TITLE
1
Cloning of the cDNA for the human
beta 1-adrenergic receptor
2
Human beta 1- and beta 2adrenergic receptors: structurally
and functionally related
receptors derived from distinct
genes
27
SQL
select source
from protein
where accession = NM_000684;
PROTEIN
PROTEIN-ID
1
ACCESSION
DEFINITION
SOURCE
NM_000684
Homo sapiens
adrenergic,
beta-1-, receptor
human
28
SQL
select title
from protein, article-title, reference
where protein.accession = NM_000684
and protein.protein-id
= reference.protein-id
and reference.article-id
= article-title.article-id;
PROTEIN
PROTEIN-ID
1
REFERENCE
PROTEIN-ID
ARTICLE-ID
1
1
1
2
ARTICLE-TITLE
ACCESSION
DEFINITION
SOURCE
NM_000684
Homo sapiens
adrenergic,
beta-1-, receptor
human
ARTICLE-ID
TITLE
1
Cloning of the …
2
Human beta 1- …
29
Hur lagras informationen?
(låg nivå)
Forskningsresultat
Databanksystem
Modell
Databankhanteringssystem
Frågor
Svar
behandling av
frågor/uppdateringar
Access till lagrad data
Fysiska
databanken
30
31
Hur accessar man informationen?
(systemnivå)
Forskningsresultat
Databanksystem
Modell
Databankhanteringssystem
Frågor
Svar
behandling av
frågor/uppdateringar
Access till lagrad data
Fysiska
databanken
32
Hur återställer man en databank
efter crash?
Återställning vid
• datorstop (system crash)
• systemfel
• samtidighetsfel (flera användare)
• skivfel
• katastrofer
33
Hur kan flera användare accessa
och uppdatera informationen
samtidigt?
Forskningsresultat
Databanksystem
Modell
Databankhanteringssystem
behandling av
frågor/uppdateringar
Access till lagrad data
Fysiska
databanken
34
Flera användare
Administratör 1
TID
Administratör 2
Read(Antal-proteiner)
Antal-proteiner =
Antal-proteiner + 30
Read(Antal-proteiner)
Antal-proteiner =
Antal-proteiner + 25
Write(Antal-proteiner)
Write(Antal-proteiner)
35
Hur kan man accessa
informationen i flera databanker
samtidigt?
query
36
query
Answer1
Answer2
Answer3
Sub-query1
Sub-query1
Sub-query1
Answer1
Answer2
Answer3
Answer1
Answer2
Answer3
37
query
Answer1
Answer2
Answer3
Answer1.1
Answer1.2
Sub-query2(answer1)
Answer1.1
Sub-query2(answer1)
Answer1.2
Sub-query2(answer1)
Answer1.1
Answer1.2
38
query
Answer1
Answer2
Answer3
Answer1.1
Answer1.2
Answer2.1
Answer2.2
Sub-query2(answer2)
Answer2.1
Sub-query2(answer2)
Answer2.2
Sub-query2(answer2)
Answer2.1
Answer2.2
39
query
Answer1
Answer2
Answer3
Answer1.1
Answer1.2
Answer2.1
Answer2.2
Answer3.1
Sub-query2(answer3)
Answer3.1
Sub-query2(answer3)
Sub-query2(answer3)
Answer3.1
40
result
query
Answer1
Answer2
Answer3
Answer1.1
Answer1.2
Answer2.1
Answer2.2
Answer3.1
Answer.a
Answer.b
Answer.c
Answer.d
Answer.e
Answer.f
Subquery3(Answer1.1,Answer1.2,
Answer.a
Answer2.1,Answer2.2,Answer3.1)
Answer.b
Answer.c
Answer.d
Subquery3(Answer1.1,Answer1.2,
Answer.e
Answer2.1,Answer2.2,Answer3.1)
Answer.f
41
Kursöversikt - FÖ
•
•
•
•
Introduktion
Relationsdatabaser och SQL
Datamodellering, ER/EER diagram
Att gå från ER diagram till
relationsscheman
42
Kursöversikt - FÖ
•
•
•
•
•
Normalisering
Datastrukturer för databaser (2)
Transaktioner och samtidighet
Databasåterställning
Information retrieval, semistrukturerad data,
objektorienterade databaser
• Ontologier, integrering av databaser
43
Kursöversikt - LA+projekt
• Lab1: SQL
• Lab2: Databasdesign och ER modelering
• Projekt i bioinformatik
genomdatabas
proteindatabas
enzymdatabas
databas för biologiska reglersystem
44
Kursöversikt - LA+projekt
• Rapporteringsdeadline vid varje
tentatillfälle
• behövs ett särskillt databaskonto
--> automatisk vid registrering på kursen
databaskontona tas bort efter 1 år
• anmälan till laborationer via kurshemsidan
• skrivarkvota: 250 ’impressions’
45
Examination
• skriftlig tenta
• labserie
• projekt
46
47