No Slide Title - math.chalmers.se

Bioinformatik
Marina Axelson-Fisk
Matematisk orientering, 30 nov 2015
Bioinformatik
Bioinformatik
Var används bioinformatik?
DNA analys
Medicin
•
•
•
•
•
•
•
•
DNA-sekvensering och assemblering
Sekvensanalys
Proteinstruktur och funktion
Expression- och nätverksanalys
Sjukdomsgener
Drug target
Lead compound
Kliniska försök
Grundläggande genetik
Cell
Kärna
Kromosom
DNA
Vad är en gen?
DNA
CCTGAGCCAACTATTGAT
transkription
RNA
CCUGAGCCAACUAUUGAU
translation
Protein
PEPTID
Proteinfunktioner
•
•
•
•
•
•
Enzym – matsmältningssystemet
Strukturella komponenter – senor, ligament
Skydd – antikroppar, blodkoagulering
Regulatoriska hormon – insulin, tillväxtRörelse – aktin, myosin
Transport – hemoglobin, albumin
Sekvenserings-historia
1977: Phi X174 (5’400 bp)
1995: Två mikrober (1.8, 0.6)
1996: Jästsvamp (12)
1997: E. coli (4.6)
1998: C. elegans (97)
1999: kromosom 22q (33.4)
2000: Bananflugan (180)
2003: Människan (3,200)
2001: The human genome
Och det kommer mer…
Genom-analys
• Sekvensjämförelser
• Genletning
• Regulatoriska element
Sekvensjämförelser
Sekvensjämförelser
•
•
•
•
Är sekvenserna evolutionärt besläktade?
Vilka regioner är likartade?
Hur stort är det evolutionära avståndet?
Hur verkar den evolutionära processen?
Mutationer
Normal
Missense
Nonsens
Deletion
Inversion
Insertion
THE BIG DOG RAN OUT.
THE BIG DAG RAN OUT.
THE BIG DOG.
THE BGD OGR ANO.
THE BIG RAN DOG OUT.
THE BIG RED DOG RAN OUT.
Edentata (anteaters,
sloths, armadillos)
Tree of life: mammals
Lagomorpha
(rabbits)
Rodentia (mice,
rats, squirrels)
Primates
Monotremata
(platypus,
echidnas)
Eutheria
(placental
animals)
Marsupialia
(opossums,
kangaroos)
Mammals
Multituberculata
Triconodonts
New World monkeys
Old World monkeys
humans, gorilla,
chimpanzee, bonobo,
orangutan
gibbons
Tree shrews
Bats
lemurs, galagos,
lorises
Colugos
Artiodactyla (pigs, deer, cattle, goats, sheep,
hippopotamuses, camels, etc.)
Cetacea (whales, dolphins, porpoises)
Perissodactyla (horses, tapirs, rhinoceroses)
Proboscidea (elephants, mammoths)
Carnivora (dogs, cats, bears, raccoons, weasels,
mongooses, hyenas)
Sekvens-alignment
50
.
:
.
:
.
:
.
:
.
:
247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA
AGAGC
|:
|| ||||: |||| --:|| ||| |::|
|||---||||
368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG
100
.
:
.
:
.
:
.
:
.
:
292 TTC
CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG
|||----------|| |
|::| |: ||||::|:||:-|| ||:| |
418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG
150
332
.
:
.
:
.
:
.
:
.
:
ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG
---------------||||||||||||||||||||||:||||||||||||
467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG
200
.
:
.
:
.
:
.
:
.
:
367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA
|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||
517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Strängjämförelser
•
•
•
•
•
•
Exakt strängsökning
Exakt mängdsökning
Sökning av delsträngar
Längsta gemensamma delsträng
Gemensamma delsträngar i fler än två
Förorenat DNA
Svårigheter
• Algoritmerna behöver vara:
– Snabba
– Robusta
– Minneseffektiva
• Hantera omkastningar, dupliceringar, och
repetitiva element
Genletning
Genstruktur
TATA
transcription
start
promoter
exon1
translation
start
exon2
exon3
intron
exon4
transkription
splicing
translation
translation transcription
stop
stop
exon5
Genletning
5’UTR
transcription
start
3’UTR
translation
start
intron
translation transcription
stop
stop
TATA
promoter
exon1
exon2
exon3
start codon
ATG
exon4
splice sites
exon5
stop codon
TAA/TAG/TGA
Den genetiska koden
Splice site detection
donor site
Position
%
A
C
G
T
-8 … -2 -1
26
26
25
23
…
…
…
…
60
15
12
13
0
1
2
… 17
9 0 1 54 … 21
5 0 1 2 … 27
78 99 0 41 … 27
8 1 98 3 … 25
Dolda Markov-modeller
Hidden Markov models (HMMs)
Slumpvandring
Markov-kedjor
• Markov-egenskapen:
– Sannolikheten för nästa position beror bara på
den nuvarande (minneslös process)
Stokastiska processer
• En stokastisk variabel är en variabel som
påverkas av slump. Den kan anta vissa
värden enligt en sannolikhetsfördelning.
• En stokastisk process är en utvecklingen av
en stokastisk variabel i tid (eller rum)
Stokastiska processer
•
•
•
•
Ankomst av kunder i ett kösystem
Förändringar i aktiekursen
Ledningsväxling under en rösträkning
Växling mellan olika tillstånd
En Markov-kedja
bA (i)  1 / 6
PAB = 1-PAA
PBB
A
PAA
Initial fördelning:
  ( A ,  B )
PBA = 1-PBB
bB (i)  1/ 4
En dold Markov-modell
Observerad sekvens:
1
4
3
6
6
4
A
A
A
B
A
B
Dold sekvens:
B
B
DNA-sekvenser
A
C
G
T
Tillståndssekvenser (durations)
p
1-p
A
p
Geometrisk fördelning
duration
Observerade exoner och introner
Intron
Intern exon
Start-exon
Slut-exon
HMM i genletning
TAA TA T G T C CA C G G G T AT T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA
Exon1
Exon2
Exon3
Som lattice:
Två fundamentala problem
• Sannolikheten av observerade data, givet
forward-algoritmen
modellen.
• Den bästa dolda sekvensen givet
Viterbi-algoritmen
observerade data.
Dynamisk programmering
• Rekurrens relation
• Tabulär beräkning
• Traceback
Dynamisk programmering
Fibonacci-tal:
f (n) =
0
om n = 0
1
om n = 1
f (n-1) + f (n-2) om n > 1
Dynamisk programmering
f (5)
f (4)
f (3)
f (2)
f (1) f (0)
f (1)
f (3)
f (2)
f (1)
f (0)
f (2)
f (1)
f (0)
f (1)
Dynamisk programmering
• Rekurrens-relation
• Tabulär beräkning
• Traceback
f (n) =
0
om n = 0
1
om n = 1
f (n-1) + f (n-2) om n > 1
f (0), f (1), f (2), f (3),…
HMM algoritmer
t
t
1
4
3
6
6
4
B
B
A
A
A
B
Dynamisk programmering
Tillstånd
N
1
1
T
Observation
Forward-algoritmen
N
t (j)  (  t  1(i)pij )b j (Yt )
i1
(tillstånd j vid tidpunkt t)
Forward-algoritmen
tillstånd
1
övergångssannolikheter
fördelning för utdata
2
3
j
..
.
N
t-1
t
t 1(i)
t ( j)
Forward-algoritmen
Tillstånd
N
1
1
T
Observation
Forward-algoritmen
Tillstånd
N
...
...
...
1
2
3
3
2
1
...
...
...
...
Observation
T
Viterbi-algoritmen
Viterbi-algoritmen
tillstånd
1
2
3
j
..
.
N
t-1
t
Traceback
...
Tillstånd
N
...
...
...
3
2
1
1
...
...
T-2
T-1
Observation
...
T
HMM i sekvens-alignment
50
.
:
.
:
.
:
.
:
.
:
AGAGC
Human: 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA
|:
|| ||||: |||| --:|| ||| |::|
|||---||||
Mouse: 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG
100
.
:
.
:
.
:
.
:
.
:
CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG
Human: 292 TTC
|||----------|| |
|::| |: ||||::|:||:-|| ||:| |
Mouse: 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG
150
Human: 332
.
:
.
:
.
:
.
:
.
:
ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG
---------------||||||||||||||||||||||:||||||||||||
Mouse: 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG
200
.
:
.
:
.
:
.
:
.
:
Human: 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA
|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||
Mouse: 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Pair HMMs
X
M
Y
Utdata:
ATCG--G
AC-GTCA
M = (mis)match
X = insert seq1
Y = insert seq2
Observerade sekvenser:
ATCGG
ACGTCA
Pair HMMs
Dold sekvens:
M
M
X
M
Y
Y
M
A
A
T
C
C
-
G
G
T
C
G
A
Utdata:
ATCG--G
AC-GTCA
Observerad sekvens:
ATCGG
ACGTCA
Komparativ genletning
50
.
:
.
:
.
:
.
:
.
:
AGAGC
Human: 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA
|:
|| ||||: |||| --:|| ||| |::|
|||---||||
Mouse: 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG
100
.
:
.
:
.
:
.
:
.
:
CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG
Human: 292 TTC
|||----------|| |
|::| |: ||||::|:||:-|| ||:| |
Mouse: 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG
150
Human: 332
.
:
.
:
.
:
.
:
.
:
ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG
---------------||||||||||||||||||||||:||||||||||||
Mouse: 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG
200
.
:
.
:
.
:
.
:
.
:
Human: 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA
|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||
Mouse: 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Komparativ genletning
TATA
transcription
start
promoter
exon1
translation
start
exon2
exon3
intron
exon4
translation transcription
stop
stop
exon5
Generalized Pair HMMs
TAA TA T G T C CA C G G G T AT T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA
Exon1
Exon2
Exon3
C T GA T G TA CA C T G G T T G G T C C T C AG C TT T GA C G G G G T GA G CA T G TAA T G T C
Som lattice:
tillstånd
Beräkningsproblem
Modell
HMM
PHMM
GHMM
Tid
Minne
2
NT
NTU
NT
NTU
NT
2
N TU
2
2
DN T
GPHMM D4N 2TU
N  antal tillstånd
T  längd sekv1
U  längd sekv2
D  max duration
Approximate alignment
Reduces
TU -factor
to
hT
Jämförelse: människa – mus
Feb 2001
Dec 2002
Why mouse?
Varför mus?
Människa
Mus
RNA folding
Tillstånd
Multi-branched loop
Single-branched loop
Helix
Hairpin
Viterbi-algoritmen
Hur många gener har vi?
27,462