Bioinformatik Marina Axelson-Fisk Matematisk orientering, 30 nov 2015 Bioinformatik Bioinformatik Var används bioinformatik? DNA analys Medicin • • • • • • • • DNA-sekvensering och assemblering Sekvensanalys Proteinstruktur och funktion Expression- och nätverksanalys Sjukdomsgener Drug target Lead compound Kliniska försök Grundläggande genetik Cell Kärna Kromosom DNA Vad är en gen? DNA CCTGAGCCAACTATTGAT transkription RNA CCUGAGCCAACUAUUGAU translation Protein PEPTID Proteinfunktioner • • • • • • Enzym – matsmältningssystemet Strukturella komponenter – senor, ligament Skydd – antikroppar, blodkoagulering Regulatoriska hormon – insulin, tillväxtRörelse – aktin, myosin Transport – hemoglobin, albumin Sekvenserings-historia 1977: Phi X174 (5’400 bp) 1995: Två mikrober (1.8, 0.6) 1996: Jästsvamp (12) 1997: E. coli (4.6) 1998: C. elegans (97) 1999: kromosom 22q (33.4) 2000: Bananflugan (180) 2003: Människan (3,200) 2001: The human genome Och det kommer mer… Genom-analys • Sekvensjämförelser • Genletning • Regulatoriska element Sekvensjämförelser Sekvensjämförelser • • • • Är sekvenserna evolutionärt besläktade? Vilka regioner är likartade? Hur stort är det evolutionära avståndet? Hur verkar den evolutionära processen? Mutationer Normal Missense Nonsens Deletion Inversion Insertion THE BIG DOG RAN OUT. THE BIG DAG RAN OUT. THE BIG DOG. THE BGD OGR ANO. THE BIG RAN DOG OUT. THE BIG RED DOG RAN OUT. Edentata (anteaters, sloths, armadillos) Tree of life: mammals Lagomorpha (rabbits) Rodentia (mice, rats, squirrels) Primates Monotremata (platypus, echidnas) Eutheria (placental animals) Marsupialia (opossums, kangaroos) Mammals Multituberculata Triconodonts New World monkeys Old World monkeys humans, gorilla, chimpanzee, bonobo, orangutan gibbons Tree shrews Bats lemurs, galagos, lorises Colugos Artiodactyla (pigs, deer, cattle, goats, sheep, hippopotamuses, camels, etc.) Cetacea (whales, dolphins, porpoises) Perissodactyla (horses, tapirs, rhinoceroses) Proboscidea (elephants, mammoths) Carnivora (dogs, cats, bears, raccoons, weasels, mongooses, hyenas) Sekvens-alignment 50 . : . : . : . : . : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC |: || ||||: |||| --:|| ||| |::| |||---|||| 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100 . : . : . : . : . : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG |||----------|| | |::| |: ||||::|:||:-|| ||:| | 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150 332 . : . : . : . : . : ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG ---------------||||||||||||||||||||||:|||||||||||| 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200 . : . : . : . : . : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA |||||:||||||||:||||||||||||||:|| ||:|||||:|||||||| 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA Strängjämförelser • • • • • • Exakt strängsökning Exakt mängdsökning Sökning av delsträngar Längsta gemensamma delsträng Gemensamma delsträngar i fler än två Förorenat DNA Svårigheter • Algoritmerna behöver vara: – Snabba – Robusta – Minneseffektiva • Hantera omkastningar, dupliceringar, och repetitiva element Genletning Genstruktur TATA transcription start promoter exon1 translation start exon2 exon3 intron exon4 transkription splicing translation translation transcription stop stop exon5 Genletning 5’UTR transcription start 3’UTR translation start intron translation transcription stop stop TATA promoter exon1 exon2 exon3 start codon ATG exon4 splice sites exon5 stop codon TAA/TAG/TGA Den genetiska koden Splice site detection donor site Position % A C G T -8 … -2 -1 26 26 25 23 … … … … 60 15 12 13 0 1 2 … 17 9 0 1 54 … 21 5 0 1 2 … 27 78 99 0 41 … 27 8 1 98 3 … 25 Dolda Markov-modeller Hidden Markov models (HMMs) Slumpvandring Markov-kedjor • Markov-egenskapen: – Sannolikheten för nästa position beror bara på den nuvarande (minneslös process) Stokastiska processer • En stokastisk variabel är en variabel som påverkas av slump. Den kan anta vissa värden enligt en sannolikhetsfördelning. • En stokastisk process är en utvecklingen av en stokastisk variabel i tid (eller rum) Stokastiska processer • • • • Ankomst av kunder i ett kösystem Förändringar i aktiekursen Ledningsväxling under en rösträkning Växling mellan olika tillstånd En Markov-kedja bA (i) 1 / 6 PAB = 1-PAA PBB A PAA Initial fördelning: ( A , B ) PBA = 1-PBB bB (i) 1/ 4 En dold Markov-modell Observerad sekvens: 1 4 3 6 6 4 A A A B A B Dold sekvens: B B DNA-sekvenser A C G T Tillståndssekvenser (durations) p 1-p A p Geometrisk fördelning duration Observerade exoner och introner Intron Intern exon Start-exon Slut-exon HMM i genletning TAA TA T G T C CA C G G G T AT T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA Exon1 Exon2 Exon3 Som lattice: Två fundamentala problem • Sannolikheten av observerade data, givet forward-algoritmen modellen. • Den bästa dolda sekvensen givet Viterbi-algoritmen observerade data. Dynamisk programmering • Rekurrens relation • Tabulär beräkning • Traceback Dynamisk programmering Fibonacci-tal: f (n) = 0 om n = 0 1 om n = 1 f (n-1) + f (n-2) om n > 1 Dynamisk programmering f (5) f (4) f (3) f (2) f (1) f (0) f (1) f (3) f (2) f (1) f (0) f (2) f (1) f (0) f (1) Dynamisk programmering • Rekurrens-relation • Tabulär beräkning • Traceback f (n) = 0 om n = 0 1 om n = 1 f (n-1) + f (n-2) om n > 1 f (0), f (1), f (2), f (3),… HMM algoritmer t t 1 4 3 6 6 4 B B A A A B Dynamisk programmering Tillstånd N 1 1 T Observation Forward-algoritmen N t (j) ( t 1(i)pij )b j (Yt ) i1 (tillstånd j vid tidpunkt t) Forward-algoritmen tillstånd 1 övergångssannolikheter fördelning för utdata 2 3 j .. . N t-1 t t 1(i) t ( j) Forward-algoritmen Tillstånd N 1 1 T Observation Forward-algoritmen Tillstånd N ... ... ... 1 2 3 3 2 1 ... ... ... ... Observation T Viterbi-algoritmen Viterbi-algoritmen tillstånd 1 2 3 j .. . N t-1 t Traceback ... Tillstånd N ... ... ... 3 2 1 1 ... ... T-2 T-1 Observation ... T HMM i sekvens-alignment 50 . : . : . : . : . : AGAGC Human: 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA |: || ||||: |||| --:|| ||| |::| |||---|||| Mouse: 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100 . : . : . : . : . : CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG Human: 292 TTC |||----------|| | |::| |: ||||::|:||:-|| ||:| | Mouse: 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150 Human: 332 . : . : . : . : . : ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG ---------------||||||||||||||||||||||:|||||||||||| Mouse: 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200 . : . : . : . : . : Human: 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA |||||:||||||||:||||||||||||||:|| ||:|||||:|||||||| Mouse: 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA Pair HMMs X M Y Utdata: ATCG--G AC-GTCA M = (mis)match X = insert seq1 Y = insert seq2 Observerade sekvenser: ATCGG ACGTCA Pair HMMs Dold sekvens: M M X M Y Y M A A T C C - G G T C G A Utdata: ATCG--G AC-GTCA Observerad sekvens: ATCGG ACGTCA Komparativ genletning 50 . : . : . : . : . : AGAGC Human: 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA |: || ||||: |||| --:|| ||| |::| |||---|||| Mouse: 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100 . : . : . : . : . : CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG Human: 292 TTC |||----------|| | |::| |: ||||::|:||:-|| ||:| | Mouse: 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150 Human: 332 . : . : . : . : . : ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG ---------------||||||||||||||||||||||:|||||||||||| Mouse: 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200 . : . : . : . : . : Human: 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA |||||:||||||||:||||||||||||||:|| ||:|||||:|||||||| Mouse: 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA Komparativ genletning TATA transcription start promoter exon1 translation start exon2 exon3 intron exon4 translation transcription stop stop exon5 Generalized Pair HMMs TAA TA T G T C CA C G G G T AT T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA Exon1 Exon2 Exon3 C T GA T G TA CA C T G G T T G G T C C T C AG C TT T GA C G G G G T GA G CA T G TAA T G T C Som lattice: tillstånd Beräkningsproblem Modell HMM PHMM GHMM Tid Minne 2 NT NTU NT NTU NT 2 N TU 2 2 DN T GPHMM D4N 2TU N antal tillstånd T längd sekv1 U längd sekv2 D max duration Approximate alignment Reduces TU -factor to hT Jämförelse: människa – mus Feb 2001 Dec 2002 Why mouse? Varför mus? Människa Mus RNA folding Tillstånd Multi-branched loop Single-branched loop Helix Hairpin Viterbi-algoritmen Hur många gener har vi? 27,462