Prokaryota genom I 18 februari 2005 Jan Andersson Institutionen för Cell- och Molekylärbiologi Avdelning för Mikrobiologi [email protected] 1 Livets tre domäner • Det har visat sig att på molekylär nivå är det mest naturligt att dela in livet i tre domäner; eukaryoter och två prokaryota domäner: Archaea och Eubacteria – Archaea = arkebakterier = arkeer – Eubacteria = Bacteria = bakterier 2 Prokaryoter • Prokaryoter saknar: – – – – – – – • Kärna med membran Organeller med membran Organeller med egen arvsmassa Fagocytos Sex (mitos och meios) Linjära kromosomer med histoner Introner (vissa undantag finns) Dessutom – Celldifferentiering och cellskeletter inte lika utvecklade – Genomstorleken är oftast mycket mindre – Cellstorleken oftast mycket mindre 3 Genomstorlek – ”C value paradox” Eukaryoter Genomstorlek (Mbp) Antal gener Arabidopsis thaliana (plant) 125 25 500 Caenorhabditis elegans (nematode worm) 97 19 000 Drosophila melanogaster (fruit fly) 180 13 600 Homo sapiens (human) 3200 30 000 Saccharomyces cerevisiae (yeast) 12,1 5800 Encephalizoon cuniculi (mikrosporidie) 2,5 2000 Escherichia coli K12 4,64 4400 Mycobacterium tuberculosis H37Rv 4,41 4000 Mycoplasma genitalium 0,58 500 Pseudomonas aeruginosa PA01 6,26 5700 Streptococcus pneumoniae 2,16 2300 Vibrio cholerae El Tor N16961 4,03 4000 Yersinia pestis CO92 4,65 4100 Archaeoglobus fulgidus 2,18 2500 Methanococcus jannaschii 1,66 1750 Bakterier Arkeer 4 Genomorganisation Generna är packade på de prokaryota genomen I prokaryoter är antalet gener i genomet relativt proportionellt mot genomstorleken Prokaryot 5 Vad innehåller prokaryota genom? • Proteinkodande gener (~90%) - öppna läsramar (ORF) som antas vara kodande – Funktionen identifierats experimentellt (ovanligt) – Homologi (sekvenslikhet) med gener i andra organismer där funktionen identifierats (BLAST-sökning) – Homologi (sekvenslikhet) med öppna läsramar i andra organismer – genen är konserverad – Mönstret av kodonanvändningen motsvarar det förväntade • Gener som kodar för stabila RNA (rRNA, tRNA) (<2%) – Har oftast sekundärstruktur och homologi till andra organismer • ”Icke-kodande” områden (~5-20%) – – – – – Promatorer Reglersekvenser Repeterade sekvenser Pseudogener Små RNA 6 Mycoplasma genitalium 7 START 8 Replikation av prokaryoter • Replikationen går i en riktning och är ej symmetrisk på de två strängarna • Gener som ligger i samma riktning på genomet som replikationen sker riskerar ej att krocka med replikationsmaskineriet 9 Mönster i genomet – GC-skew • • • • Halten G och C varierar mellan de två strängarna ”GC skew” definieras som (C-G)/(C+G) Orsakas av olika mekanismer för replikationen av ”leading” och ”lagging” strängen som medför olika mutationsmönster Används för att identifiera startpunkten för replikationen 10 Kromosomer och plasmider • Det genetiska materialet hos prokaryoter återfinns i kromosomer och plasmider • Oftast finns enbart en cirkulär kromosom i en kopia, och eventuellt en eller flera typer av cirkulära plasmider i många kopior • Plasmiderna är oftast mycket mindre än kromosomen 11 Alltid cirkulära kromosomer? • E. coli har en stor cirkulär kromosom (~4000 kbp) innehållande alla essentiella gener, samt en eller flera små plasmider (~10 kbp) som ej är essentiella – Antogs vara typiskt för prokaryoter • Studier på andra prokaryoter har visat att denna bild är begränsande – Många arter har flera stora DNA molekyler innehållande essentiella gener (kromosomer?) – Linjära bakteriella kromosomer har också hittats • Svårt med definitionen på vad som är en kromosom och plasmid 12 Borrelia burgdorferi Borrelia burgdorferi (som orsakar Borrelia - ”Lyme disease”) har en linjär kromosom på 910 kbp samt 21 linjära och cirkulär plasmider på sammanlagt 611 kbp! 13 Borrelias plasmider • Plasmiderna återfinns i så gott som alla kliniska isolat från människa som undersökts, vilket antyder en patogen funktion för plasmiderna 14 Vibrio cholera • Orsakar kolera – bakterien tillväxter på tunntarmen och producerar koleratoxin som stimulerar vattenutsöndring som ger kraftig diarré för människan • Sprids t ex via kontaminerat vatten • Vibrio cholera har två cirkulära DNA kromosomer, en större på 2,96 Mbp, och en mindre på 1,07 Mbp • Essentiella generna är överrepresenterade på den större kromosomen, men återfinns också på den mindre kromosomen • Gener involverade i transport av metaboliter och metabolism av socker och energi är överrepresenterade på den mindre kromosomen 15 Vibrio cholera • De flesta, men inte alla, gener involverade i patogenicitet är lokaliserade till den större molekylen • På den större kromosomen initieras replikationen på ”vanligt” vis – på den mindre är det okänt hur replikationen startar • Okänt om den mindre kromosomen är en plasmid som vuxit till sig, eller en del av den stora kromosomen som blivit självständig • Traditionellt anses att definitionen på en bakteriell kromosom är att den kodar för essentiella gener - problematisk definition för Vibrio 16 Operoner är unika för prokaryoter • Operoner är en följd av gener på genomet som uttrycks tillsammans, d v s ett långt mRNA innehållande informationen till flera proteiner syntetiseras från DNAt • I E. coli har generna i ett operon oftast relaterade funktioner, t ex olika enzymer i en reaktionsväg • Praktiskt för reglering av genuttryck 17 Operoner • Innan genomsekvenser fanns trodde man att de flesta operoner bestod av gener med liknande funktioner och var konserverade mellan arter • Endast ett fåtal operoner, t ex kodande för ribosomala proteiner, är konserverade mellan avlägsna släktingar • Dessutom innehåller många operoner i t ex Aquifex aeolicus och Methanococcus jannaschii, gener helt utan funktionell koppling • Oklart hur operoner uppkommer och varför bara vissa selekteras i evolutionen 18 Genordningen hos närbesläktade arter • Jämförelse av hela genom hos närbesläktade arter/stammar • Varje prick anger positionen för en gen i de båda arterna/stammarna (fylld prick anger samma riktning på genen, cirkel indikerar motsatt riktning • Förändringarna är ofta centrerade runt oriC (starten för replikationen) Campylobacter och Helicobacter Två stammar av Helicobacter pylori Två arter av Chlamydia Två arter av Mycobacterium 19 Mekanismer för omorganisationer • Många förändringar av genordningen sker vid replikationen • Två avlägsna delar av kromosomen rekombinerar med utbyte av gener som följd 20 • Redan tämligen närbesläktade arter har stora förändringar i genomorganisationen • Slutsats: organisationen hos prokaryota genom förändras snabbt över evolutionär tid 21 GC-innehåll i prokaryota genom • Halten av de fyra baserna (ACGT) varierar mellan olika genom • Eftersom DNAt är dubbelsträngat och G basparar med C och A basparar med T är halten G = halten C och A = T. • Sammansättningen av nukleotiderna i ett genom brukar anges som en GChalt • Varierar stort mellan arter, från 25% till 75% • Användes för klassificering när det upptäcktes – dock utan framgång 22 Varför olika GC-halt? • Baspar som består av GC har tre vätebindninghar, AT bara två, alltså är DNA med hög GC-halt stabilare än DNA med låg GC halt • Är de olika GC-halterna hos prokaryoter en optimering till tillväxttemperaturerna? – Nej! Ingen korrelation till optimal tillväxttemperatur – Däremot är GC-halten i det ribosomala DNAt korrelerat till tillväxttemperatur Galtier & Lobry, J Mol Evol (1997) 44:632-636 23 GC-halten och mutationsmönster (Muto & Osawa 1987) • Olika delar av genomet återspeglar den varierade GC-halten olika mycket • Variationen är störst i icke-kodande regioner, och minst i RNA-kodande gener • Regioner under stark selektion påverkas minst av GC-halten i genomet i stort • Slutsats: mutationsmönstren påverkar GC-halten i genomen 24 Mutationsmönstret hos Rickettsia (~30% GC) • Mutationer till A och T är överrepresenterade • Transitioner (C till/från T och A till G) är vanligare än transversioner (C till/från A och G, T till/från A och G) 25 Hur påverkas proteinkodande gener av mutationsmönstret? - Genetiska koden Den genetiska koden är degenerarad – olika kodon ger upphov till samma aminosyror – olika DNA-sekvenser kan ge upphov till samma protein Synonyma förändringar: ger inte upphov till förändringar i proteinsekvensen Icke-synonyma förändringar: ger upphov till förändringar i proteinet Mutationer som ändrar proteinet selekteras bort om proteinets funktion går förlorad Mutationer som ger upphov till synonyma DNA förändringar selekteras dock inte bort eftersom proteinet förblir funktionellt (oförändrat) Förändringar i tredje positionen är ofta synonyma, förändringar i andra aldrig och förändringar i första ibland 26 GC-mönstret i proteingener (Muto & Osawa 1987) • Inom protein-kodande gener påverkas de olika kodon-positionerna olika – Tredje positionen påverkas minst och andra mest 27 Selektion av synonyma kodon Om enbart mutationsmönstret styr kodonanvändningen • Antalet EST är ett mått på genuttrycket Effektivt antal kodoner i genen – Högt uttryckta gener använder färre kodon än det förväntas utifrån GCinnehållet • Orsakar troligtvis av selektion för effektiv translation – Vissa kodon är ”bättre” GC-halt i synonyma tredje positioner Spironucleus barkhanus – en fiskparasit (eukaryot) 28 De optimala kodonen växlar mellan arter Spironucleus vortens Giardia lamblia • • Olika kodon dominerar i högt respektive lågt uttryckta gener För vissa aminosyror selekteras olika kodon för de båda diplomonads Spironucleus och Giardia – De optimala kodonen är alltså inte universella, utan kan växla mellan arter 29 Mutation och selektion • Variationen i GC-halt mellan arter och selektion på synonyma kodoner har stora konsekvenser för en mängd bioinformatiska metoder – Analyser måste ta hänsyn till denna variation – Stort problem för bl a fylogenetiska metoder 30 Sammanfattning • Prokaryota genom är packade med proteinkodande gener • Genomet består av kromosomer och plasmider • Operon (genordning) är inte konserverad mellan arter • GC-innehållet varierar inom genomet (GC-skew) och mellan genom, troligen p g a mutationsmönster – Olika delar av genomet påverkas olika mycket • Selektion kan ske på synonyma kodon 31