Prokaryota genom I
18 februari 2005
Jan Andersson
Institutionen för Cell- och Molekylärbiologi
Avdelning för Mikrobiologi
[email protected]
1
Livets tre domäner
•
Det har visat sig att på molekylär nivå är det mest naturligt att dela in livet i tre
domäner; eukaryoter och två prokaryota domäner: Archaea och Eubacteria
– Archaea = arkebakterier = arkeer
– Eubacteria = Bacteria = bakterier
2
Prokaryoter
•
Prokaryoter saknar:
–
–
–
–
–
–
–
•
Kärna med membran
Organeller med membran
Organeller med egen arvsmassa
Fagocytos
Sex (mitos och meios)
Linjära kromosomer med histoner
Introner (vissa undantag finns)
Dessutom
– Celldifferentiering och cellskeletter
inte lika utvecklade
– Genomstorleken är oftast mycket
mindre
– Cellstorleken oftast mycket
mindre
3
Genomstorlek – ”C value paradox”
Eukaryoter
Genomstorlek
(Mbp)
Antal gener
Arabidopsis thaliana (plant)
125
25 500
Caenorhabditis elegans (nematode worm)
97
19 000
Drosophila melanogaster (fruit fly)
180
13 600
Homo sapiens (human)
3200
30 000
Saccharomyces cerevisiae (yeast)
12,1
5800
Encephalizoon cuniculi (mikrosporidie)
2,5
2000
Escherichia coli K12
4,64
4400
Mycobacterium tuberculosis H37Rv
4,41
4000
Mycoplasma genitalium
0,58
500
Pseudomonas aeruginosa PA01
6,26
5700
Streptococcus pneumoniae
2,16
2300
Vibrio cholerae El Tor N16961
4,03
4000
Yersinia pestis CO92
4,65
4100
Archaeoglobus fulgidus
2,18
2500
Methanococcus jannaschii
1,66
1750
Bakterier
Arkeer
4
Genomorganisation
Generna är packade
på de prokaryota
genomen
I prokaryoter är
antalet gener i
genomet relativt
proportionellt mot
genomstorleken
Prokaryot
5
Vad innehåller prokaryota genom?
• Proteinkodande gener (~90%) - öppna läsramar (ORF) som antas vara
kodande
– Funktionen identifierats experimentellt (ovanligt)
– Homologi (sekvenslikhet) med gener i andra organismer där funktionen
identifierats (BLAST-sökning)
– Homologi (sekvenslikhet) med öppna läsramar i andra organismer – genen
är konserverad
– Mönstret av kodonanvändningen motsvarar det förväntade
• Gener som kodar för stabila RNA (rRNA, tRNA) (<2%)
– Har oftast sekundärstruktur och homologi till andra organismer
• ”Icke-kodande” områden (~5-20%)
–
–
–
–
–
Promatorer
Reglersekvenser
Repeterade sekvenser
Pseudogener
Små RNA
6
Mycoplasma genitalium
7
START
8
Replikation av prokaryoter
•
Replikationen går i en riktning och är ej symmetrisk på de två
strängarna
•
Gener som ligger i samma riktning på genomet som replikationen sker
riskerar ej att krocka med replikationsmaskineriet
9
Mönster i genomet – GC-skew
•
•
•
•
Halten G och C varierar mellan de två strängarna
”GC skew” definieras som (C-G)/(C+G)
Orsakas av olika mekanismer för replikationen av ”leading” och
”lagging” strängen som medför olika mutationsmönster
Används för att identifiera startpunkten för replikationen
10
Kromosomer och plasmider
•
Det genetiska materialet hos prokaryoter återfinns i kromosomer
och plasmider
•
Oftast finns enbart en cirkulär kromosom i en kopia, och eventuellt
en eller flera typer av cirkulära plasmider i många kopior
•
Plasmiderna är oftast mycket mindre än kromosomen
11
Alltid cirkulära kromosomer?
• E. coli har en stor cirkulär kromosom (~4000 kbp) innehållande alla
essentiella gener, samt en eller flera små plasmider (~10 kbp) som
ej är essentiella
– Antogs vara typiskt för prokaryoter
• Studier på andra prokaryoter har visat att denna bild är begränsande
– Många arter har flera stora DNA molekyler innehållande essentiella
gener (kromosomer?)
– Linjära bakteriella kromosomer har också hittats
• Svårt med definitionen på vad som är en kromosom och plasmid
12
Borrelia burgdorferi
Borrelia burgdorferi (som
orsakar Borrelia - ”Lyme
disease”) har en linjär
kromosom på 910 kbp
samt 21 linjära och
cirkulär plasmider på
sammanlagt 611 kbp!
13
Borrelias plasmider
•
Plasmiderna återfinns i så gott
som alla kliniska isolat från
människa som undersökts, vilket
antyder en patogen funktion för
plasmiderna
14
Vibrio cholera
•
Orsakar kolera – bakterien tillväxter på tunntarmen
och producerar koleratoxin som stimulerar
vattenutsöndring som ger kraftig diarré för människan
•
Sprids t ex via kontaminerat vatten
•
Vibrio cholera har två cirkulära DNA kromosomer, en
större på 2,96 Mbp, och en mindre på 1,07 Mbp
•
Essentiella generna är överrepresenterade på den
större kromosomen, men återfinns också på den
mindre kromosomen
•
Gener involverade i transport av metaboliter och
metabolism av socker och energi är
överrepresenterade på den mindre kromosomen
15
Vibrio cholera
•
De flesta, men inte alla, gener involverade i
patogenicitet är lokaliserade till den större
molekylen
•
På den större kromosomen initieras
replikationen på ”vanligt” vis – på den mindre är
det okänt hur replikationen startar
•
Okänt om den mindre kromosomen är en
plasmid som vuxit till sig, eller en del av den
stora kromosomen som blivit självständig
•
Traditionellt anses att definitionen på en
bakteriell kromosom är att den kodar för
essentiella gener - problematisk definition för
Vibrio
16
Operoner är unika för prokaryoter
•
Operoner är en följd av
gener på genomet som
uttrycks tillsammans, d v s
ett långt mRNA innehållande
informationen till flera
proteiner syntetiseras från
DNAt
•
I E. coli har generna i ett
operon oftast relaterade
funktioner, t ex olika
enzymer i en reaktionsväg
•
Praktiskt för reglering av
genuttryck
17
Operoner
•
Innan genomsekvenser fanns trodde man att de flesta operoner
bestod av gener med liknande funktioner och var konserverade
mellan arter
•
Endast ett fåtal operoner, t ex kodande för ribosomala proteiner, är
konserverade mellan avlägsna släktingar
•
Dessutom innehåller många operoner i t ex Aquifex aeolicus och
Methanococcus jannaschii, gener helt utan funktionell koppling
•
Oklart hur operoner uppkommer och varför bara vissa selekteras i
evolutionen
18
Genordningen hos närbesläktade arter
•
Jämförelse av hela genom
hos närbesläktade
arter/stammar
•
Varje prick anger positionen
för en gen i de båda
arterna/stammarna (fylld
prick anger samma riktning
på genen, cirkel indikerar
motsatt riktning
•
Förändringarna är ofta
centrerade runt oriC (starten
för replikationen)
Campylobacter och Helicobacter
Två stammar av Helicobacter pylori
Två arter av Chlamydia
Två arter av Mycobacterium
19
Mekanismer för omorganisationer
•
Många förändringar av
genordningen sker vid
replikationen
•
Två avlägsna delar av
kromosomen rekombinerar med
utbyte av gener som följd
20
•
Redan tämligen
närbesläktade arter har
stora förändringar i
genomorganisationen
•
Slutsats: organisationen
hos prokaryota genom
förändras snabbt över
evolutionär tid
21
GC-innehåll i prokaryota genom
•
Halten av de fyra baserna (ACGT) varierar mellan olika genom
•
Eftersom DNAt är dubbelsträngat och G basparar med C och A basparar
med T är halten G = halten C och A = T.
•
Sammansättningen av nukleotiderna i ett genom brukar anges som en GChalt
•
Varierar stort mellan arter, från 25% till 75%
•
Användes för klassificering när det upptäcktes – dock utan framgång
22
Varför olika GC-halt?
•
Baspar som består av GC har tre
vätebindninghar, AT bara två, alltså är
DNA med hög GC-halt stabilare än DNA
med låg GC halt
•
Är de olika GC-halterna hos prokaryoter
en optimering till tillväxttemperaturerna?
– Nej! Ingen korrelation till optimal
tillväxttemperatur
– Däremot är GC-halten i det ribosomala
DNAt korrelerat till tillväxttemperatur
Galtier & Lobry, J Mol Evol (1997) 44:632-636
23
GC-halten och mutationsmönster
(Muto & Osawa 1987)
•
Olika delar av genomet återspeglar
den varierade GC-halten olika mycket
•
Variationen är störst i icke-kodande
regioner, och minst i RNA-kodande
gener
•
Regioner under stark selektion
påverkas minst av GC-halten i
genomet i stort
•
Slutsats: mutationsmönstren påverkar
GC-halten i genomen
24
Mutationsmönstret hos Rickettsia (~30% GC)
• Mutationer till A och T är överrepresenterade
• Transitioner (C till/från T och A till G) är vanligare än transversioner
(C till/från A och G, T till/från A och G)
25
Hur påverkas proteinkodande gener av
mutationsmönstret? - Genetiska koden
Den genetiska koden är degenerarad – olika
kodon ger upphov till samma aminosyror – olika
DNA-sekvenser kan ge upphov till samma protein
Synonyma förändringar: ger inte upphov till
förändringar i proteinsekvensen
Icke-synonyma förändringar:
ger upphov till förändringar i proteinet
Mutationer som ändrar proteinet selekteras bort
om proteinets funktion går förlorad
Mutationer som ger upphov till synonyma DNA
förändringar selekteras dock inte bort eftersom
proteinet förblir funktionellt (oförändrat)
Förändringar i tredje positionen är ofta synonyma,
förändringar i andra aldrig och förändringar i första
ibland
26
GC-mönstret i proteingener
(Muto & Osawa 1987)
• Inom protein-kodande gener påverkas
de olika kodon-positionerna olika
– Tredje positionen påverkas minst och
andra mest
27
Selektion av synonyma kodon
Om enbart mutationsmönstret
styr kodonanvändningen
•
Antalet EST är ett mått på
genuttrycket
Effektivt antal kodoner i genen
– Högt uttryckta gener
använder färre kodon än det
förväntas utifrån GCinnehållet
•
Orsakar troligtvis av selektion
för effektiv translation
– Vissa kodon är ”bättre”
GC-halt i synonyma tredje positioner
Spironucleus barkhanus – en fiskparasit (eukaryot)
28
De optimala kodonen växlar mellan arter
Spironucleus vortens
Giardia lamblia
•
•
Olika kodon dominerar i högt respektive lågt uttryckta gener
För vissa aminosyror selekteras olika kodon för de båda
diplomonads Spironucleus och Giardia
– De optimala kodonen är alltså inte universella, utan kan växla
mellan arter
29
Mutation och selektion
• Variationen i GC-halt mellan arter och selektion på synonyma
kodoner har stora konsekvenser för en mängd bioinformatiska
metoder
– Analyser måste ta hänsyn till denna variation
– Stort problem för bl a fylogenetiska metoder
30
Sammanfattning
• Prokaryota genom är packade med proteinkodande gener
• Genomet består av kromosomer och plasmider
• Operon (genordning) är inte konserverad mellan arter
• GC-innehållet varierar inom genomet (GC-skew) och mellan genom,
troligen p g a mutationsmönster
– Olika delar av genomet påverkas olika mycket
• Selektion kan ske på synonyma kodon
31