Tentamen i 2D1396 Bioinformatik, 29 mars 2005

Tentamen i 2D1396 Bioinformatik, 29 mars 2005
Kursansvarig: Lars Arvestad
Inga hjälpmedel förutom skrivmedel är tillåtna. Skriv tydligt! Skriv bara på en sida
av pappret och behandla bara en uppgift per pappersblad. Ge dina svar tydliga motiveringar. Lämna plats för kommentarer vid rättning. För godkänt krävs 15 poäng,
20 poäng ger betyg 4, och vid 25 poäng ges betyg 5.
Lösningsförslag kommer att hittas på kursens hemsida efter tentans slut. Resultaten anslås bredvid huvudingången till SBC:s korridor.
Lycka till!
1. (a) I figur 1 ser du början på en typisk Blast-rapport. Vad heter den mest signifikanta
träffen? Hur många signifikanta träffar har vi fått? (2p)
(b) När man använder Blast på kodande DNA rekommendera vanligen att Blast instrueras
till att översätta DNA och jämföra aminosyrasekvenser istället för nukleotidsekvenser.
Varför det? (1p)
Var god börja nästa uppgift på nytt papper.
2. I programmet Fasta är k en viktig parameter som anger storleken på dom ord, eller ktupler, som programmet använder sig av. När DNA-sekvenser jämförs är k ofta satt till 6.
Hur påverkas programmet om man väljer att sätta k till 10 eller högre? När kan det vara
intressant att utnyttja den möjligheten? (2p)
3. Antag att du vill jämföra gen-uppsättningen hos en nyligen sekvenserad art X med människans
gener. Du tar därför och använder Blast för att jämföra varje nyfunnen gensekvens med en
databas med alla kända människogener. Antag att det finns 15 000 gener i X och du använder
E-värdet 10−3 som gränsvärde. Hur många rena slumpträffar kan du räkna med att Blast
rapporterar som signifikanta? (2p)
4. (a) Vad hände om man glömmer att linjera sina sekvenser när man ska göra ett fylogenetiskt träd? Fylogeniprogram borde naturligtvis (i de flesta fall) protestera mot att
sekvenserna har olika längd, men antag att det du använder (och detta händer ofta) är
förlåtande och inte varnar för problemet. (2p)
(b) Att använda en icke-homolog sekvens som utgrupp är olämpligt. Varför det? För att
bland annat detektera problem med icke-homologa utgrupper rekommenderar vissa att
man använder två utgruppssekvenser. På vilket sätt kan det hjälpa? (2p)
(c) I Science (1994, Nov 18), skrev Woodward et al sensationellt att:
DNA was extracted from 80-million-year-old bone fragments found in strata
of the Upper Cretaceous Blackhawk Formation in the roof of an underground
coal mine in eastern Utah. This DNA was used as the template in a polymerase chain reaction that amplified and sequenced a portion of the gene encoding
mitochondrial cytochrome b. These sequences differ from all other cytochrome b sequences investigated, including those in the GenBank and European
Molecular Biology Laboratory databases. DNA isolated from these bone fragments and the resulting gene sequences demonstrate that small fragments of
DNA may survive in bone for millions of years.
Kritiker påpekade beskt att om man gjorde ett fylogenetiskt träd som inkluderade
den framtagna sekvensen och motsvarande cytochrome b-gen från t.ex. groda, fåglar,
krokodil, och andra, så hamnade dinosauriegenen närmast människovarianten i trädet,
1
Query= p0825.6.C1 nseq=5
(826 letters)
Database: sprot
144,731 sequences; 53,363,726 total letters
Searching..................................................done
Score
E
(bits) Value
Sequences producing significant alignments:
APOD_HUMAN (P05090) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_CAVPO (P51909) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_MOUSE (P51910) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_RABIT (P37153) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_RAT (P23593) Apolipoprotein D precursor (Apo-D) (ApoD)
ICYB_MANSE (Q00630) Insecticyanin B form precursor (Blue bil...
ICYA_MANSE (P00305) Insecticyanin A form (Blue biliprotein) ...
BBP_PIEBR (P09464) Bilin-binding protein precursor (BBP)
ERBP_RAT (P06911) Epididymal-retinoic acid binding protein p...
RET2_ONCMY (P24775) Plasma retinol-binding protein II (PRBP-II)
RETB_XENLA (P06172) Plasma retinol-binding protein precursor...
RETB_CHICK (P41263) Plasma retinol-binding protein precursor...
LAZA_SCHAM (P49291) Lazarillo protein precursor
RET1_ONCMY (P24774) Plasma retinol-binding protein I (PRBP-I)
BLC_VIBCH (Q08790) Outer membrane lipoprotein blc precursor ...
LACB_FELCA (P33687) Beta-lactoglobulin I
PURP_CHICK (P08938) Purpurin precursor
CRA2_HOMGA (P80007) Crustacyanin A2 subunit
VE2_HPV08 (P06422) Regulatory protein E2
CRC1_HOMGA (P80029) Crustacyanin C1 subunit
CRA1_HOMGA (P58989) Crustacyanin A1 subunit
AMBP_PLEPL (P36992) AMBP protein precursor [Contains: Alpha-...
LACC_FELCA (P33688) Beta-lactoglobulin III
RETB_HORSE (Q28369) Plasma retinol-binding protein precursor...
RETB_PIG (P27485) Plasma retinol-binding protein precursor (...
RETB_HUMAN (P02753) Plasma retinol-binding protein precursor...
PGHD_RAT (P22057) Prostaglandin-H2 D-isomerase precursor (EC...
VE2_HPV5B (P26545) Regulatory protein E2
VE2_HPV05 (P06921) Regulatory protein E2
RETB_BOVIN (P18902) Plasma retinol-binding protein (PRBP) (RBP)
VE2_HPV36 (P50809) Regulatory protein E2
82
81
79
78
73
55
49
46
41
39
39
39
38
38
37
37
37
35
35
34
34
34
34
33
33
32
32
31
31
31
31
1e-15
2e-15
1e-14
2e-14
7e-13
1e-07
1e-05
1e-04
0.004
0.010
0.018
0.018
0.023
0.030
0.052
0.052
0.052
0.26
0.26
0.34
0.34
0.44
0.44
0.57
0.75
1.7
2.2
2.8
2.8
2.8
2.8
Figur 1: Resultatet av en Blast-sökning. Används i fråga 1.
och långt ifrån dom andra mer rimliga släktingarna. Vad är en naturlig förklaringen till
resultatet? (1p)
5. (a) En viktig parameter för helgenomsekvensering är täckning (eng: coverage). Vad beskriver den parametern? (1p)
(b) Som nämnts på föreläsning så är duplicerade (ibland mångdubbelt) och starkt konserverade regioner ett problem när man sätter samman ett genom (eng: genome assembly).
Beskriv varför. (1p)
(c) Ett sätt att detektera fenomenet med duplicerade konserverade regioner är att studera
den verkliga täckningen av genomet. Hur tror du man gör? (2p)
(d) Ytterligare ledtrådar för att identifiera regioner innehållandes duplikationer kan man
få med hjälp av en kartläggning av genomet. På vilket sätt? (2p)
2
6. I figur 2 visas en dotplot mellan de cirkulära genomen från två Chlamydiae-varianter. Vid
start och stopp för replikation, markerat med R respektive T, ser man X-formade mönster.
Vad är orsaken? (2p)
7. På grund av att gener undergår duplikationer och förluster är ju som bekant ett genträd
inte alltid likt det verkliga artträdet. Det har därför föreslagits att man skattar artträd med
hela genom som indata, snarare än väl valda gensekvenser. Som mått på likhet har man till
exempel använt genomens GC-innehåll. Man kan också tänka sig att använda kunskap om
vilka genfamiljer som används i ett genom. Tänk dig att du får som indata en matris M där
ett element Mij anger (med ’1’) om genfamilj j återfinns i genom i eller inte (med ’0’).
(a) Vilken metod skulle du använda för att återskapa artträdet och varför? (2p)
(b) En matris som M kallas ibland en fylogenetisk profil och används då till att sammanlänka genfamiljer som är funktionellt relaterade. Vilken egenskap kan du förvänta
dig av kolumner i M där genfamiljerna är inblandade i samma funktion? (1p)
8. När man använder dolda Markovmodeller (HMM:er) för att leta instanser av domäner i en
domändatabas gör man upprepade jämförelser av HMM:er med proteinsekvenser. Det är
naturligtvis viktigt att veta huruvida den score man får för varje jämförelse är signifikant
eller inte. Till detta använder man ofta ett E värde eftersom man, precis som i fallet med
lokala linjeringar, kan anta att HMM-score följer en extremvärdesfördelning.
Antag nu att du har skäl att ifrågasätta presenterade E-värden och som komplement vill ha
ett Z-värde för HMM-score. Beskriv en metod för att givet en HMM och en proteinsekvens
beräkna Z-värdet för en deras HMM-score. (4p)
9. I flera stora genfamiljer, exempelvis Zn-fingergener, kan man finna medlemmarna lokaliserade nära varandra på kromosomerna. Om familjen har bildats genom successiva tandem
duplikationer, dvs en region dupliceras så att kopian hamnar intill originalet, så är det inte
så förvånande med många närliggande gener.
Hur skulle du, med dom verktyg som du har stött på i kursen, kunna härleda i vilken ordning
som generna har bildats? Din startpunkt är medlemmarna i en genfamilj från en organism
och deras placering på en kromosom. Utgå från enkla genduplikationer. (3p)
3
Figur 2: En dotplot från programmet MUMmer mellan två Chlamydiae-genom.
4