Tentamen i 2D1396 Bioinformatik, 29 mars 2005

Tentamen i 2D1396 Bioinformatik, 29 mars 2005
Kursansvarig: Lars Arvestad
Inga hjälpmedel förutom skrivmedel är tillåtna. Skriv tydligt! Skriv bara på en sida
av pappret och behandla bara en uppgift per pappersblad. Ge dina svar tydliga motiveringar. Lämna plats för kommentarer vid rättning. För godkänt krävs 15 poäng,
20 poäng ger betyg 4, och vid 25 poäng ges betyg 5.
Lösningsförslag kommer att hittas på kursens hemsida efter tentans slut. Resultaten anslås bredvid huvudingången till SBC:s korridor.
Lycka till!
1. (a) I figur 1 ser du början på en typisk Blast-rapport. Vad heter den mest signifikanta
träffen? Hur många signifikanta träffar har vi fått? (2p)
(b) När man använder Blast på kodande DNA rekommendera vanligen att Blast instrueras
till att översätta DNA och jämföra aminosyrasekvenser istället för nukleotidsekvenser.
Varför det? (1p)
Var god börja nästa uppgift på nytt papper.
2. I programmet Fasta är k en viktig parameter som anger storleken på dom ord, eller ktupler, som programmet använder sig av. När DNA-sekvenser jämförs är k ofta satt till 6.
Hur påverkas programmet om man väljer att sätta k till 10 eller högre? När kan det vara
intressant att utnyttja den möjligheten? (2p)
3. Antag att du vill jämföra gen-uppsättningen hos en nyligen sekvenserad art X med människans
gener. Du tar därför och använder Blast för att jämföra varje nyfunnen gensekvens med en
databas med alla kända människogener. Antag att det finns 15 000 gener i X och du använder
E-värdet 10−3 som gränsvärde. Hur många rena slumpträffar kan du räkna med att Blast
rapporterar som signifikanta? (2p)
4. (a) Vad hände om man glömmer att linjera sina sekvenser när man ska göra ett fylogenetiskt träd? Fylogeniprogram borde naturligtvis (i de flesta fall) protestera mot att
sekvenserna har olika längd, men antag att det du använder (och detta händer ofta) är
förlåtande och inte varnar för problemet. (2p)
(b) Att använda en icke-homolog sekvens som utgrupp är olämpligt. Varför det? För att
bland annat detektera problem med icke-homologa utgrupper rekommenderar vissa att
man använder två utgruppssekvenser. På vilket sätt kan det hjälpa? (2p)
(c) I Science (1994, Nov 18), skrev Woodward et al sensationellt att:
DNA was extracted from 80-million-year-old bone fragments found in strata
of the Upper Cretaceous Blackhawk Formation in the roof of an underground
coal mine in eastern Utah. This DNA was used as the template in a polymerase chain reaction that amplified and sequenced a portion of the gene encoding
mitochondrial cytochrome b. These sequences differ from all other cytochrome b sequences investigated, including those in the GenBank and European
Molecular Biology Laboratory databases. DNA isolated from these bone fragments and the resulting gene sequences demonstrate that small fragments of
DNA may survive in bone for millions of years.
Kritiker påpekade beskt att om man gjorde ett fylogenetiskt träd som inkluderade
den framtagna sekvensen och motsvarande cytochrome b-gen från t.ex. groda, fåglar,
krokodil, och andra, så hamnade dinosauriegenen närmast människovarianten i trädet,
1
Query= p0825.6.C1 nseq=5
(826 letters)
Database: sprot
144,731 sequences; 53,363,726 total letters
Searching..................................................done
Score
E
(bits) Value
Sequences producing significant alignments:
APOD_HUMAN (P05090) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_CAVPO (P51909) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_MOUSE (P51910) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_RABIT (P37153) Apolipoprotein D precursor (Apo-D) (ApoD)
APOD_RAT (P23593) Apolipoprotein D precursor (Apo-D) (ApoD)
ICYB_MANSE (Q00630) Insecticyanin B form precursor (Blue bil...
ICYA_MANSE (P00305) Insecticyanin A form (Blue biliprotein) ...
BBP_PIEBR (P09464) Bilin-binding protein precursor (BBP)
ERBP_RAT (P06911) Epididymal-retinoic acid binding protein p...
RET2_ONCMY (P24775) Plasma retinol-binding protein II (PRBP-II)
RETB_XENLA (P06172) Plasma retinol-binding protein precursor...
RETB_CHICK (P41263) Plasma retinol-binding protein precursor...
LAZA_SCHAM (P49291) Lazarillo protein precursor
RET1_ONCMY (P24774) Plasma retinol-binding protein I (PRBP-I)
BLC_VIBCH (Q08790) Outer membrane lipoprotein blc precursor ...
LACB_FELCA (P33687) Beta-lactoglobulin I
PURP_CHICK (P08938) Purpurin precursor
CRA2_HOMGA (P80007) Crustacyanin A2 subunit
VE2_HPV08 (P06422) Regulatory protein E2
CRC1_HOMGA (P80029) Crustacyanin C1 subunit
CRA1_HOMGA (P58989) Crustacyanin A1 subunit
AMBP_PLEPL (P36992) AMBP protein precursor [Contains: Alpha-...
LACC_FELCA (P33688) Beta-lactoglobulin III
RETB_HORSE (Q28369) Plasma retinol-binding protein precursor...
RETB_PIG (P27485) Plasma retinol-binding protein precursor (...
RETB_HUMAN (P02753) Plasma retinol-binding protein precursor...
PGHD_RAT (P22057) Prostaglandin-H2 D-isomerase precursor (EC...
VE2_HPV5B (P26545) Regulatory protein E2
VE2_HPV05 (P06921) Regulatory protein E2
RETB_BOVIN (P18902) Plasma retinol-binding protein (PRBP) (RBP)
VE2_HPV36 (P50809) Regulatory protein E2
82
81
79
78
73
55
49
46
41
39
39
39
38
38
37
37
37
35
35
34
34
34
34
33
33
32
32
31
31
31
31
1e-15
2e-15
1e-14
2e-14
7e-13
1e-07
1e-05
1e-04
0.004
0.010
0.018
0.018
0.023
0.030
0.052
0.052
0.052
0.26
0.26
0.34
0.34
0.44
0.44
0.57
0.75
1.7
2.2
2.8
2.8
2.8
2.8
Figur 1: Resultatet av en Blast-sökning. Används i fråga 1.
och långt ifrån dom andra mer rimliga släktingarna. Vad är en naturlig förklaringen till
resultatet? (1p)
5. (a) En viktig parameter för helgenomsekvensering är täckning (eng: coverage). Vad beskriver den parametern? (1p)
(b) Som nämnts på föreläsning så är duplicerade (ibland mångdubbelt) och starkt konserverade regioner ett problem när man sätter samman ett genom (eng: genome assembly).
Beskriv varför. (1p)
(c) Ett sätt att detektera fenomenet med duplicerade konserverade regioner är att studera
den verkliga täckningen av genomet. Hur tror du man gör? (2p)
(d) Ytterligare ledtrådar för att identifiera regioner innehållandes duplikationer kan man
få med hjälp av en kartläggning av genomet. På vilket sätt? (2p)
2
6. I figur 2 visas en dotplot mellan de cirkulära genomen från två Chlamydiae-varianter. Vid
start och stopp för replikation, markerat med R respektive T, ser man X-formade mönster.
Vad är orsaken? (2p)
7. På grund av att gener undergår duplikationer och förluster är ju som bekant ett genträd
inte alltid likt det verkliga artträdet. Det har därför föreslagits att man skattar artträd med
hela genom som indata, snarare än väl valda gensekvenser. Som mått på likhet har man till
exempel använt genomens GC-innehåll. Man kan också tänka sig att använda kunskap om
vilka genfamiljer som används i ett genom. Tänk dig att du får som indata en matris M där
ett element Mij anger (med ’1’) om genfamilj j återfinns i genom i eller inte (med ’0’).
(a) Vilken metod skulle du använda för att återskapa artträdet och varför? (2p)
(b) En matris som M kallas ibland en fylogenetisk profil och används då till att sammanlänka genfamiljer som är funktionellt relaterade. Vilken egenskap kan du förvänta
dig av kolumner i M där genfamiljerna är inblandade i samma funktion? (1p)
8. När man använder dolda Markovmodeller (HMM:er) för att leta instanser av domäner i en
domändatabas gör man upprepade jämförelser av HMM:er med proteinsekvenser. Det är
naturligtvis viktigt att veta huruvida den score man får för varje jämförelse är signifikant
eller inte. Till detta använder man ofta ett E värde eftersom man, precis som i fallet med
lokala linjeringar, kan anta att HMM-score följer en extremvärdesfördelning.
Antag nu att du har skäl att ifrågasätta presenterade E-värden och som komplement vill ha
ett Z-värde för HMM-score. Beskriv en metod för att givet en HMM och en proteinsekvens
beräkna Z-värdet för en deras HMM-score. (4p)
9. I flera stora genfamiljer, exempelvis Zn-fingergener, kan man finna medlemmarna lokaliserade nära varandra på kromosomerna. Om familjen har bildats genom successiva tandem
duplikationer, dvs en region dupliceras så att kopian hamnar intill originalet, så är det inte
så förvånande med många närliggande gener.
Hur skulle du, med dom verktyg som du har stött på i kursen, kunna härleda i vilken ordning
som generna har bildats? Din startpunkt är medlemmarna i en genfamilj från en organism
och deras placering på en kromosom. Utgå från enkla genduplikationer. (3p)
3
Figur 2: En dotplot från programmet MUMmer mellan två Chlamydiae-genom.
4

Tentamen i 2D1396 Bioinformatik, 29 mars 2005

Related documents

Products

Support

Tentamen i 2D1396 Bioinformatik, 29 mars 2005

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib