Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik, 7.5p. Tid: Fredagen 29 augusti 2014 kl 08.30 - 12.30 Examinator: Erik Kristiansson Jour: Erik Kristiansson, tel 070-5259751. Hjälpmedel: kalkylator, egen handskriven formelsamling (fyra A4-sidor) samt med skrivningen utdelade tabellsidor. Max är 32 poäng. För godkänt krävs minst 15 poäng, för betyget 4 krävs 21 poäng och för 5 krävs 26 poäng. Uppgifterna kommer inte i svårighetsordning. 1. Den kontinuerliga stokastiska variabeln X har en täthetsfunktion fX (x) = Kex−1 , 1 ≤ x ≤ 3 där K är en okänd konstant. (a) Bestäm K så att fX blir en giltig täthetsfunktion. (b) Beräkna väntevärdet för X. (c) Beräkna medianen för X. (4 p) 2. Inför höstens riksdagsval genomfördes en opinionsundersökning där n = 1521 väljare tillfrågades angående deras partitillhörighet. Av de tillfrågade svarade 837 att de tänkte rösta på Matematikpartier. Har Matematikpartiet egen majoritet enligt mätningen? Svara på frågan genom att genomföra ett lämpligt hypotestest (signifikansnivå 0.05) eller beräkna ett lämpligt konfidensintervall (konfidensgrad 95%). Glöm inte att motivera fördelningsantaganden och formulera eventuella hypoteser. (4 p) 3. Vid en klinisk prövning undersöks effekten av ett blodtryckssänkande läkemedel. I studien deltar n = 11 individer och deras blodtryck uppmätes (i mmHg) före (x1 , . . . , x11 ) och 12 timmar efter (y1 , . . . , y11 ) medicinering. Stickprovsmedelvärden och stickprovsstandardavvikelser för de två mätningstillfällena beräknades till x̄ = 167.3, ȳ = 155.4, sx = 23.2, sy = 23.3. Även stickprovsmedelvärde och stickprovstandardavvikelsen för differenserna di = xi − yi beräknades, d¯ = 11.9 och sd = 10.8. 1 (a) Beskriv skillnaden mellan ett parat hypotestest test och ett hypotestest för två stickprov. Vilket är lämpligast i det här fallet? Motivera! (b) Formulera hypoteser och fördelningsantaganden samt genomför testet du fann lämpligast i (a). Testet ska vara enkelsidigt med signifikansnivå α = 0.01. (5 p) 4. Sekvensering är en process för att bestämma ordningen på nukleotiderna i DNA. I processen kan en nukleotid sekvenseras felaktigt med sannolikheten p = 0.01. Felen kan antas vara oberoende. (a) Antag att ett 100 nukleotider långt DNA-fragment sekvenseras. Vad är sannolikheten att fragmentet är helt felfritt och inte innehåller några fel. (b) Antag att 10000 fragment bestående av 100 nukleotider var sekvenseras. Låt Y vara antalet fragment som helt felfria. Beräkna en approximativ approximativ normalfördelning för Y . Glöm inte att motivera dina approximationer! (c) Beräkna approximativt sannolikheten att 37.5% av de 10000 fragmenten är felfria, dvs P(Y ≥ 3750). (5 p) 5. Vid tillverkning av två komponentpar kan felet i tjocklek beskrivas enligt den simultana täthetsfunktionen f(X,Y ) = 4 (1 − xy) , 0 < x < 1, 0 < y < 1. 3 Låt Z vara det sammanlagda felet för båda komponenterna, dvs Z = X +Y. (a) Beräkna väntevärdet av det sammanlagda felet Z. (b) Beräkna sannolikheten att det sammanlagda felet överstiger 1. (5 p) 2 6. Låt X1 , X2 , . . . , Xn vara ett stickprov från en binomialfördelning med sannolikhetsfunktion k pX (x) = px (1 − p)k−x , x = 0, . . . , n. x Antag att parametern k är känd medans p är okänd. (a) Använd maximumlikelihood-metoden för att härleda en punktskattare p̂M L av p. (b) Visa att punktskattaren är väntevärdesriktig och beräkna dess varians. (c) Antag att k = 10 och vi observerar x1 , . . . , x5 till 4, 7, 6, 9, 6. Beräkna värdet på p̂M L samt dess standardfel. (5 p) Var god vänd blad! Tentan fortsätter på nästa sida! 3 7. The score matrix for a global alignment of the DNA sequences ”ACA” and ”AGTA”, using a gap score of -2 and match/mismatch scores from substitution matrix 1, is shown below. (a) Based on the score matrix shown here, give the global alignment(s) that have the optimal score. (b) Using a gap score of -2 and match/mismatch scores taken from substitution matrix 2, derive the score matrix for a global alignment of ”ACA” and ”AGTA”. Give the global alignment(s) that have the optimal score. (c) Discuss why substitution matrix 2 might be preferred to substitution matrix 1 when aligning DNA sequences. (4 p) Lycka till! 4