Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: NDAB01 Statistik; teori och tillämpning i biologi Datum och tid: 2011-05-28, 14-18 Jourhavande lärare: Oleg Sysoev Tillåtna hjälpmedel: Valfri räknedosa, kursbok (Zar) med valfria anteckningar och markering av texten. Betygsgränser: Tentamen omfattar totalt 20p. Godkänt från och med 12p, väl godkänt från och med 16p. Redovisa och motivera tydligt alla dina lösningar! Uppgift 1 (10p) I ett stickprov om 8 personer som har en viss sjukdom har man fått fram följande uppgifter om syresättningen av blodet vid vila: 21.1 18.7 19.8 20.1 19.2 19.1 19.5 18.6 1. Beräkna medelvärdet och standardavvikelsen. (2p) 2. Beräkna ett 95% konfidensintervall för μ. (2p) 3. beräkna ett 95% konfidensintervall för variansen i den fördelning som stickprovet dragits ur. (2p) 4. Personerna som beskrevs i deluppgift a) genomgår en behandling. Efter avslutad behandling mäter man igen. Siffrorna nedan avser syresättningen hos samma personer i samma ordning efter avslutad behandling. 22.0 19.0 20.0 20.7 19.9 18.7 19.4 19.1 Testa på 5% risknivå med någon lämplig ickeparametrisk metod nollhypotesen att det ej blivit någon ändring. (2p) 5. I ett stickprov om 10 friska personer har man fått följande sammanställning av syresättningen: ̅ =20.6, s2=1.1. Testa H0: μ2=μ1 H1: μ2>μ1 på 5% risknivå. Testet avser att jämföra den andra gruppen med den första INNAN behandlingen. (2p) Uppgift 2 (4p) En undersökning av några sångares egenskaper från en stor kör genomfördes i USA för att se om körsångarnas höjd (Height) beror på stämman (Part, antingen Alto eller Bass eller Soprano eller Tenor). Här kommer en sammanfattning av undersökningen: Descriptive Statistics: Height Variable Height Part Alto Bass Soprano Tenor N 19 19 19 19 N* 0 0 0 0 Mean 64,842 70,526 64,158 69,421 SE Mean 0,681 0,526 0,479 0,702 StDev 2,968 2,294 2,089 3,061 Minimum 60,000 66,000 60,000 65,000 Q1 62,000 68,000 62,000 67,000 Median 66,000 71,000 65,000 69,000 One-way ANOVA: Height versus Part Source Part Error Total DF 3 72 75 SS 585,32 500,42 1085,74 MS 195,11 6,95 F 28,07 P 0,000 Tillämpa Tukeys test med 95% konfidensnivå för att undersöka vilka stämmor som skiljer sig med avseende på höjden på körsångarna. Uppgift 3 (6p) I England undersöktes hur dödligheten påverkas av rökningen. Ett stickprov av personer från 25 olika yrken har valts och följande variabler registrerades (en observation motsvarar ett yrke): Smoking (kvoten mellan andelen rökande personer i detta yrke och andelen rökande personer i samtliga 25 yrken, gånger 100% ) Mortality (kvoten mellan andelen döda pga cancer i detta yrke och andelen döda pga cancer i samtliga 25 yrken, gånger 100%) Type = 0 eller 1 (”0” motsvarar yrken som ligger i kategorin ”tjänstemän”, ”1” motsvarar ”arbetare”) 1. Använd nedanstående utskriften och redogör den anpassade regressionsekvationen. Tolka regressionskoefficienterna. (1p) Regression Analysis: Mortality versus Smoking The regression equation is Mortality = - 2,9 + 1,09 Smoking Predictor Constant Smoking Coef -2,89 1,0875 S = 18,6154 SE Coef 23,03 0,2209 R-Sq = 51,3% T -0,13 4,92 P 0,901 0,000 R-Sq(adj) = 49,2% Analysis of Variance Source Regression Residual Error Total DF 1 23 24 SS 8395,7 7970,3 16366,0 MS 8395,7 346,5 F 24,23 P 0,000 2. Skatta 99% konfidensintervall för lutningen (β) och tolka den. (3p) 3. Den nya modellen (se nedan) tar hänsyn till arbetstyp. Redovisa de skattade regressionsekvationerna för kategorin ”tjänstemän” och ”arbetarna” och tolka dem. (2p) Regression Analysis: Mortality versus Smoking; Type The regression equation is Mortality = 4,6 + 0,919 Smoking + 13,0 Type Predictor Constant Smoking Type S = 18,3445 Coef 4,61 0,9187 12,99 SE Coef 23,42 0,2536 10,01 R-Sq = 54,8% T 0,20 3,62 1,30 P 0,846 0,002 0,208 R-Sq(adj) = 50,7%