Föreläsning 8. Jesper Rydén Matematiska institutionen, Uppsala universitet [email protected] Tillämpad statistik för STS • vt 2014 Exempel: Pris och boyta I Samband mellan två eller flera variabler? I Spridningsdiagram kan indikera samband I Matematisk/stokastisk modell? Enkel linjär regression Observationer y1 , . . . , yn av variablerna Y1 , . . . , Yn , antas oberoende med gemensam varians σ 2 . Väntevärdet µi = E[Yi ] beror på givna storheter. Enkel linjär regression: µi = α + β xi , i = 1, . . . , n Linjär syftar på uttryckets linjäritet i parametrarna (α, β). Även t.ex. µi = α + β1 xi + β2 xi2 + β3 sin xi innebär (multipel) linjär regression. Modell Låt x1 , . . . , xn vara givna (icke slumpmässiga) storheter. Antag vidare att Y1 , . . . , Yn är oberoende slumpvariabler med gemensam varians σ 2 och att µi = α + βxi . Vi har då en enkel linjär regressionsmodell. Storheten x kallas regressor eller förklarande variabel eller oberoende variabel. Slumpvariabeln Y (eller dess observerade värde y ) kallas för responsvariabel eller beroende variabel. Linjen för väntevärdet y = α + βx kallas för den teoretiska regressionslinjen, α benämnes intercept och β lutningskoefficient. Enkel linjär regression Minstakvadratmetoden används för att finna punktskattningar. Sök de parametrar som minimerar Q= n X (yi − α − βxi )2 . i=1 Man finner punktskattningarna Pn yi xi − nx̄ ȳ ∗ , β = Pi=1 n 2 2 i=1 xi − nx̄ där ȳ = n−1 P yi och x̄ = n−1 P α∗ = ȳ − β ∗ x̄, xi . Skattad modell: yi∗ = α∗ + β ∗ xi med residualer ei = yi − yi∗ Idé: Minimera kvadratsumma Historisk kommentar: MK-metoden “The method of least squares is the automobile of modern statistical analysis: despite its limitations, occasional accidents, and incidental pollution, it and its numerous variations, extensions, and related conveyances carry the bulk of statistical analyses, and are known and valued by nearly all. But there has been some dispute, historically, as who was the Henry Ford of statistics.” SM Stigler (1981) En vetenskaplig dispyt Adrien-Marie Legendre Carl Friedrich Gauss (1752-1833) (1777-1855) Publikation om metoden 1805. Publikation om metoden 1809. J.D. Forbes’ experiment Estimate altitude above sea level from measurements of boiling point of water. Motivation: Difficulties in transportation of fragile barometers. 32 Barometric pressure (inches Hg) 30 28 26 24 22 20 195 200 205 Boiling point (F) 210 Residuals (Forbes’ data) 0.8 Residual value 0.6 0.4 0.2 0 −0.2 −0.4 0 2 4 6 8 10 12 Residual number 14 16 Residuals (Forbes’ data) Normal probability plot 5 4 Quantile 3 2 1 0 −1 −2 −0.4 −0.2 0 0.2 Data 0.4 0.6 0.8 Varning: Orsak/verkan Beakta variablers inverkan! Datas karaktär: tvärsnittsdata (insamlat vid en given tidpunkt) eller longitudinella (insamlade över tid). Datainsamling? Experiment, enkäter; samhällsvetenskap/naturvetenskap. Förklaringsgrad: Enkel linjär regression Förklaringsgrad: Pn e2 R 2 = 1 − Pn i=1 i 2 i=1 (yi − ȳ ) Det gäller alltid 0 ≤ R 2 ≤ 1. Ju närmare R 2 = 1, desto bättre anpassning För enkel linjär regression gäller R 2 = r 2 där r 2 är den kvadrerade skattade korrelationskoefficienten. Enkel linjär regression: prediktion av väntevärde Givet x = x0 , prediktera värdet av beroende variabeln y genom att använda linjen: y0∗ = α∗ + β ∗ x0 Man finner E[Y0∗ ] = α + βx0 (x0 − x̄)2 ∗ 2 1 + Pn V[Y0 ] = σ 2 n i=1 (xi − x̄) Enkel linjär regression: prediktionsintervall En framtida observation y0 svarande till x0 ; vi är intresserade av differensen y0 − y0∗ . E[Y0 − Y0∗ ] = 0 V[Y0 − Y0∗ ] = V[Y0 ] + V[Y0∗ ] (x0 − x̄)2 1 2 = σ 1 + + Pn 2 n i=1 (xi − x̄) Forbes’ data Barometric pressure (inches Hg) 32 30 28 26 24 22 20 18 190 195 200 205 Boiling point (F) 210 215 Regression med fel i bägge variablerna * EIV-modell (Error In Variables). Givet: observationspar (x1 , y1 ), . . . , (xn , yn ). xi = ξi + δi yi = β0 + β1 ξi + i där ξi är okända värden och δi samt i är oberoende fel med varianser σδ2 resp. σ2 . MK- och ML-skattningar kan härledas. Multipel regression Beroende variabel (responsvariabel): y Oberoende variabler (förklarande variabler, regressorvariabler, carriers): x1 , x2 , . . . , xk Matematiskt samband: y = f (x1 , x2 , . . . , xk ) där f () är en funktion. Linjär modell Exempel, p = 2: y = β0 + β1 x1 + β2 x2 + OBS! Linjäriteten avser parametrarna βi . Även y = β0 + β1 x1 + β2 x2 + β11 x12 + β22 x22 + β12 x1 x2 + är att betrakta som en linjär modell. Responsytor, exempel 1 y = 35.5 + 10.5x1 + 5.5x2 + 0.5x1 x2 Responsytor, exempel 2 y = 35.5 + 10.5x1 + 5.5x2 + 8x1 x2 Multipel regression: matrisnotation Matrisnotation: y = Xβ + där y= y1 y2 .. . , X= yn och β= β0 β1 .. . βk 1 x11 x12 . . . xik 1 x21 x22 . . . x2k .. .. . .. . .. . . 1 xn1 xn2 . . . xnk , = 1 2 .. . n Enkel linjär regression: matrisnotation Matrisnotation: y = Xβ + där y= y1 y2 .. . X= , yn och 1 x1 1 x2 .. .. . . 1 xn β= β0 β1 , = 1 2 .. . n MK-metoden för estimering av parametrar Miniminera L(β) = (y − Xβ)T (y − Xβ) vilket leder till normalekvationerna XT X β = X T y och MK-skattningen b = (XT X)−1 XT y β Anmärkning. Vid numerisk behandling används ofta en QR-faktorisering av matrisen X. Anpassade värden och hattmatris Anpassade värden ŷ ges av ŷ = X β̂ = Hy där H = X(XT X)−1 XT ofta kallas hattmatrisen. Residualer: e = y − ŷ Mer om skattningar Väntevärdesriktig skattning med Egenskaper hos skattningen β̂ Cov(β̂) = σ 2 (XT X)−1 Skattning av σ 2 Inför residualkvadratsumman T Q0 = SSE = e e = n X (yi − ŷi )2 i=1 En väntevärdesriktig skattning ges av σ̂ 2 = Q0 n−k −1 och vidare gäller σ12 Q0 ∈ χ2 (n − k − 1) (följer av räkneregler för linjärkomb. av stok. vektor) Spjälkning av kvadratsummor Man kan visa att n n n X X X (yi − ȳ )2 = (ŷi − ȳ )2 + (yi − ŷi )2 i=1 i=1 i=1 Tolkning: Total variation = Förklarad variation + Oförklarad variation Vanlig engelsk beteckning: SST = SSR + SSE Kompendium: QTOT = QREGR + QRES Förklaringsgrad Förklaringsgrad (coefficient of multiple determination): R2 = SSE SSR =1− SST SST Ju fler förklarande variabler, desto högre värde på R 2 . Emellanåt används dessutom en besläktad storhet. Justerad förklaringsgrad (adjusted R 2 statistic): n−1 SSE /(n − k − 1) 2 Radj = 1 − =1− (1 − R 2 ) SSR /(n − 1) n−k −1 Statistisk analys: Test av regression Antag att i ∈ N(0, σ 2 ). Hypoteser: H0 : β1 = β2 = · · · = βk = 0 H1 : βj 6= 0 för minst ett j Teststorhet: F0 = SSR /k SSE /(n − k − 1) Förkasta H0 om F0 > Fα (n − k − 1). SSE SSR T = yT y − β̂ XT y P ( ni=1 yi )2 T T = β̂ X y − n Test av enskilda parametrar Hypoteser: H0 : βj = 0 mot H1 : βj 6= 0 Beteckna i matrisen (XT X)−1 elementen med cij . Då gäller βj ∼ N(βj , σ 2 cjj ). Teststorhet: β̂j − 0 t0 = p σ̂ 2 cjj Förkasta H0 om |t0 | > tα/2 (n − k − 1). Konfidensintervall Ett 100(1 − α) % konfidensintervall för βj , j = 0, 1, . . . , k, ges av q q 2 2 β̂j − tα/2 (n − k − 1) σ̂ cjj , β̂j + tα/2 (n − k − 1) σ̂ cjj Konfidensintervall för väntevärde vid x0 : q T T 2 T −1 x0 β̂ ± tα/2 (n − k − 1) σ̂ x0 (X X) x0 Prediktionsintervall vid vid x0 : q T T 2 T −1 x0 β̂ ± tα/2 (n − p) 1 + σ̂ x0 (X X) x0 Exempel med R: Miljögifter och fiskar Studier av DDT-halten hos fiskarter utefter en flod i Alabama. En kemisk industri finns belägen längs floden. Totalt gjordes mätningar på 144 fiskar. De fem första observationerna: 1 2 3 4 5 River FCM FCM FCM FCM FCM Mile 5 5 5 5 5 Species CCATFISH CCATFISH CCATFISH CCATFISH CCATFISH Length 42.50 44.00 41.50 39.00 50.50 Weight 732 795 547 465 1252 DDT 10.00 16.00 23.00 21.00 50.00 Exempel med R: Miljögifter och fiskar Antag att vi vill skatta parametrar i modellen y = β0 + β1 x1 + β2 x2 + β3 x3 + Responsvariabel: y =DDT Förklarande variabler: x1 =Mile, x2 =Length, x3 =Weight Call: lm(formula = DDT ∼ Mile + Length + Weight, data = fishes) (Intercept) Mile Length Weight Estimate -108.0677 0.0851 3.7709 -0.0494 Std. Error 62.7004 0.0822 1.6189 0.0293 t value -1.72 1.03 2.33 -1.69 Pr(>|t|) 0.0870 0.3025 0.0213 0.0935 Residual standard error: 97.48 on 140 degrees of freedom Multiple R-squared: 0.03887, Adjusted R-squared: 0.01827 F-statistic: 1.887 on 3 and 140 DF, p-value: 0.1345 Miljögifter och fiskar (a) Ange en skattning av standardavvikelsen σ för . Från R-utskriften finner vi direkt σ ∗ = 97.48. (b) Ger data tillräckligt belägg för att dra slutsatsen att DDT-halten ökar med ökande längd (signifikansnivå 0.05)? Hypotestest: H0 : β2 = 0 H1 : β2 > 0 Från R-utskriften finner vi värde på teststorheten för t-test: t = 2.33. Under antagande om normalfördelade residualer . förkastas H0 om t > t0.05 (142) = 1.66, dvs. vi förkastar här H0 . Alternativt, studera motsvarande p-värde för aktuell variabel (ges i utskriften): p = 0.0213/2 = 0.01065. Slutsats: Förkasta H0 på nivån 0.05. Miljögifter och fiskar (c) Beräkna ett 95% konfidensintervall för β3 . Tolka intervallet. Ett intervall ges av Iβ3 = [β3∗ ± t0.025 (142)d[β3∗ ] ] R-utskriften: . . β3∗ = −0.0494 och medelfelet d[β3∗ ] = 0.0293. . Tabell eller dator ger t0.025 (142) = 1.98. Intervallet ges av [−0.11, 0.0085]. Tolkning: För varje grams ökning av fiskens vikt kan vi med 95% säkerhet slå fast att ökningen i DDT-halt ligger i intervallet [−0.11, 0.0085], om övriga variabler i modellen, Mile och Length, hålls konstanta. Miljögifter och fiskar (d) Testa regressionsmodellen på signifikansnivån 0.05. Hypotestest: H0 : β1 = β2 = β3 = 0 H1 : Minst ett βi 6= 0 Detta kan testas med ett F-test, värdet på teststorheten kan utläsas: F = 1.89. H0 förkastas om F > F0.05 (3, 140) = 2.67, dvs. i detta fall förkastas inte H0 . Motsvarande p-värde kan utläsas: p = 0.1345; förkasta inte H0 på någon av de vanligast förekommande nivåerna. De förklarande variablerna förklarar inte tillräckligt bra responsvariabeln.