STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN Avd. Matematisk statistik TENTAMEN Statistisk inferensteori Torsdagen den 17 mars 2011 Lösningar till tentamen för kursen Statistisk inferensteori Torsdagen den 17 mars 2011 9 - 14 Examinator: Anders Björkström, tel. 16 45 54, [email protected] ———————————————— Uppgift 1 a) Rao-Blackwells sats. b) Se Lindgren sid. 266 Uppgift 2 a) Score-funktionen V (θ) definieras som loglikelihoodens derivata med avseende på θ: V (θ) = d/dθ log L(θ). Den är en stokastisk variabel eftersom den innehåller data X: V (θ, X) = d/dθ log L(θ, X) = f 0 (X, θ)/f (X, θ) (där f 0 betyder derivering med avseende på θ). Detta ger Z E[V (θ, X)] = f 0 (x, θ) d f (x, θ)dx = f (x, θ) dθ Z f (x, θ)dx = d 1 = 0. dθ b) CGS kommer in i bilden tack vare att score-funktionen V (θ) är en summa av n oberoende likafördelade stokastiska variabler: V (θ, X) = n d X log f (Xi ; θ). dθ i=1 Detta ger att V (θ, X) är approximativt normalfördelad för stora n. Därav följer att ML-skattningen θ̂ också är approximativt N-fördelad. Det hänger ihop såhär: Definitionsmässigt är θ̂ det tal för vilket V (θ̂, X) = 0. Taylorutvecklar man funktionen V (θ, X) kring punkten θ̂ så får man 0 = V (θ̂, X) ≈ V (θ, X) + (θ̂ − θ) V 0 (θ), Statistisk inferensteori, Torsdagen den 17 mars 2011 2 som visar att approximativt (θ̂ − θ) V 0 (θ) = −V (θ, X). Här är högerledet en normalfördelad variabel, alltså är vänsterledet också det. (Man behöver √ multiplicera formeln med n för att inte båda leden skall gå mot noll, men det påverkar inte fördelningstypen). Uppgift 3 a) Den tvåparametriga familjen normalfördelningar N(ν, τ ), där både ν och τ > 0 kan vara godtyckliga. b) Vi hittar aposteriorifördelningen enligt den grova formeln “aposteriori ∝ apriori × likelihood”. Aprioritätheten är 2 1 (µ−ν) 1 √ e− 2 ( τ ) , τ 2π och likelihoodfunktionen är n xi − µ 2 −1 n 1 X ) ) = exp(( ) 2 (x̄ − µ)2 ). L(µ) = (2πσ)−n/2 exp ((− ) ( 2 i=1 σ 2 σ Aposteriorifördelningen är alltså proportionell mot exp −1 (µ − ν)2 2 τ + n(x̄ − µ)2 . σ2 Vi ser att uttrycket innanför exp-funktionen är ett andragradspolynom i µ, vilket betyder att aposteriorifördelningen är en normalfördelning. c) Förlustfunktionen minimeras av fördelningens median, men normalfördelningen är ju symmetrisk, så vi kan lika gärna använda väntevärdet. Genom kvadratkomplettering kan vi skriva uttrycket innanför exp-funktionen härovan som −1 1 n ν/τ + nx̄/σ 2 2 + 2 µ− + (termer utan µ) 2 τ σ 1/τ + n/σ 2 vilket visar att aposteriorifördelningens väntevärde är ν/τ + nx̄/σ 2 1/τ + n/σ 2 Vi vet ν = 7, τ = 1, n = 1, x̄ = x = 6.7 och σ 2 = 0.32 = 0.09, vilket ger väntevärdesskattningen 6.72 kg. 3 Statistisk inferensteori, Torsdagen den 17 mars 2011 Uppgift 4 Apriorifördelningen har en täthet som är proportionell mot θr−1 (1 − θ)s−1 där talen r och s skall uppfylla villkoren r/(r + s) = 1/2 och rs/((r + s + 1)(r + s)2 ) = 0.2. Lösning av detta ekvationssystem ger s = r = 1/8, så aprioritätheten är alltså proportionell mot θ−7/8 (1 − θ)−7/8 . För att hitta likelihooden behöver vi L(θ) = P(Y = y). Händelsen Y = y förutsätter att det kommer 6 lyckade försök bland de y-1 första, och att nästa försök därefter blir lyckat. Eftersom de båda händelserna är oberoende så är sannolikheten (y−1)!/((6!(y−7)!)θ6 (1−θ)y−1 θ, så att aposterioritätheten blir proportionell mot θ7−7/8 (1 − θ)y−7−7/8 dvs Beta(57/8, y − 7/8). Bayesskattningen vid kvadratisk förlustfunktion är aposteriorifördelningens väntevärde, dvs 57/8 57 = 57/8 + y − 7/8 8y + 50 Uppgift 5 a) Om n är stort är Pn approximativt N(nµ, nµ2 ), så att i=1 Xi Pn − nµ √ ≤ 1.96 ≈ 0.95. nµ i=1 Xi P − 1.96 ≤ Man kan skriva om den dubbla olikheten så att man får Pn Pn X i=1 i i=1 Xi √ ≤µ≤ √ P ≈ 0.95 n + 1.96 n n − 1.96 n vilket ger konfidensintervallet Pn n i=1 Xi √ , √ n + 1.96 n n − 1.96 n i=1 Xi P b) Längden på det konfidensintervall vi kom fram till i a-delen är Pn i=1 Xi Pn i=1 Xi √ − √ n − 1.96 n n + 1.96 n vars väntevärde är nµ 1 1 √ − √ , n − 1.96 n n + 1.96 n som ska vara högst 0.2µ. Detta leder till en andragradsolikhet i innehåller µ. Vi får √ 1.96 n≥ √ 26 − 5 som ger n ≥ 392. √ n som inte 4 Statistisk inferensteori, Torsdagen den 17 mars 2011 Uppgift 6 a) Ett likformigt test erhålls genom att först testa nollhypotesen mot en enkel hypotes inom alternativhypotesen. Vi väljer ett godtyckligt θ1 > 0 och testar θ = 0 mot θ = θ1 . Enligt Neyman-Pearsons lemma ges det starkaste testet av ett villkor av typen Λ∗ = f (X, 0) < K f (X, θ1 ) för något lämpligt valt K. Sätter vi in det givna uttrycket för f så får vi Λ∗ = 1/2 C(θ1 )(1 − X 2 )θ1 Man inser att C(θ1 ) är ett positivt tal, den är ju bestämd genom villkoret Z 1 C(θ1 ) (1 − x2 )θ1 dx = 1. (∗) −1 Alltså är Λ∗ är en växande funktion av X 2 , eller, ekvivalent, av |X|. Vi skall alltså förkasta H0 om |X| < K 0 , där K 0 ska anpassas så att α = 0.05. Genom att sätta in θ = 0 i uttrycket för f (x, θ) ser man att om H0 är sann så är X likformigt fördelad på (−1, 1), vilket ger K 0 = 0.05. Detta kritiska område beror inte på vilket θ1 vi valde, och testet är alltså likformigt starkast för den sammansatta alternativhypotesen θ > 0. b) Styrkan är sannolikheten att förkasta H0 . Eftersom det kritiska området är |X| < 0.05 så blir styrkan, för ett godtyckligt θ-värde: Z 0.05 Pθ (|X| < 0.05) = C(θ) (1 − x2 )θ dx. −0.05 Formeln (∗) ger C(1) = 3/4 vilket ger styrkan Pθ=1 (|X| < 0.05) = 0.0749. ————————————————