Lösningar till tentamen för kursen Statistisk inferensteori Torsdagen

STOCKHOLMS UNIVERSITET
MATEMATISKA INSTITUTIONEN
Avd. Matematisk statistik
TENTAMEN
Statistisk inferensteori
Torsdagen den 17 mars 2011
Lösningar till tentamen för kursen
Statistisk inferensteori
Torsdagen den 17 mars 2011 9 - 14
Examinator: Anders Björkström, tel. 16 45 54, [email protected]
————————————————
Uppgift 1
a) Rao-Blackwells sats.
b) Se Lindgren sid. 266
Uppgift 2
a) Score-funktionen V (θ) definieras som loglikelihoodens derivata med avseende på θ: V (θ) = d/dθ log L(θ). Den är en stokastisk variabel eftersom
den innehåller data X: V (θ, X) = d/dθ log L(θ, X) = f 0 (X, θ)/f (X, θ) (där
f 0 betyder derivering med avseende på θ). Detta ger
Z
E[V (θ, X)] =
f 0 (x, θ)
d
f (x, θ)dx =
f (x, θ)
dθ
Z
f (x, θ)dx =
d
1 = 0.
dθ
b) CGS kommer in i bilden tack vare att score-funktionen V (θ) är en summa
av n oberoende likafördelade stokastiska variabler:
V (θ, X) =
n
d X
log f (Xi ; θ).
dθ i=1
Detta ger att V (θ, X) är approximativt normalfördelad för stora n. Därav
följer att ML-skattningen θ̂ också är approximativt N-fördelad. Det hänger
ihop såhär: Definitionsmässigt är θ̂ det tal för vilket V (θ̂, X) = 0. Taylorutvecklar man funktionen V (θ, X) kring punkten θ̂ så får man
0 = V (θ̂, X) ≈ V (θ, X) + (θ̂ − θ) V 0 (θ),
Statistisk inferensteori, Torsdagen den 17 mars 2011
2
som visar att approximativt (θ̂ − θ) V 0 (θ) = −V (θ, X). Här är högerledet
en normalfördelad variabel, alltså är vänsterledet också det. (Man behöver
√
multiplicera formeln med n för att inte båda leden skall gå mot noll, men
det påverkar inte fördelningstypen).
Uppgift 3
a) Den tvåparametriga familjen normalfördelningar N(ν, τ ), där både ν och
τ > 0 kan vara godtyckliga.
b) Vi hittar aposteriorifördelningen enligt den grova formeln “aposteriori ∝
apriori × likelihood”. Aprioritätheten är
2
1 (µ−ν)
1
√ e− 2 ( τ ) ,
τ 2π
och likelihoodfunktionen är
n
xi − µ 2
−1 n
1 X
) ) = exp(( ) 2 (x̄ − µ)2 ).
L(µ) = (2πσ)−n/2 exp ((− ) (
2 i=1
σ
2 σ
Aposteriorifördelningen är alltså proportionell mot
exp
−1 (µ − ν)2
2
τ
+
n(x̄ − µ)2 .
σ2
Vi ser att uttrycket innanför exp-funktionen är ett andragradspolynom i µ,
vilket betyder att aposteriorifördelningen är en normalfördelning.
c) Förlustfunktionen minimeras av fördelningens median, men normalfördelningen
är ju symmetrisk, så vi kan lika gärna använda väntevärdet. Genom kvadratkomplettering kan vi skriva uttrycket innanför exp-funktionen härovan som
−1 1
n ν/τ + nx̄/σ 2 2
+ 2
µ−
+ (termer utan µ)
2 τ
σ
1/τ + n/σ 2
vilket visar att aposteriorifördelningens väntevärde är
ν/τ + nx̄/σ 2
1/τ + n/σ 2
Vi vet ν = 7, τ = 1, n = 1, x̄ = x = 6.7 och σ 2 = 0.32 = 0.09, vilket ger
väntevärdesskattningen 6.72 kg.
3
Statistisk inferensteori, Torsdagen den 17 mars 2011
Uppgift 4
Apriorifördelningen har en täthet som är proportionell mot θr−1 (1 − θ)s−1
där talen r och s skall uppfylla villkoren r/(r + s) = 1/2 och rs/((r + s +
1)(r + s)2 ) = 0.2. Lösning av detta ekvationssystem ger s = r = 1/8, så
aprioritätheten är alltså proportionell mot θ−7/8 (1 − θ)−7/8 . För att hitta
likelihooden behöver vi L(θ) = P(Y = y). Händelsen Y = y förutsätter att
det kommer 6 lyckade försök bland de y-1 första, och att nästa försök därefter
blir lyckat. Eftersom de båda händelserna är oberoende så är sannolikheten
(y−1)!/((6!(y−7)!)θ6 (1−θ)y−1 θ, så att aposterioritätheten blir proportionell
mot θ7−7/8 (1 − θ)y−7−7/8 dvs Beta(57/8, y − 7/8). Bayesskattningen vid
kvadratisk förlustfunktion är aposteriorifördelningens väntevärde, dvs
57/8
57
=
57/8 + y − 7/8
8y + 50
Uppgift 5
a) Om n är stort är
Pn
approximativt N(nµ, nµ2 ), så att
i=1 Xi
Pn
− nµ
√
≤ 1.96 ≈ 0.95.
nµ
i=1 Xi
P − 1.96 ≤
Man kan skriva om den dubbla olikheten så att man får
Pn
Pn X
i=1 i
i=1 Xi
√ ≤µ≤
√
P
≈ 0.95
n + 1.96 n
n − 1.96 n
vilket ger konfidensintervallet
Pn
n
i=1 Xi
√ ,
√
n + 1.96 n n − 1.96 n
i=1 Xi
P
b) Längden på det konfidensintervall vi kom fram till i a-delen är
Pn
i=1 Xi
Pn
i=1 Xi
√ −
√
n − 1.96 n
n + 1.96 n
vars väntevärde är
nµ
1
1
√ −
√ ,
n − 1.96 n
n + 1.96 n
som ska vara högst 0.2µ. Detta leder till en andragradsolikhet i
innehåller µ. Vi får
√
1.96
n≥ √
26 − 5
som ger n ≥ 392.
√
n som inte
4
Statistisk inferensteori, Torsdagen den 17 mars 2011
Uppgift 6
a) Ett likformigt test erhålls genom att först testa nollhypotesen mot en
enkel hypotes inom alternativhypotesen. Vi väljer ett godtyckligt θ1 > 0 och
testar θ = 0 mot θ = θ1 . Enligt Neyman-Pearsons lemma ges det starkaste
testet av ett villkor av typen
Λ∗ =
f (X, 0)
< K
f (X, θ1 )
för något lämpligt valt K. Sätter vi in det givna uttrycket för f så får vi
Λ∗ =
1/2
C(θ1 )(1 − X 2 )θ1
Man inser att C(θ1 ) är ett positivt tal, den är ju bestämd genom villkoret
Z 1
C(θ1 )
(1 − x2 )θ1 dx = 1.
(∗)
−1
Alltså är Λ∗ är en växande funktion av X 2 , eller, ekvivalent, av |X|. Vi skall
alltså förkasta H0 om |X| < K 0 , där K 0 ska anpassas så att α = 0.05. Genom
att sätta in θ = 0 i uttrycket för f (x, θ) ser man att om H0 är sann så är X
likformigt fördelad på (−1, 1), vilket ger K 0 = 0.05. Detta kritiska område
beror inte på vilket θ1 vi valde, och testet är alltså likformigt starkast för
den sammansatta alternativhypotesen θ > 0.
b) Styrkan är sannolikheten att förkasta H0 . Eftersom det kritiska området
är |X| < 0.05 så blir styrkan, för ett godtyckligt θ-värde:
Z 0.05
Pθ (|X| < 0.05) =
C(θ) (1 − x2 )θ dx.
−0.05
Formeln (∗) ger C(1) = 3/4 vilket ger styrkan Pθ=1 (|X| < 0.05) = 0.0749.
————————————————