Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Föreläsningsmanus i matematisk statistik
för lantmätare, vecka 5 HT06
Bengt Ringnér
September 20, 2006
1
Inledning
Detta är preliminärt undervisningsmaterial. Synpunkter är välkomna.
2
2.1
Väntevärde och standardavvikelse
Ändlig population
Populationen består av N objekt som vart och ett är försett med ett eller
flera tal; talen som hör till objekt nr k betecknas med xk , yk , zk , etc. Exempel är individer i Sverige med inkomst, ålder, hyra, eller företag i EU
med omsättning, antal anställda, aktiekapital, eller, för enkelhets skull, en
urna med lappar på vilka olika tal står skrivna. Nu definieras populationsmedelvärdet, t ex medelinkomsten, som
µ=
N
1 X
xk .
N
k=1
I andra delen av kursen skall vi införa stickprovsmedelvärdet som man får
genom att dra n objekt slumpmässigt ur populationen och beräkna deras
medelvärde, vilket kan betecknas med m eller x̄. Man använder m som
skattning av µ. Vidare definieras populationsstandardavvikelsen som
v
u
N
u1 X
t
(xk − µ)2 .
σ=
N
k=1
Populationsvariansen definieras som σ 2 . Den är alltså medelvärdet av talen
(x1 − µ)2 , . . . , (xN − µ)2 . Motsvarigheterna i stickprovsfallet betecknas med
1
s resp. s2 , men här dividerar man med n − 1 istället för med n av tekniska
skäl.
Medelvärde och standardavvikelse är exempel på läges- resp. spridningsmått. Ett annat lägesmått är µ̃, medianen, medianinkomsten är sådan
att halva befolkningen har lägre inkomst än så och den andra halvan högre.
Denna är ofta mer realistisk än medelinkomsten eftersom den inte kan ”dras
upp” av ett fåtal mycket rika. Alternativa spridningsmått är
N
1 X
|xk − µ|,
N
N
1 X
|xk − µ̃|
N
k=1
k=1
eller medianen av |x1 − µ̃|, . . . , |xN − µ̃|. Anledningen till att medelvärde
och standardavvikelse är så vanligt förekommande är att man har enkla
räkneregler för dem.
Om x anger temperaturen i grader Celsius och y samma temperatur i
grader Fahrenheit gäller yk = (9/5)xk + 32. Samma relation gäller rimligtvis
för medeltemperaturen, vilket stämmer med definitionen enligt
µY = µ(9/5)X+32
N
N
N
1 X 9
9
9 1 X
1 X
yk =
( xk +32) =
xk +32 = µX +32.
=
N
N
5
5N
5
k=1
k=1
k=1
Spridningen i Fahrenheitvärdena bör rimligtvis vara 9/5 gånger så stor som
Celsiusvärdenas spridning, vilket också stämmer enligt
2
σY2 = σ(9/5)X+32
=
N
N
1 X
9
1 X 9
(yk − µY )2 =
( xk + 32 − ( µX + 32))2 =
N
N
5
5
k=1
k=1
N
9
9 1 X
2
.
(xk − µX )2 = ( )2 σX
= ( )2
5 N
5
k=1
Om istället yk = xk + zk kan man addera medelvärdena eftersom
µY = µX+Z
N
N
N
N
1 X
1 X
1 X
1 X
=
yk =
(xk +zk ) =
xk +
zk = µX +µZ .
N
N
N
N
k=1
k=1
k=1
k=1
För standardavvikelse och varians blir det mer komplicerat;
2
σY2 = σX+Z
=
N
N
1 X
1 X
(yk − µY )2 =
((xk − µX ) + (zk − µZ ))2 =
N
N
k=1
k=1
2
=
N
N
N
1 X
1 X
1 X
(xk − µX )2 +
(zk − µZ )2 +2
(xk − µX )(zk − µZ ).
N
N
N
k=1
k=1
k=1
{z
} |
{z
}
|
2
σX
2
σZ
När vi övergår till stokastiska variabler kommer det att visa sig att om X
och Z är oberoende kommer den sista termen att försvinna och varianserna
adderas. Man kan förklara detta som att x-värden som är större än µX
hänger ihop både med z-värden som är större än µZ och z-värden som är
mindre än µZ . I första fallet är (xk − µX )(zk − µZ ) positiv, i andra fallet
negativ. Om x och z varierar oberoende av varandra kommer positiva och
negativa termer att ta ut varandra och resultatet blir noll.
Observera att även om variablerna är oberoende kan man inte addera
standardavvikelser. Här gäller istället
q
2 + σ2 .
σX+Z = σX
Z
För att anknyta till stokastiska variabler tänker vi oss att man drar ett
objekt slumpmässigt ur populationen så att varje objekt har sannolikheten
1/N att dras. Det x-värde man då råkar få är en stokastisk variabel som
betecknas med X. I fallet att alla x-värdena är heltal från 0 och uppåt och
det finns f0 nollor, f1 ettor, f2 tvåor, etc. gäller
µX =
N
1 X
1
xk = (0 · f0 + 1 · f1 + 2 · f2 + . . .) =
N
N
k=1
= 0 · P(X = 0) + 1 · P(X = 1) + 2 · P(X = 2) + . . . =
∞
X
jP(X = j).
j=0
I nästa avsnitt skall vi ta högerledet som definition av väntevärdet av X och
skriva det E(X).
2.2
Stokastiska variabler
Väntevärdet av en stokastisk variabel är, åtminstone i de sammanhang som
denna kurs är avsedd för, tänkt som medelvärdet av dess utfall i det långa
loppet, och sannolikheten för en händelse är tänkt som andelen gånger den
inträffar i det långa loppet. Detta gör att en stokastisk variabel också kan ses
som en oändlig population; om x1 , x2 , . . . betecknar resultaten vid oberoende
upprepningar av X gäller nämligen
µ≈
N
1 X
xj
N
j=1
3
med bättre och bättre approximation ju större N är. I fallet att X är diskret
och f0 är antalet nollor, f1 antalet ettor, osv, gäller
f0
≈ P(X = 0),
N
f1
≈ P(X = 1),
N
osv. Samma räkningar som vid ändlig population ger nu
∞
N
X
1 X
xj ≈
kP(X = k).
N
j=1
k=0
Om man tar med termen för k = 0 eller inte spelar ingen roll, eftersom
0 · P(X = k) = 0. Med hjälp av komplicerad matematik kan man visa att
vänsterledet konvergerar mot högerledet med sannolikheten ett då N går
mot oändligheten. I fallet att X är kontinuerlig kan man visa
Z ∞
N
1 X
xfX (x) dx
xj →
N
−∞
j=1
med sannolikhet ett då N → ∞. Minnesregel:
R
P
• Byt P(X = k) mot fX (x) dx och
mot .
Nu definierar man väntevärdet enligt
Definition 1
P∞
kP(X = k) om X diskret
E(X) = R ∞k=0
om X kontinuerlig.
−∞ xfX (x) dx
Enligt de tidigare resonemangen har vi räknereglerna
E(aX + b) = aE(X) + b
och
E(X + Z) = E(X) + E(Z).
För variansen, som definieras enligt
Definition 2
V(X) = E((X − µX )2 ),
4
gäller på motsvarande sätt
P∞
N
1 X
(k − µ)2 P(X = k) om X diskret
2
(xj − µ) → R ∞k=0
2
om X kontinuerlig.
N
−∞ (x − µ) fX (x) dx
j=1
och för termerna som vi vill bli av med i utvecklingen av variansen av X + Z
gäller
P∞
N
(k − µX )(l − µZ )P(X = k, Z = l)
om X diskret
1 X
R∞
(xj −µX )(zj −µZ ) → R ∞k,l=0
(x
−
µ
)(z
−
µ
)f
(x,
z)
dxdz
om X kontinuerlig.
N
X
Z X,Z
−∞ −∞
j=1
Om X och Z är oberoende gäller P(X = k, Z = l) = P(X = k)P(Z = l)
resp. fX,Z (x, z) = fX (x)fZ (z), och man kan skriva dubbelsumman resp.
dubbelintegralen som en produkt av två enkelsummor resp. enkelintegraler
som alla är noll. Resultatet är räknereglerna
V(aX + b) = a2 V(X)
och, om X och Z är oberoende,
V(X + Z) = V(X) + V(Z)
och
E(XZ) = E(X)E(Z).
Vi har också det praktiska sambandet
V(X) = E(X 2 ) − (E(X))2 ,
som är en motsvarighet till
N
N
N
X
X
1 X
xk )2 .
(xk − x̄)2 =
x2k − (
N
k=1
2.3
k=1
k=1
Exempel
Om X är poissonfördelad med parameter µ är
P(X = k) = e−µ
och alltså
E(X) =
∞
X
k=0
µk
,
k!
−µ µ
ke
k = 0, 1, 2, . . . .
k
k!
5
=
∞
X
k=1
ke−µ
µk
=
k!
=
∞
X
k=1
∞
e−µ
X
µk
µj+1
e−µ
=
=
(k − 1)!
j!
j=0
µ
∞
X
j=0
|
µj
= µ.
j!
{z }
e−µ
1
Detta stämmer med vad som förutskickades i samband med trafikräkningen
i avsnitt 3.1.3. Med samma teknik kommer man fram till att E(X(X −1)) =
µ2 , vilket ger E(X 2 ) = µ2 + µ. Alltså
V(X) = E(X 2 ) − (E(X))2 = µ2 + µ − µ2 = µ
och
D(X) =
√
µ.
Vad man har för praktisk nytta av detta kommer i samband med normalapproximationen i avsnitt 5.
Om X är exponentialfördelad med täthetsfunktion
fX (x) =
1 −x/µ
e
,
µ
x > 0,
är
E(X) =
Z
0
∞
1
x e−x/µ dx = [−e−x/µ · x]∞
0 −
µ
Z
∞
0
−e−x/µ · 1 dx = µ,
vilket stämmer med resonemanget kring medeltiden mellan punkteringar i
avsnitt 3.2.2. För att räkna ut variansen får man partialintegrera två gånger.
Resultatet blir
V(X) = µ2
och
D(X) = µ.
Även detta har man nytta vid normalapproximation.
2.4
Tillämpning på upprepade mätningar
Om man gör tre oberoende mätningar av samma sak och kallar resultaten
för X, Z resp. U med väntevärde µ och standardavvikelse σ, gäller
E(
X +Z +U
E(X + Z + U )
E(X) + E(Z) + E(U )
µ+µ+µ
)=
=
=
=µ
3
3
3
3
6
och
V(
V(X + Z + U )
V(X) + V(Z) + V(U )
σ2 + σ2 + σ2
σ2
X +Z +U
)=
=
=
=
,
3
32
32
32
3
dvs.
D(
X +Z+U
σ
)= √ .
3
3
Om man har n oberoende mätningar med samma µ och σ, får man på
motsvarande sätt
n
n
n
n
1X
1X
1 X
1X
E(X̄) = E(
Xk ) =
Xk ) = E(
E(Xk ) =
µ=µ
n
n
n
n
k=1
k=1
k=1
k=1
och
n
n
n
n
1 X
1 X 2 σ2
1 X
1X
,
Xk ) = 2
V(Xk ) = 2
σ =
Xk ) = 2 V(
V(X̄) = V(
n
n
n
n
n
k=1
dvs.
k=1
k=1
k=1
σ
D(X̄) = √ .
n
Detta har man nytta av vid normalfördelning, och det kommer också att
tas upp i samband med normalapproximation. Den praktiska tolkningen är:
• Standardavvikelsen talar om hur stort det slumpmässiga felet är, och
att det blir mindre ju fler observationer man har.
• Väntevärdet talar om hur man ligger i genomsnitt; om man har ett
positivt systematiskt fel, så är µ större än det verkliga värdet, och
tvärtom om det systematiska felet är negativt. Det systematiska felet
är oförändrat även om man bildar medelvärde av flera observationer.
Har slutligen X1 , X2 , . . . , Xn1 väntevärde µ1 och standardavvikelse σ1 ,
medan Y1 , Y2 , . . . , Yn2 har väntevärde µ2 och standardavvikelse σ2 , och alla
stokastiska variabler är oberoende, gäller
E(X̄ − Ȳ ) = µ1 − µ2
och
D(X̄ − Ȳ ) =
7
s
σ12 σ22
+ .
n1 n2
I specialfallet σ1 = σ2 = σ gäller
D(X̄ − Ȳ ) = σ
r
1
1
+ .
n1 n2
Om X- och Y -mätningarna har samma systematiska fel tar de ut varandra.
Genom att låta Y vara mätningar av någon storhet som man redan känner,
kan man använda fomlerna för att eliminera det systematiska felet, men det
går vi inte in på än.
2.5
2.5.1
Väntevärde och standardavvikelse för funktion av stokastiska
variabler
Exakta resultat
Om Y = g(X) kan man i och för sig först räkna ut sannolikhets- resp.
täthetsfunktion för Y enligt avsnitt 3.6.2 och sedan sätta in i definition 1,
men det är enklare att använda följande sats
Theorem 1
2.5.2
P∞
g(k)P(X = k) om X diskret
E(g(X)) = R ∞k=0
g(x)f
om X kontinuerlig.
X (x) dx
−∞
Gauß’ approximation
Här är också Y = g(X), men nu är g ungefär lineär, dvs. g(x) ≈ ax + b, i
området där X varierar. Detta ger
E(g(X)) ≈ E(aX + b) = aE(X) + b ≈ g(E(X))
och
2
′
V(g(X)) ≈ V(aX + b) = a V(X) ≈ g (E(X)) · V(X),
2
dvs.
D(g(X)) ≈ |g′ (E(X))| · D(X).
Den sista formeln kan förklaras med att derivatan talar ju om hur mycket en
liten förändring i X motsvarar för Y . Den slumpmässiga variationen ändras
då lika mycket.
Om Y = g(X, Z) med X och Z oberoende gäller på motsvarande sätt
E(g(X, Z)) ≈ g(E(X), E(Z))
8
och
D(g(X, Z)) ≈
p
|gx′ (E(X), E(Z))|2 · (D(X))2 + |gz′ (E(X), E(Z))|2 · (D(Z))2 ,
där gx′ och gz′ betyder partiella derivatan när man betraktar den andra variabeln som konstant.
2.6
Härledningar
Formlerna E(aX + b) = aE(X) + b och E(X + Z) = E(X) + E(Z), som
motiverades i avsnitt 2.2 kan bevisas matematiskt, men det hoppar vi över
i denna kurs.
2.7
Sammanfattning
I fullständig sammanfattning skulle innebära att jag skrev upp praktiskt
taget alla formler en gång till, så jag nöjer mig med några påpekanden.
• Variansen är bara till för att kunna räkna ut standardavvikelsen.
• För oberoende variabler adderar sig varianser.
• När man bryter ut en multiplikativ konstant ur en varians, kvadreras
den.
• V(X − Z) = V(X) + V(Z) om X och Z är oberoende. Observera att
det blir plus i högerledet, eftersom minustecknet kvadreras.
• Standardavvikelse mäter det slumpmässiga felet, och väntevärde minus ”sant värde” det systematiska felet.
9