TAMS65 - Föreläsning 8 Stokastiska vektorer och flerdimensionell normalfördelning Martin Singull Matematisk statistik Matematiska institutionen Innehåll I Beroendemått I Stokastiska vektorer I Flerdimensionell normalfördelning I Regressionsanalys - Inledande exempel TAMS65 - Fö8 1/55 Beroendemått Som beroendemått använder man ofta kovarians och korrelation. Definition Låt X och Y med väntevärden µX respektive µY . Då kallas cov(X , Y ) = E[(X − µX )(Y − µY )] för kovariansen mellan X och Y och cov(X , Y ) ρ(X , Y ) = p var(X ) var(Y ) för korrelationen mellan X och Y . TAMS65 - Fö8 2/55 Notera att cov(X , Y ) = ρ σX σY , där σX och σY betecknar standardavvikelserna. I sannolikhetsläran har vi redan studerat kovarians och korrelation. I satsen nedan finns de viktigaste egenskaperna samlade. Sats För kovariansen gäller (i) cov(X , X ) = var(X ), (ii) cov(X + a, Y + b) = cov(X , Y ), (iii) cov(aX , bY ) = ab cov(X , Y ), P P P Pn m m n a X , b Y (iv) cov i=1 i i j=1 j j = i=1 j=1 ai bj cov(Xi , Yj ) där a, b, a1 , . . . , am , b1 , . . . , bn är reella konstanter. TAMS65 - Fö8 3/55 Vidare, för korrelationen gäller att (v) |ρ(X , Y )| ≤ 1 och |ρ(X , Y )| = 1 om och endast om det finns ett linjärt samband mellan X och Y , (vi) om X och Y är oberoende så är ρ(X , Y ) = 0, (vii) ρ(X , Y ) = 0 medför inte att X och Y är oberoende. Egenskap (v ) antyder att ρ är ett mått på graden av linjärt samband mellan X och Y , se även figurer nedan. Definition De s.v. X och Y kallas okorrelerade om ρ(X , Y ) = 0. TAMS65 - Fö8 4/55 Skattning - Beroendemått Låt (x1 , y1 ), . . . , (xn , yn ) vara observationer av oberoende och likafördelade stokastiska variabler (X1 , Y1 ), . . . , (Xn , Yn ) med kovarians cov(Xj , Yj ) = c och korrelation ρ(Xj , Yj ) = ρ. Då skattar man kovariansen med n 1 X (xj − x̄)(yj − ȳ ) ĉ = n−1 j=1 och korrelationen med den empiriska korrelationen Pn 1 (xj − x̄)(yj − ȳ )/(n − 1) ρ̂ = p Pn . P [ 1 (xj − x̄)2 /(n − 1)][ n1 (yj − ȳ )2 /(n − 1)] Skattningen ρ̂ för korrelationen betecknas ofta med r . TAMS65 - Fö8 5/55 Exempel Anm. En stark korrelation behöver inte innebära något kausalt samband (orsakssamband). Ex. 1 Negativ korrelation mellan cigarrettkonsumtion och spädbarnsdödlighet innebär absolut inte att en ökning av cigarrettkonsumtionen ger en minskning av spädbarnsdödligheten. TAMS65 - Fö8 6/55 Exempel Ex. 2 Nedan finns samhörande värden på C1: antal lösta radiolicenser/1000 i England, C2: antal personer med mentala defekter per 10 000 invånare. Årsvisa observationer under en följd av år i radions barndom. TAMS65 - Fö8 7/55 Korrelation – 1 ρ̂ = −0.0041 TAMS65 - Fö8 (ρ = 0) 8/55 Korrelation – 2 ρ̂ = 0.4751 TAMS65 - Fö8 (ρ = 0.5) 9/55 Korrelation – 3 ρ̂ = −0.9075 TAMS65 - Fö8 (ρ = −0.9) 10/55 Korrelation – 4 ρ̂ = 0.8983 TAMS65 - Fö8 (ρ = 0.9) 11/55 Korrelation – 5 ρ̂ = 0.9886 TAMS65 - Fö8 (ρ = 0.99) 12/55 Korrelation – 6 ρ̂ = −0.0030 (y ∼ N(x 2 , 0.1)) TAMS65 - Fö8 13/55 Hypotesen H0 : ρ = 0 mot H1 : ρ 6= 0 kan prövas med hjälp av teststorheten √ ρ̂ n − 2 . u=p 1 − ρ̂2 Om H0 är sann, så gäller vid normalfördelning att den stokastiska variabeln U ∼ t(n − 2). Man förkastar alltså nollhypotesen på nivå α om |u| > t1−α/2 (n − 2). TAMS65 - Fö8 14/55 Exempel Antag attPvi har de s.v. X1 , . . . , Xn med cov(Xi , Xj ) = σij 6= 0 och låt Y = ni=1 ai Xi . Beräkna var(Y ). Lösning: Vi löser det för fallet n = 2. Låt E(Xi ) = µi var(Y ) = E((a1 X1 + a2 X2 − (a1 µ1 + a2 µ2 ))2 ) = E((a1 (X1 − µ1 ) + a2 (X2 − µ2 ))2 ) = E(a12 (X1 − µ1 )2 + a22 (X2 − µ2 )2 + 2a1 a2 (X1 − µ1 )(X2 − µ2 )) TAMS65 - Fö8 15/55 = a12 E((X1 − µ1 )2 ) + a22 E((X2 − µ2 )2 ) + 2a1 a2 E((X1 − µ1 )(X2 − µ2 )) = a12 var(X1 ) + a22 var(X2 ) + 2a1 a2 cov(X1 , X2 ) = a12 σ12 + a22 σ22 + 2a1 a2 σ12 . TAMS65 - Fö8 16/55 Allmän lösning är var(Y ) = n X n X ai aj σij , i=1 j=1 där σii = σi2 och σij = σji dvs. vi har var(Y ) = n X ai2 σi2 + i=1 n X X 2ai aj σij . i=1 i<j Lättare att hantera kovarianser med stokastiska vektorer! TAMS65 - Fö8 17/55 Stokastiska vektorer En stokastisk vektor definieras som X1 X2 X = . : n × 1, .. Xn där komponenterna Xi är vanliga endimensionella stokastiska variabler. TAMS65 - Fö8 18/55 En stokastisk vektor X har en väntevärdesvektor µ1 µ2 µ = E(X ) = . : n × 1, .. µn där komponenterna µi = E(Xi ) för i = 1, 2, . . . , n. Detta innebär att vi får väntevärdet av en stokastisk matris genom att beräkna väntevärdet av varje element i matrisen. TAMS65 - Fö8 19/55 En stokastisk vektor X har också en c11 c12 c21 c22 C = cov(X ) = . .. .. . kovariansmatris . . . c1n . . . c2n . : n × n, .. . .. cn1 cn2 . . . cnn där elementen cij = cov(Xi , Xj ) = E [(Xi − µi )(Xj − µj )] för i, j = 1, 2, . . . , n. En kovariansmatris är alltid symmetrisk, C = C 0 (här är transponat av matrisen), eftersom 0 cij = cov(Xi , Xj ) = cov(Xj , Xi ) = cji . Notera att diagonalelementen cii = var(Xi ) för i = 1, 2, . . . , n. TAMS65 - Fö8 20/55 Väntevärdet av en matris är väntevärde för varje element i matrisen, man kan alltså skriva kovariansmatrisen för X som C = E (X − µ)(X − µ)0 . Om Xi och Xj är oberoende för i 6= j med var(Xi ) = σi2 , så är cov(Xi , Xj ) = 0 och 2 σ1 0 . . . 0 0 σ2 . . . 0 2 C = . .. . . .. . .. . . . 0 0 . . . σn2 Om dessutom var(Xi ) = σ 2 för i = 1, ..., n, så är C = σ2I n , där I n = diag(1, ..., 1) : n × n är enhetsmatrisen . TAMS65 - Fö8 21/55 Skattningar av µ och C Antag att vi har N observationer X 1 , ..., X N (vektorer) från någon fördelning med E(X i ) = µ och cov(X i ) = C för i = 1, ..., n. Vi skattar µ med medelvärdet µ̂ = X̄ = N 1 X Xi, N i=1 och C med stickprovskovariansmatrisen N 0 1 X X i − X̄ X i − X̄ N −1 i=1 1 1 0 = X I N − 1N 1N X 0 , N −1 N S= där X är observations matrisen X = (X 1 , ..., X N ) : n × N och 1N är en vektor av ettor 1N = (1, . . . , 1)0 : (N × 1). TAMS65 - Fö8 22/55 Sats Låt X : n × 1 vara en stokastisk vektor med kovariansmatris C X . Vi definierar en ny stokastisk vektor som Y = AX + b : m × 1, där A : m × n är en fix matris och b : m × 1 en fix vektor. Då gäller att Y har väntevärde och kovariansmatris E(Y ) = A E(X ) + b, C Y = AC X A0 . TAMS65 - Fö8 23/55 Bevis På plats nr. i, i Y har vi Yi = E(Yi ) = n X Pn j=1 aij Xj + bi vilket ger aij E(Xj ) + bi . j=1 E(Y1 ) Detta innebär att E(Y ) = ... = A E(X ) + b. E(Ym ) Genom att skriva kovariansmatrisen för Y som väntevärdet av en matris, se ovan, får vi C Y = E[(Y − E(Y ))(Y − E(Y ))0 ] = E[(AX + b − A E(X ) − b)(AX + b − A E(X ) − b)0 ] = E[A(X − E(X ))(X − E(X ))0 A0 ] = . . . = AC X A0 . Här har vi utnyttjat att (AB)0 = B 0 A0 . TAMS65 - Fö8 24/55 Specialfall: Variansformel Låt X1 , . . . , Xn vara stokastiska variabler. För en linjärkombination av dessa (beroende) stokastiska variabler Y = n X ai Xi = (a1 , . . . , an )X = a0 X , i=1 där X = (X1 , . . . , Xn )0 och a = (a1 , . . . , an )0 , gäller att var(Y ) = σY2 = a 0 C X a : 1 × 1. Eftersom var(Y ) > 0 får vi också att C X är positivt definit eller positivt semidefinit. TAMS65 - Fö8 25/55 Exempel X 5 Den stokastiska vektorn har väntevärdesvektor och Y 10 2 3 kovariansmatris . 3 6 Vi vill förutsäga Y med hjälp av en prediktor a + bX sådan att (1) E(a + bX ) = E(Y ) och (2) var(Y − a − bX ) är minimal. TAMS65 - Fö8 26/55 (1) E(a + bX ) = a + b E(X ) = a + 5b = 10 = E(Y ) (2) X var(Y − a − bX ) = var(Y − bX ) = var( −b 1 ) Y 2 3 −b = −b 1 = 2b 2 − 6b + 6 3 6 1 = ... = 2(b − 1.5)2 + 1.5, vilket ger min då b = 1.5 och a = 10 − 5b = 2.5. Alltså, välj prediktorn Yb = 2.5 + 1.5X . TAMS65 - Fö8 27/55 Exempel - Portföljteori Antag att vi har n stycken tillgångar med de stokastiska avkastningarna X = (X1 , . . . , Xn )0 , de förväntade avkastningarna µ = (µ1 , . . . , µn )0 och en kovariansmatris C . Antag vidare att P vi investerar en andelen wi av vårt totala kapital i tillgång i. Alltså i wi = 1, där wi kan vara negativ. Vår portfölj w = (w1 , . . . , wn )0 har den stokastiska avskastningen R= n X wi Xi = w 0 X i=1 med väntevärde och varians E(R) = w 0 µ, var(R) = w 0 C w . TAMS65 - Fö8 28/55 1 Antag nu att vi väljer lika delar av alla tillgångar, dvs. wi = för n alla i = 1, . . . , n, w= 1 1 1n = (1, . . . , 1)0 : n × 1. n n 1) Om alla avkastningar är oberoende och har variansen var(Xi ) = σ 2 så får vi kovariansmatrisen C = σ 2 I n . Variansen för portföljen blir nu var(R) = w 0 C w = σ2 σ2 1 0 2 1 1n σ I n 1n = 2 10n 1n = . n n n | {z } n =n TAMS65 - Fö8 29/55 2) Antag att cov(Xi , Xj ) = 0.3σ 2 . Vi 1 0.3 0.3 1 C = σ2 .. . 0.3 · · · har då 0.3 .. . .. . 0.3 0.3 1 ··· och följande varians för portföljen 1 0.3 σ2 var(R) = w C w = 2 (1, . . . , 1) .. n . 0 1 0.3 · · · = ... = 0.7σ 2 n 0.3 1 .. . .. . .. . 0.3 1 0.3 1 0.3 · · · + 0.3σ 2 . TAMS65 - Fö8 30/55 Flerdimensionell normalfördelning Först repeterar vi ett par viktiga egenskaper hos stokastiska variabler med endimensionell normalfördelning. (a) En s.v. X ∼ N(0, 1), om den har täthetsfunktion 1 2 ϕ(x) = √ e −x /2 . 2π (b) Om Y = µ + σX , där X ∼ N(0, 1), så gäller att Y ∼ N(µ, σ). (c) Om Y1 , . . . , Yn är oberoende och normalfördelade, så är även n X ai Yi + b i=1 normalfördelad. TAMS65 - Fö8 31/55 Definitionen av flerdimensionell normalfördelning är en naturlig generalisering av dessa egenskaper. Definition Y1 En stokastisk vektor Y = ... : n × 1 har flerdimensionell Yn normalfördelning om Y = µ + AX där µ : n × 1 är en fix vektor, A : n × m är en fix matris och X = (X1 , X2 , . . . , Xm )0 har komponenter X1 , . . . , Xm , som är oberoende och N(0, 1). TAMS65 - Fö8 32/55 Notera likheten med egenskapen (b) för endimensionell normalfördelning. Eftersom varje komponent i Y är en konstant plus en linjärkombination av X1 , . . . , Xm , så följer av egenskapen (c) ovan att varje komponent Yi är normalfördelad. Vi ser vidare att E(Y ) = µ + A0 = µ och att C Y = AC X A0 = AI m A0 = AA0 . TAMS65 - Fö8 33/55 Sats Om Y har flerdimensionell normalfördelning med väntevärdesvektor µ och en kovariansmatris C med |C | = 6 0, så har Y täthetsfunktion fY (y ) = fY (y1 , . . . , yn ) = √ 1 1 0 −1 e − 2 [(y −µ) C (y −µ)] , n p 2π |C | där E(Y ) = µ och cov(Y ) = C . TAMS65 - Fö8 34/55 Av den här satsen framgår det att parametrarna för flerdimensionell normalfördelning är väntevärdesvektorn och kovariansmatrisen. Man skriver Y ∼ N(µ, C ) eller Y ∼ Nn (µ, C ) om man vill poängtera dimensionen. Specialfall: Låt Y1 och Y2 vara två simultant normalfördelade s.v. Vi har då 2 Y1 σ1 ρσ1 σ2 , Y = och C Y = Y2 ρσ2 σ1 σ22 där cov(Y1 , Y2 ) = ρσ1 σ2 och ρ är korrelationen mellan Y1 och Y2 , σ1 och σ2 betecknar standardavvikelserna. TAMS65 - Fö8 35/55 Exempel - Tvådimensionell normalfördelning Antag att Y1 Y2 ∼ N2 (µ, C ). Då ges täthetsfunktionen av 2 2 y1 −µ1 y1 −µ1 y2 −µ2 y2 −µ2 1 − 2ρ exp − 2(1−ρ + 2) σ1 σ1 σ2 σ2 p f (y1 , y2 ) = 2πσ1 σ2 1 − ρ2 µ1 där µ = är väntevärdesvektorn, −1 < ρ < 1 är korrelationen µ2 och kovariansmatrisen ges av c11 c12 σ12 ρσ1 σ2 C= = c21 c22 ρσ1 σ2 σ22 med följande villkor σ12 > 0 och σ22 > 0. TAMS65 - Fö8 36/55 För µ1 = µ2 = 0, ρ = 0 och σ1 = σ2 = 1 har vi utseendet TAMS65 - Fö8 37/55 För µ1 = µ2 = 0, ρ = 0.9 och σ1 = σ2 = 1 har vi utseendet TAMS65 - Fö8 38/55 Sats Komponenterna i en normalfördelad vektor är oberoende om och endast om kovariansmatrisen är en diagonalmatris. Specialfall: Via satsen ovan har vi att två simultant normalfördelade s.v., Y1 och Y2 , är oberoende om och endast om de är okorrelerade. TAMS65 - Fö8 39/55 Sats Antag att d : m × 1 och B : m × n är fixa. Låt W = d + BY , där Y : n × 1 har flerdimensionell normalfördelning. Då är även W : m × 1 normalfördelad. Notera att satsen ovan ger att en linjärkombination av beroende normalvariabler, som är komponenter i en normalfördelad vektor, är normalfördelad. TAMS65 - Fö8 40/55 Hur känner man igen normalfördelning? I Små stickprov: svårt. I Stora stickprov: I endimensionella mätdata - Rita hiostogram och jämför med normalfördelningens täthetsfunktion. I tvådimensionella mätdata - Plotta (xi , yi ). Tendenser till ellipsformat mönster. Histogram kan också göras. TAMS65 - Fö8 41/55 Vi kommer att utnyttja stokastiska vektorer i samband med regressionsanalys, men det finns många andra tillämpningar. Då man studerar beroende stokastiska variabler behöver man hålla reda på beroendestrukturen. Kursen TAMS39 Multivariat statistik handlar om metoder för att analysera flerdimensionella data. TAMS65 - Fö8 42/55 χ2 -fördelning Sats (från Fö3) Om X1 , . . . , Xn är oberoende och Xi ∼ N(µ, σ), så gäller att (a) (b) (c) (d) Xi − µ 2 ∼ χ2 (n) i=1 σ 2 Pn (n − 1)S 2 1 Xi − X̄ = ∼ χ2 (n − 1) 2 σ2 σ σ X̄ ∼ N µ, √ n 2 X̄ och S är oberoende stokastiska variabler. Pn TAMS65 - Fö8 43/55 Bevis (c) har vi redan visat på Fö1 och (a) ser man att det är en summa av kvadrater på oberoende N(0, 1)-variabler. (b) Pn i=1 Xi − X̄ 2 = Pn i=1 Zi − Z̄ 2 1 0 = Z I n − 1n 1n Z , n | {z } 0 =C med Z = (Z1 , . . . , Zn )0 ∼ Nn 0n , σ 2 I n , där Zi = Xi − µ. Matrisen C : n × n är symmetrisk och idempotent (projektions matris), dvs. C 2 = C med rang n − 1 och har således n − 1 egenvärden som är 1 och ett egenvärde som är 0. TAMS65 - Fö8 44/55 Vi har nu spektraluppdelningen av C som C = QDQ 0 , där D är en diagonalmatris med egenvärdena på diagonalen, dvs., D = diag (1, . . . , 1, 0) och Q är en ortonormerad matris, dvs. Q 0 Q = I . Vi har nu 1 0 ··· 0 .. .. . . 0 0 0 0 0 Y, Z C Z = (Z Q)D(Q Z ) = Y . .. 1 0 0 ··· 0 0 där Y = Q 0 Z ∼ Nn 0, σ 2 Q 0 Q . | {z } =σ 2 I TAMS65 - Fö8 45/55 Nu gäller att 2 Xi − X̄ 1 = 2 Z 0C Z 2 σ σ 1 0 ··· 0 .. . n−1 X Yi 2 1 0 0 .. . ∼ χ2 (n − 1), Y = = 2 Y . σ σ .. 1 0 i=1 0 ··· 0 0 (n − 1)S 2 = σ2 eftersom Pn 1 Yi ∼ N(0, 1) då Yi ∼ N(0, σ) . σ (d) Vi har att X̄ = n1 10n X . Man kan visa att X̄ och S 2 är oberoende eftersom 1 0 1 0 1 I n − 1n 1n = 00 . n n TAMS65 - Fö8 46/55 Regressionsanalys - Inledande exempel I en studie har man velat undersöka sambandet mellan skadekostnader och avstånd till närmaste brandstation vid bränder i bostadshus. Distance from Fire Station x, miles 3.4 1.8 4.6 2.3 3.1 5.5 0.7 3.0 2.6 4.3 2.1 1.1 6.1 4.8 3.8 TAMS65 - Fö8 Fire Damage y , thousands of dollars 26.2 17.8 31.3 23.1 27.5 36.0 14.1 22.3 19.6 31.3 24.0 17.3 43.2 36.4 26.1 47/55 MATLAB x = [3.4 1.8 4.6 2.3 3.1 5.5 0.7 3.0 2.6 4.3 ... 2.1 1.1 6.1 4.8 3.8]’; y = [26.2 17.8 31.3 23.1 27.5 36.0 14.1 22.3 ... 19.6 31.3 24.0 17.3 43.2 36.4 26.1]’; figure scatter(x,y,’*’) xlabel(’x’), ylabel(’y’) title(’Samband, skadekostnad och avstånd till brandstation’) hold on lsline TAMS65 - Fö8 48/55 Ett approximativt linjärt samband verkar fullt rimligt. TAMS65 - Fö8 49/55 Problem: (i) Hur hittar man den räta linje som passar bäst till punkterna? (ii) Skulle en ny försöksserie ge ungefär samma linje? (iii) Hur beskriver vi avvikelserna från linjen? Vi besvarar fråga (iii) genom att göra en modell för mätvärdena som innebär att vi betraktar avvikelserna från linjen som slumpvariabler. TAMS65 - Fö8 50/55 Modell Vi har värdepar (xj , yj ), där yj är observation av den stokastiska variabeln Yj = µj + εj = β0 + β1 xj + εj , för j = 1, . . . , n, där µj = β0 + β1 xj och x1 , . . . , xn är fixa tal medan ε1 , . . . , εn är oberoende stokastiska variabler med E (εj ) = 0 och Var (εj ) = σ 2 . TAMS65 - Fö8 51/55 Modellen ger att E (Yj ) = µj = β0 + β1 xj och 2 Var (Yj ) = σ . Vi skattar β0 och β1 med hjälp av minsta-kvadrat-metoden (MK-metoden), d.v.s. minimerar Q(β0 , β1 ) = n n X X (yj − E (Yj ))2 = (yj − β0 − β1 xj )2 . 1 1 Med hjälp av lsline i MATLAB så kan vi plotta linjen y = β̂0 + β̂1 x. TAMS65 - Fö8 52/55 Detta innebär att vi väljer den räta linje som minimerar summan av kvadraterna på avstånden i y -led från punkterna till den den räta linjen. TAMS65 - Fö8 53/55 I vårt exempel har vi n = 15 och minimeringen ger β̂0 = 10.278 och β̂1 = 4.9193. Vi får den skattade regressionslinjen y = β̂0 + β̂1 x = 10.278 + 4.9193x som ger de skattade väntevärdena för olika x-värden. Därmed har vi besvarat även fråga (i). Vi återkommer till fråga (ii) i nästa föreläsning, då vi konstruerar konfidensintervall för β-parametrarna. TAMS65 - Fö8 54/55 Matrisframställning Modellen ovan kan skrivas med hjälp av matriser Y1 y1 1 x1 ε1 Y2 1 x2 ε2 y2 β0 + . .. är obs. av .. = .. .. . . . β1 . .. | {z } Yn yn εn 1 xn =β | {z } | {z } | {z } | {z } =y =X =Y =ε eller kortare y är observation av Y = X β + ε. I brandexemplet ovan har vi 1 3.4 1 1.8 X = . .. . . . . 1 3.8 TAMS65 - Fö8 55/55 http://courses.mai.liu.se/GU/TAMS65/