Kapitel 10 Asymptotic evaluations Dan Hedlin 1 Skäl till att asymptotiska resonemang är något att ha • I det här sammanhanget: n blir oändligt stort, dvs helt orealistiskt, men: 1. De asymptotiska resultaten gäller approximativt ofta redan när n = 100 (uttryck: ”large sample” som adjektiv) 2. Man kan se saker i de asymptotiska resultaten som man inte skulle se annars 3. Praktiskt: framkomlig väg rent matematiskt 2 Ändliga populationer • Man tänker sig att både N och n går mot oändligheten (samtidigt, t.ex., som n /N bevaras) • Exempel: Godambe-Joshis nedre gräns för varians av en skattning av medelvärde 3 Kap 10, innehåll 1. 2. 3. 4. 5. Punktskattningar Bootstrap Robusta skattningar Test Intervallskattningar 4 Grundläggande syn • Oändlig population • En följd av estimatorer för en följd av stickprovsstorlekar (som går mot ) • ”merely by performing the same estimation procedure for each sample size n” • Dock tillåtet med olika fördelning för varje estimator så länge det är samma familj 5 Konsistens • En estimator är konstistent om den konvergerar i sannolikhet mot sanna värdet för alla • Egentligen följd av estimatorer är konsistent • Tolkning: en konsistent estimator blir bättre och bättre för ökande stickprov • En linjär funktion av en estimator är konsistent om estimatorn är det (teorem 10.1.5) 6 VVR medför konsistens • Följer av Chebychevs olikhet att: Om varians och bias går var för sig mot 0, så är estimatorn konsistent (teorem 10.1.3) • Så för ”vanliga” estimatorer och ”vanliga” fördelningar medför unbiasedness konsistens 7 Ändliga populationer • Design-baserad inferens: det som uppfattas slumpmässigt är vilket stickprov man råkat få. X-värden uppfattas ej som slumpmässiga • Design-konsistens är i praktiken likadant som konsistens enligt ovan • Men tvärtom: design-konsistens medför design-unbiasedness 8 Gränsvärden för varians • Limiting variance: om nVar Tn 2 då n då är 2 variansgränsvärdet • Asymptotisk varians: om fördelningen för n Tn konvergerar mot normalfdl då är dennas varians den asymptotiska variansen • Ofta lika 9 Effektivitet • En estimator är effektiv (alt. asymptotiskt effektiv) om den når Cramér-Raos gräns, dvs kan inte bli bättre • ML-skattningar är konsistenta och effektiva (men inte nödvändigtvis vvr) • Svaga ”regularitetsvillkor” för detta: dock gäller inte detta om fördelningens support beror av parametern • Jfr Enemy tank problem: ”supereffektiv” estimator 10 Relativ asymptotisk varians • Kvoten av två estimatorers asymptotiska varians • ARE: asymptotic relative variance • Relativ varians: kvoten av två estimatorers faktiska varians 11 Variansberäkning 1. 2. 3. 4. 5. ”Vanlig” beräkning utifrån fördelning Taylors teorem Appr med Cramér-Raogränsen Blandad fördelning Resamplingmetoder 12 Exempel på Taylors teorem • V(X) är bekant • Vad har g(X) för varians? V g X g V X 2 • De två första termerna i Taylorutvecklingen g X g g X utvecklad i punkten X • Notera specialfallet V(kX) • Även fallet g 0 då tredje termen tas med (osv) 13 Repetition Cramér Raos olikhet • Den minsta variansen för en estimator W(X): 2 d E W X d informatio nen i stickprove t • Villkor: måste kunna kasta om integral och derivata. Kan inte göra detta om supporten beror av parametern (se Leibnitz regel) 14 Fisherinformationen 2 d E log f X d • Ett tal (eller symbol som representerar ett tal); ju större desto mer info 2 d d2 E log f X E 2 log f X d d 15 • Om alla xi oberoende är informationen additiv, dvs infon för stickprovet är summan av delarna d d E log f X nE log f X 2 d 2 d 16 Approximation med Cramér-Rao • För beräkningar av variansen är det bättre att använda den observerade informationen än den förväntade • Approximativ varians för en (ML-)skattning: utvärderad i punkten ˆ 2 h 2 - 2 log L X • Notera att om parametern bara består av värdet är täljaren 1 och den approximativa variansen är 1/informationen 17 Appr varians för ML • Fungerar bäst om estimatorn monoton i • Eftersom Cramér-Rao-gränsen inte behöver uppnås kan den approximativa variansen bli för liten (dvs ett approximationsfel åt ”fel håll”) 18 Blandad fördelning • Med sh tas X ur en fördelning, med sh 1- tas X ur annan fördelning • Vad är V(X)? 19 Bootstrap, jackknife • Flera användningsområden men här att skatta variansen • Båda går ut på att dra en mängd underurval, skatta för varje underurval och sedan beräkna medelvärde e.d. av skattningarna • Jackknife ”delete one”: drar n underurval där man i tur och ordning utesluter en observation. 20 • Parametrisk bootstrap: 1. antag familj av fördelning 2. skatta parametrar (t.ex. ML-skattningar) 3. generera B stickprov med n slumptal 4. vardera ur denna speciella fördelning 5. beräkna det som behöver beräknas; om PX 10 ska skattas, räkna andelen stickprov som uppfyller villkoret X 10. Det är den frekventistiska tolkningen av en sannolikhet. 21 • Icke-parametrisk bootstrap: dra n observationer ur de befintliga, observerade observationerna med återläggning. Upprepa B sådana urval. B=200 ganska vanligt. • För varje underurval får man en punktskattning ˆi* • Medelvärde av dem ˆ * • Stickprovsvarians för ˆi* dvs 1 ˆ ˆ S B 1 B 2 i 1 2 * i * 22 Approximativ fördelning • Deltametoden: om då n X n n 0, 2 n g X n g n 0, g 2 2 23 Robusta estimatorer • 1. 2. • • Robust mot vadå? (något) fel antagande om fdl Avvikande värden (outliers) Klassiskt exempel på robusthet mot avvikande värden: medelvärde och median Breakdown point: hur stor andel av stickprovet kan man ersätta med innan skattningen blir 24 M-estimatorn • Vanligaste generella robusta estimatorn • Estimating equation definierar estimator implicit • Det värde ˆ som satisfierar x 0 är M-skattningen • Generalisering av ML-skattning: (ger maximum) log Lx 0 n M i 1 i n i 1 i 25 xi k log Lxi • ML och M lika omm • Annars har M alltid strikt större varians än ML • Variansförlusten kan ses som en försäkringspremium att betala • Finns många vettiga val av • För kriterier, se Hoaglin, Mosteller och Tukey; Understanding, robust and exploratory data analysis, s. 365 • Biweight är ett val • Identitetsfunktionen ger medelvärde 26 Hypotestest • Hur får man ut ett p-värde ur ett likelihoodkvottest? • Man har en teststatistika och en fördelning för denna • Vad har LR-statistikan för fördelning? • Med enkel nollhypotes så går 2 log X 12 i fördelning (vanliga regularitetsvillkor) • Kallas G2-statistika 27 • Med en nollhypotes som inte är enkel blir frihetsgraderna i chi-2-fördelningen skillnaden mellan antalet fria parametrar och antalet fria parametrar under nollhypotesen 2 2 log X • H0 förkastas omm , där är nivån (size) och är antalet frihetsgrader 28 Normalfdl • För många andra test, approximera teststatistikans fdl med normalfdl • Om W n0,1 så W S n0,1 n n n n ( S i sannolikhet + Slutkys teorem) • Om Wn är en ML-skattning, roten 1/informationen istället för Sn n n 29 Waldtest • Teststatistika Wn 0 Zn Sn där 0 är parametervärdet (eller ett parametervärde) under nollhyptesen • Förkasta om Zn z 2 (om tvåsidigt test) • Kontinuitetskorrektion förbättrar (s. 105106) 30 Scoretest • Teststatistika S S 0 ZS I n 0 log L X där under enkel nollhypotes • Beviset av Cramér-Raos olikhet ger att ES 0 0 V S 0 I n 0 • Teorem 10.1.12 ger S 0 n0,1 • Förkasta om Z S z 2 31 • Teorem 10.1.12: n ˆML n0, n CR bound • Krav: regularitetsvillkor för ML-skattningar samt att är en kontinuerlig funktion 32 Ytterligare test • Teststatistika av samma form som Zn Wn 0 Sn • Wn kan vara en M-estimator • Sn kan vara en bootstrap-skattning 33 Intervallskattningar • Använd test och invertering av dessa • Använd pivotal kvantitet 34