Kapitel 8 Hypothesis Testing Dan Hedlin Del 1 1 Vad är en hypotes? • En tro om populationen som formuleras i ett ”antingen-eller”-par • Vi ska på basis av stickprovet välja det ena alternativet • Teman i kap. 8: - konstruera test - utvärdera dessa 2 • Att konstruera en testprocedur: • Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) • En statistika observeras och den landar antingen i ”rejection region” eller utanför 3 CB tar upp: • Likelihoodkvot-test • Union-intersection-test • Bayesianska test Jag fokuserar på de två första; likelihoodkvottest klart viktigast 4 • Proceduren med hypotestestning har kritiserats • Intervallskattningar gör detsamma och innehåller mer information • Två utfall kan vara godtyckligt lika varandra och ändå leda till olika utfall m.a.p. på förkasta hypotes • Hypotestest har sin roll i beslutssituationer 5 Exempel på beslut • Är det här nya läkemedlet likvärdigt med det som redan finns på marknaden? I så fall godkänn det. • Är det bättre? • Är det sämre? 6 • Istället för läkemedel: stör datorn intervjupersonen i datorstödda intervjuer (nej) ny blankettdesign (som man hoppas är mer inbjudande), är en session på 5 timmar bättre eller sämre än 5 sessioner på en timme för att bota blodfobi med KBT (en session är bättre) 7 LRT • Nollhypotesen är parametern hör till ett begränsat parameterrum • Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ˆML0 ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ˆML ) • Kvoten mindre än eller lika med 1 • Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga • Vi tror att det begränsade parameterummet räcker 8 • Att konstruera en testprocedur: • Dela upp tänkbara utfall i de som ska leda till att vi tror på ena delen av hypotesen (t.ex. nollhypotesen) eller andra, komplementära delen (t.ex. alternativhypotesen) • En statistika observeras och den landar antingen i ”rejection region” eller utanför 9 Två tärningar, igen • Vet att ena tärningen ger sexa 9 ggr av 10, andra tärningen 1 gång av 6, men vi vet inte vilken tärning vi kastat • Sexa med sh p, parameterrum {1/6, 9/10} • Kastar 100 000 ggr och får ca 9/10 sexor. • Det finns ingen anledning att tro att p = 9/10 inte räcker som förklaring, dvs att utöka det troliga parameterrummet från p = 9/10 till p 1 6 , 9 10 tillför inget 10 • Vid utfallet ca 1/6 sexor hade vi resonerat likadant fast tvärtom. • Vad skulle vi säga om vi fick 45 000 sexor? • Eftersom vi har så stort stickprov, 100 000, gör stora talens lag att alla utfall som kan inträffa i praktiken ligger nära ca 1/6 sexor resp. ca 9/10 sexor • Vanlig situation: händer vid stora datamaterial. Signifikanttest tillför inget. 11 • Till varje utfall ska det finnas ett beslut om nollhypotesen p = 9/10 ska förkastas eller ej • Två kast: n = 2 • I det här enkla exemplet är det bara en fråga om val av beslut när x = 1. När x = 0 förkastar vi, när x = 2 förkastar vi inte; annars är det inget test 12 Type I Error • Risk för att göra fel om vi förkastar vid x = 0 el 1? (dvs vi tror p = 1/6) • dvs sh att få högst en sexa om p = 9/10 2 9 1 2 9 1 20 0 10 10 1 10 10 100 0 2 1 1 • Fel av typ 1 (även false negative i en del sammanhang): sh att få 0 eller 1 sexa om p = 9/10 13 Type II Error • Risk för att göra fel om vi ej förkastar vid x = 2? • dvs sh att få två sexor om p = 1/6 2 1 2 6 2 0 1 5 0.03 6 36 • False positive; ofta mindre allvarligt än fel av typ 1 14 • Konstruktion av test betyder att vi ska välja gräns för att förkasta • Omvänt, betyder också att vi väljer storlek på fel av typ 1 och typ 2 • Type III Error: (något skämtsamt) Fel problem eller fel modell (ex. 45 000 sexor) 15 • Vi väljer alltså minska risken för fel beslut av den ena sorten (och den andra sorten får gå upp) – en balansakt • Chansen att göra ”rätt”, acceptera endast vid 2 0 x=2 2 9 1 81 2 10 10 100 16 Standardval • I många situationer sätter man felet av typ 1 till 5% och chansen att göra rätt till 80% • Men t.ex. 1% om fel av typ 1 är särskilt allvarligt eller om man ändå inte kommer att tro på testets utfall med en 5%-nivå • T.ex. 10% om fel av typ 1 och typ 2 är mer ”jämspelta” (US Bureau of the Census har 10% som standard) 17 • Nollhypotesen är en mängd av parametervärden 0 där 0 9 0 10 1 9 , 6 10 • Mängden av alla utfall delas upp i en rejection region, R, och dess komplement, Rc • Lägg märke till att sh för Type I, om 0 PX R 1 - sh för Type II, om 0 18 • Styrkefunktionen är sannolikheten att förkasta nollhypotesen som funktion av parametern: PX R • Idealt är PX R 1 då det är rätt att förkasta, dvs då 0 • Och =0 då det är rätt att ej förkasta, dvs 0 • Går som sagt inte, utan det är en avvägning mellan typ 1 och typ 2. • Men går bättre med stort stickprov • Ofta ”5% nivå” och ”80% styrka” och stickprovet beräknas därefter 19 Size, level • Nivå är den största sh:n för typ 1-fel som ett test faktiskt har • CB gör skillnad på test med size och level • Ett test behöver inte nödvändigtvis uppnå t.ex. 5% även om det är designat så • Gäller främst union-intersection tests 20 LRT • Nollhypotesen är parametern hör till ett begränsat parameterrum • Kvoten av maximal likelihood över ett begränsat parameterrum (täljaren; ML-skattning ˆML0 ) och maximal likelihood över hela parameterrummet (nämnaren; ML-skattning ˆML ) • Kvoten mindre än eller lika med 1 • Om kvoten nära 1, är de båda likelihooderna ungefär lika, och de båda skattningarna lika troliga • Vi tror att det begränsade parameterummet räcker 21 • Likelihood för utfallet x sexor vid n kast: n x n x L p x p 1 p x • Test av hypotesen p = 9/10, alternativhypotes p = 1/6. Maximal likelihood över det begränsade parameterrummet x 9 n 9 L x 10 x 10 1 10 n x 22 • LRT- statistika: 9 L x 10 x max L p x 1 9 p , 6 10 • Vad är nämnaren, dvs maximala likelihooden? 23 x p=1/6 p=9/10 0 25/36 2/100 1 10/36 18/100 2 1/36 80/100 0 .015 1 0.3 2 1 24 • Konstruktion av LRT betyder i det här exemplet att vi ska välja gräns för att förkasta • I det här enkla exemplet: antingen över eller under 0.3, dvs x = 1 tas antingen till intäkt för p = 1/6 eller p = 9/10 Förkasta p = 9/10 Accept p = 9/10 x 0 0.3 1 25 • Allmänt, ett LRT delar in värdeförrådet i två mängder, x c x c • Genom att som i teorem 8.2.4 tillämpa faktoriseringsteoremet visar man att en LRstatistika baseras på en tillräcklig statistika • dvs en gren av maximum-likelihood-teorin 26 Optimalitet för tester • Most powerful = störst styrka för 0 • Dvs bäst chans att förkasta då det är rätt att förkasta • Likformigt starkaste test (UMP) = most powerful bland alla test med samma nivå • Finns det ett UMP, väljer man vanligtvis det 27 Neyman-Pearsons lemma • I testsituationen med tärningarna, med två enkla hypoteser och LR-test, är detta det likformigt starkaste testet 28 Karlin-Rubins teorem • Definition: monoton likelihoodkvot = 2 1 och g t 2 g t 1 monoton på t : g t 0 eller t : g t 0 • Förutsättningar: test av H 0 : 0 mot H1 : 0 . Fördelningsfamiljen av en tillräcklig statistika har monoton likelihood. 1 2 29 K-R:s teorem • Då är ett test som förkastar om T X t0 ett likformigt starkaste test med nivån . Nivån är sh:n att T X t0 om H0 är sann. 30 Mer om p-värden • Tolkning: p-värde = P(observerat utfall) + P(mer extremt utfall) • Eller: minsta nivå för vilken nollhyptesen hade förkastats 31 Feltolkningar: 1. p-värdet är sh:n att nollhypotesen är falsk 2. Litet p-värde betyder att experimentet lyckats 3. Litet p-värde betyder att man kommit på något viktigt 4. Ett p-värde= 0.03 i en studie är detsamma som p-värde= 0.03 i en annan studie 32 Publication bias • Lättare att få forskning publicerad om man har små p-värden än stora (ligger tyvärr viss sanning i det) • Således finns det fler förkastade nollhypoteser i litteraturen än ej förkastade • Fler cancerlarm än ”inget tyder på risk för cancer i det här fallet” 33 UI-test och IU-test • LRT mycket vanligt; intersection-union resp union-intersection inte lika vanligt • Exempel på intersection-union test: acceptanssampling och ekvivalenstest 34 Ex 8.2.9. Acceptance sampling • En ”batch” av produkter släpps omm ett stickprov av dem klarar två test • Man tänker sig att de två egenskaperna är oberoende. Varje produkt har två variabler som vardera hör till en familj av fördelningar. Om stickprovsdata indikerar att hela ”batchen” har dåligt parametervärde, för minst en av parametrarna, underkänns batchen. 35 • Nollhypotes är att endera parametervärdet är undermåligt (produkten är dålig) • Nollhypotesen är unionen av ”delnollhypotesmängder”. Nollhypotesen förkastas om någon del förkastas. • Man gör helt enkelt två test, ett för vardera parametern (ett eller två stickprov). Två test men en gemensam nivå. • Kritiska området är ett snitt. Förkasta betyder här att godkänna batchen, och då ska produkten klara båda testen 36 • Allmän fördel med union-intersection och intersection-union: en komplex nollhypotes kan konstrueras från enkla fall • Vilken nivå man faktiskt har (dvs ”size”) kan vara svårt att utreda. Men det behövs kanske inte i praktiken: övre begränsning räcker (dvs ”level”) 37 Ett till exempel på IU-test • Ekvivalenstest (bioekvivalens). • Vanligt i läkemedelsprövning • Nollhypotes är att det aktuella läkemedlet är olikt befintligt läkemedel m.a.p. på någon viss variabel. Olikt= för stort eller för litet värde, dvs unionen av två områden • Kritiskt område en snittmängd: 0 Differens 38 Size and level för IUT • Ett UIT eller IUT är sammansatt av delhypoteser. Betrakta en av dem. En mängd utgör nollhypotes och kritiskt område är R • ”Hela” nollhypotesen är • Hela kritiska området är R 39 • Teorem 8.3.23. Om delhypotes har nivå och kritiskt område R , då har IU-testet nivå sup och kritiskt område R R • Bevis: välj godtyckligt en av delhypoteserna. PX R P X R R är en delmängd av R P X R Enl förutsättning Alfa är bara en övre gräns 40 • ”Size” kan dock vara lägre, dvs risken för typ-I-fel kan vara mindre än angiven level. • För ekvivalenstest brukar size vara något mindre än level • Hur utföra ett ekvivalenstest på nivån ? Det vanligaste sättet är Westlakes 2-alfatest. Man beräknar ett 1001 2 % konfidensintervall: ˆ z1 V ˆ , ˆ z1 V ˆ 41 • Varje delhypotes är ett ensidigt test på nivån • Enl teorem 8.3.23 blir testets nivå också • Artikeln Berger and Hsu (1996) i tidskriften Statistical Science är bra om man vill på allvar förstå ekvivalenstest 42