Kapitel 8
Hypothesis Testing
Dan Hedlin
Del 1
1
Vad är en hypotes?
• En tro om populationen som formuleras i ett
”antingen-eller”-par
• Vi ska på basis av stickprovet välja det ena
alternativet
• Teman i kap. 8:
- konstruera test
- utvärdera dessa
2
• Att konstruera en testprocedur:
• Dela upp tänkbara utfall i de som ska leda
till att vi tror på ena delen av hypotesen
(t.ex. nollhypotesen) eller andra,
komplementära delen (t.ex.
alternativhypotesen)
• En statistika observeras och den landar
antingen i ”rejection region” eller utanför
3
CB tar upp:
• Likelihoodkvot-test
• Union-intersection-test
• Bayesianska test
Jag fokuserar på de två första; likelihoodkvottest klart viktigast
4
• Proceduren med hypotestestning har
kritiserats
• Intervallskattningar gör detsamma och
innehåller mer information
• Två utfall kan vara godtyckligt lika
varandra och ändå leda till olika utfall
m.a.p. på förkasta hypotes
• Hypotestest har sin roll i beslutssituationer
5
Exempel på beslut
• Är det här nya läkemedlet likvärdigt med det som
redan finns på marknaden? I så fall godkänn det.
• Är det bättre?
• Är det sämre?
6
• Istället för läkemedel:
stör datorn intervjupersonen i datorstödda
intervjuer (nej)
ny blankettdesign (som man hoppas är mer
inbjudande),
är en session på 5 timmar bättre eller sämre
än 5 sessioner på en timme för att bota
blodfobi med KBT (en session är bättre)
7
LRT
• Nollhypotesen är parametern hör till ett begränsat
parameterrum
• Kvoten av maximal likelihood över ett begränsat
parameterrum (täljaren; ML-skattning ˆML0 ) och
maximal likelihood över hela parameterrummet
(nämnaren; ML-skattning ˆML )
• Kvoten mindre än eller lika med 1
• Om kvoten nära 1, är de båda likelihooderna
ungefär lika, och de båda skattningarna lika troliga
• Vi tror att det begränsade parameterummet räcker
8
• Att konstruera en testprocedur:
• Dela upp tänkbara utfall i de som ska leda
till att vi tror på ena delen av hypotesen
(t.ex. nollhypotesen) eller andra,
komplementära delen (t.ex.
alternativhypotesen)
• En statistika observeras och den landar
antingen i ”rejection region” eller utanför
9
Två tärningar, igen
• Vet att ena tärningen ger sexa 9 ggr av 10, andra
tärningen 1 gång av 6, men vi vet inte vilken
tärning vi kastat
• Sexa med sh p, parameterrum {1/6, 9/10}
• Kastar 100 000 ggr och får ca 9/10 sexor.
• Det finns ingen anledning att tro att p = 9/10 inte
räcker som förklaring, dvs att utöka det troliga
parameterrummet från p = 9/10 till
p  1 6 , 9 10 tillför inget
10
• Vid utfallet ca 1/6 sexor hade vi resonerat
likadant fast tvärtom.
• Vad skulle vi säga om vi fick 45 000 sexor?
• Eftersom vi har så stort stickprov, 100 000, gör
stora talens lag att alla utfall som kan inträffa i
praktiken ligger nära ca 1/6 sexor resp. ca 9/10
sexor
• Vanlig situation: händer vid stora datamaterial.
Signifikanttest tillför inget.
11
• Till varje utfall ska det finnas ett beslut om
nollhypotesen p = 9/10 ska förkastas eller ej
• Två kast: n = 2
• I det här enkla exemplet är det bara en fråga
om val av beslut när x = 1. När x = 0
förkastar vi, när x = 2 förkastar vi inte;
annars är det inget test
12
Type I Error
• Risk för att göra fel om vi förkastar vid
x = 0 el 1? (dvs vi tror p = 1/6)
• dvs sh att få högst en sexa om p = 9/10
 2  9   1   2  9   1 
20
           
 0  10   10   1  10   10  100
0
2
1
1
• Fel av typ 1 (även false negative i en del
sammanhang): sh att få 0 eller 1 sexa om p = 9/10
13
Type II Error
• Risk för att göra fel om vi ej förkastar vid
x = 2?
• dvs sh att få två sexor om p = 1/6
 2  1 
  
 2  6 
2
0
1
 5
 0.03
  
 6  36
• False positive; ofta mindre allvarligt än fel
av typ 1
14
• Konstruktion av test betyder att vi ska välja
gräns för att förkasta
• Omvänt, betyder också att vi väljer storlek
på fel av typ 1 och typ 2
• Type III Error: (något skämtsamt) Fel
problem eller fel modell (ex. 45 000 sexor)
15
• Vi väljer alltså minska risken för fel beslut
av den ena sorten (och den andra sorten får
gå upp) – en balansakt
• Chansen att göra ”rätt”, acceptera endast vid
2
0
x=2
 2  9   1 
81
     
 2  10   10  100
16
Standardval
• I många situationer sätter man felet av typ 1
till 5% och chansen att göra rätt till 80%
• Men t.ex. 1% om fel av typ 1 är särskilt
allvarligt eller om man ändå inte kommer
att tro på testets utfall med en 5%-nivå
• T.ex. 10% om fel av typ 1 och typ 2 är mer
”jämspelta” (US Bureau of the Census har
10% som standard)
17
• Nollhypotesen är en mängd av parametervärden
0  
där
  0
9
0   
10 
1 9 
 , 
 6 10 
• Mängden av alla utfall delas upp i en rejection
region, R, och dess komplement, Rc
• Lägg märke till att
sh för Type I, om   0
PX  R   
1 - sh för Type II, om   0
18
• Styrkefunktionen är sannolikheten att förkasta
nollhypotesen som funktion av parametern:
    PX  R
• Idealt är     PX  R  1 då det är rätt att
förkasta, dvs då    0
• Och =0 då det är rätt att ej förkasta, dvs    0
• Går som sagt inte, utan det är en avvägning mellan
typ 1 och typ 2.
• Men går bättre med stort stickprov
• Ofta ”5% nivå” och ”80% styrka” och
stickprovet beräknas därefter
19
Size, level
• Nivå är den största sh:n för typ 1-fel som ett
test faktiskt har
• CB gör skillnad på test med size  och level

• Ett test behöver inte nödvändigtvis uppnå
t.ex. 5% även om det är designat så
• Gäller främst union-intersection tests
20
LRT
• Nollhypotesen är parametern hör till ett begränsat
parameterrum
• Kvoten av maximal likelihood över ett begränsat
parameterrum (täljaren; ML-skattning ˆML0 ) och
maximal likelihood över hela parameterrummet
(nämnaren; ML-skattning ˆML )
• Kvoten mindre än eller lika med 1
• Om kvoten nära 1, är de båda likelihooderna
ungefär lika, och de båda skattningarna lika troliga
• Vi tror att det begränsade parameterummet räcker
21
• Likelihood för utfallet x sexor vid n kast:
 n x
n x
L p x     p  1  p 
 x
• Test av hypotesen p = 9/10,
alternativhypotes p = 1/6. Maximal
likelihood över det begränsade
parameterrummet
x
 9   n  9 
L x     
 10   x  10 
1
 
 10 
n x
22
• LRT- statistika:
9 
L x 
 10 
 x  
max L p x 
1 9 
p , 
 6 10 
• Vad är nämnaren, dvs maximala
likelihooden?
23
x
p=1/6
p=9/10
0
25/36
2/100
1
10/36
18/100
2
1/36
80/100
 0  .015
 1  0.3
 2  1
24
• Konstruktion av LRT betyder i det här
exemplet att vi ska välja gräns för att
förkasta
• I det här enkla exemplet: antingen över eller
under 0.3, dvs x = 1 tas antingen till intäkt
för p = 1/6 eller p = 9/10
Förkasta p = 9/10
Accept p = 9/10
 x 
0
0.3
1
25
• Allmänt, ett LRT delar in värdeförrådet i två
mängder,  x  c
 x   c
• Genom att som i teorem 8.2.4 tillämpa
faktoriseringsteoremet visar man att en LRstatistika baseras på en tillräcklig statistika
• dvs en gren av maximum-likelihood-teorin
26
Optimalitet för tester
• Most powerful = störst styrka för   0
• Dvs bäst chans att förkasta då det är rätt att
förkasta
• Likformigt starkaste test (UMP) = most
powerful bland alla test med samma nivå
• Finns det ett UMP, väljer man vanligtvis det
27
Neyman-Pearsons lemma
• I testsituationen med tärningarna, med två
enkla hypoteser och LR-test, är detta det
likformigt starkaste testet
28
Karlin-Rubins teorem
• Definition: monoton likelihoodkvot =
 2  1 och
g t  2  g t 1 
monoton på
t : g t    0 eller t : g t    0
• Förutsättningar:
test av H 0 :   0 mot H1 :   0 .
Fördelningsfamiljen av en tillräcklig
statistika har monoton likelihood.
1
2
29
K-R:s teorem
• Då är ett test som förkastar om
T X  t0 ett likformigt starkaste test med
nivån . Nivån är sh:n att T X  t0
om H0 är sann.
30
Mer om p-värden
• Tolkning: p-värde = P(observerat utfall) +
P(mer extremt utfall)
• Eller: minsta nivå för vilken nollhyptesen
hade förkastats
31
Feltolkningar:
1. p-värdet är sh:n att nollhypotesen är falsk
2. Litet p-värde betyder att experimentet
lyckats
3. Litet p-värde betyder att man kommit på
något viktigt
4. Ett p-värde= 0.03 i en studie är detsamma
som p-värde= 0.03 i en annan studie
32
Publication bias
• Lättare att få forskning publicerad om man
har små p-värden än stora (ligger tyvärr viss
sanning i det)
• Således finns det fler förkastade nollhypoteser i litteraturen än ej förkastade
• Fler cancerlarm än ”inget tyder på risk för
cancer i det här fallet”
33
UI-test och IU-test
• LRT mycket vanligt; intersection-union resp
union-intersection inte lika vanligt
• Exempel på intersection-union test:
acceptanssampling och ekvivalenstest
34
Ex 8.2.9. Acceptance sampling
• En ”batch” av produkter släpps omm ett stickprov
av dem klarar två test
• Man tänker sig att de två egenskaperna är
oberoende. Varje produkt har två variabler som
vardera hör till en familj av fördelningar. Om
stickprovsdata indikerar att hela ”batchen” har
dåligt parametervärde, för minst en av
parametrarna, underkänns batchen.
35
• Nollhypotes är att endera parametervärdet är
undermåligt (produkten är dålig)
• Nollhypotesen är unionen av ”delnollhypotesmängder”. Nollhypotesen förkastas om
någon del förkastas.
• Man gör helt enkelt två test, ett för vardera
parametern (ett eller två stickprov). Två test men
en gemensam nivå.
• Kritiska området är ett snitt. Förkasta betyder här
att godkänna batchen, och då ska produkten klara
båda testen
36
• Allmän fördel med union-intersection och
intersection-union: en komplex nollhypotes
kan konstrueras från enkla fall
• Vilken nivå man faktiskt har (dvs ”size”)
kan vara svårt att utreda. Men det behövs
kanske inte i praktiken: övre begränsning
räcker (dvs ”level”)
37
Ett till exempel på IU-test
• Ekvivalenstest (bioekvivalens).
• Vanligt i läkemedelsprövning
• Nollhypotes är att det aktuella läkemedlet är
olikt befintligt läkemedel m.a.p. på någon
viss variabel. Olikt= för stort eller för litet
värde, dvs unionen av två områden
• Kritiskt område en snittmängd:
0
Differens
38
Size and level för IUT
• Ett UIT eller IUT är sammansatt av delhypoteser. Betrakta en av dem. En mängd

utgör nollhypotes och kritiskt område
är R
• ”Hela” nollhypotesen är  
• Hela kritiska området är  R 
39
• Teorem 8.3.23. Om delhypotes  har nivå  
och kritiskt område R , då har IU-testet
nivå   sup  och kritiskt område R   R

• Bevis: välj godtyckligt en av
delhypoteserna.
PX  R   P X  R 
R är en delmängd av R
P X  R    
Enl förutsättning
  
Alfa är bara en övre
gräns
40
• ”Size” kan dock vara lägre, dvs risken för
typ-I-fel kan vara mindre än angiven level.
• För ekvivalenstest brukar size vara något
mindre än level
• Hur utföra ett ekvivalenstest på nivån ?
Det vanligaste sättet är Westlakes 2-alfatest. Man beräknar ett 1001  2 %
konfidensintervall:


ˆ
  z1 V ˆ , ˆ  z1 V ˆ






41
• Varje delhypotes är ett ensidigt test på nivån

• Enl teorem 8.3.23 blir testets nivå också 
• Artikeln Berger and Hsu (1996) i tidskriften
Statistical Science är bra om man vill på
allvar förstå ekvivalenstest
42