Y-variabeln binär (värden 0 – 1)

Logistisk regression
SCB
September 2004
Dan Hedlin, U/MET-S
Y-variabeln binär (0 eller 1)
• Rösta eller ej, få cancer eller ej, leva under eller
över en fattigdomsgräns, bortfall (se CBM
’Estimation in the presence of nonresponse’,
avsnitt 6.1)
• Vid vanlig linjär regression Y ej begränsad
 p 
• Knep:
    1x1   2 x2
log 
1 p 
• p är sannolikheten för cancer etc.
Alternativa uttrycksätt
• Vanlig beteckning
logit  p    1x1   2 x2
• Ekvivalent med
e  1x1   2 x2 
p
1  e  1x1   2 x2 
Olika skalor
• Log-odds
(additiva effekter)
• Odds p/(1-p) (multiplikativa effekter)
• Sannolikhet
Annan skillnad mot ’vanlig’ regression:
• Iterativa beräkningar och andra ev.
beräkningsproblem
Tolkning av parametrarna
• ’Bas-sannolikhet’ för x1  0 och x2  0
e 
p
1  e 
• Kanske enklast att tolka i det fall x är
intervall-variabler och nollpunkten är
meningsfull
Tolkning av ß
• Modell med ’ett x’:
 p    x 
• Eller  1  p   e


 p 
    x
log 
1 p 
• Additiv ökning av x med 1 steg motsvaras i
denna modell med multiplikation av oddset
med e 
Klassiskt exempel
• Bliss (1935), även i Agresti (1990)
’Catergorical Data Analysis’, Wiley,
avsnitt 4.5.3.
• Beetles, två intervall-variabler
y = död/överlevt,
x = log(dos koldisulfit)
• Finns andra modeller för binärt y som kan
vara bättre. Logistisk reg dock vanligast.
Ca 1400 kvinnor i Uganda
• Självuppskattad risk för AIDS (hög/låg)
Förklarande variabler bl.a.
• Ålder vid giftermål (alla ip har gift sig)
• Ålder vid sexdebut
• F.n. gift
• Har stadig partner
• Stad – landsbyggd
• Använder kondom
Modellbygge
1. Tabell låg-hög risk mot varje variabel för sig
2. Titta efter celler med nollor
3. Grovrens med t.ex. Forward selection och 25%
signifikanstest
4. Testa var för sig
5. För kontinuerliga variabler: undersök linjäritet
genom att kategorisera och beräkna log-odds
inom kategorier
6. Prova samspelseffekter
7. Använd ämneskunskap och vett
Multiplikativ effekt
Vad oddset för hög risk multipliceras med om förklarande variabel ökas med ett steg
Ålder vid
giftermål
(5 års intervall)
F.n. Ogift/Gift
Samspel
Har ej/Har
partner
Stad/Landsbyggd
1.31
0.45
1.04
1.44
1.18