10 maj Metoder för data på nominal och

1) sannolikhet att förkasta nollhypotes
när den inte är sann
sannolikhet
typ 2 fel
högst 20%
Odds Ratio
80% power med á = 0.05
förutsätter N = ca 800
ca 200 resp. 50 beroende på om
ES är liten, medelstor eller hög
vid chi 2 analys
ex:
statistiskt kriterium
.80
bestäms av sampelstorlek (N)
signifikanskriterium (á) och
effektstorlek (ES)
2) sannolikhet att finna statistiska skillnader
när det "i verkligheten" finns skillnader
def:
kvoten mellan oddsen för att händelse
inträffar i grupp A jmf med grupp B
Kategoridata
Statistisk
power
Relative Ratio
kvoten för mellan sannolikhet för
att händelse inträffar i grupp A
jmf med grupp B
1) medelvärde
Parametriska
metoder
längd i cm
ex
ex:
utbildning: grundskola,
gymnasium, högskola
det går att rangordna variabelns olika värden, men man
kan inte meningsfullt ange skillnader eller avstånd mellan
värdena - ej möjligt att tilldela numeriskt värde
ex
insamlat data
påverkar...
INTERVALL
ex
grupper utan inbördes ordning där
variabeln endast kan beskrivas i ord
möjligt att beräkna typvärde, men inte
median eller aritmetiskt medelvärde
2) motstår outliners
3) mediancentrering istället
för kring medelvärde
Icke
parametriska
metoder
(från wikipedia)
1) mindre
"power"
kan dock leda till
starkare resultat
2) några av testerna
ej så specifika
ORDNIAL
påverkas mindre av
sneda fördelningar
krävs fler deltagare för
signifikant resultat
NACKDELAR
möjligt att beräkna typvärde, median och
percentiler, men inte aritmetiskt medelvärde
kön, yrke, sjukdomstyp
FÖRDELAR
1) analysmetod
SKALORNA
FÖR DATA
möjligt att beräkna typvärde, median, och
aritmetiskt medelvärde
2) mätskala
1) mindre restriktioner större tillämpning
KVOT
endast för värden som mäts i kvotskala är det
meningsfullt att dividera och multiplicera värdena
det man mäter kan tilldelas numeriskt värde, man kan ange
skillnaden mellan två variabler, men inte säga att den är ex.
dubbelt så stor eftersom nollpunkten är godtycklig
1) normalfördelning
KRAV för användning
det man mäter kan beskrivas numeriskt och det
finns ett entydigt sätt att definiera ett nollvärde
man kan jmf storleken mellan värden
temperatur
mätt i Celsius
2) standardavvikelse
(parametriska
egenskaper)
(enbart riktning
av skillnad)
2) vilka svar
analyserna
ger oss
NOMINAL
data ger oss endast grupptillhörighet
(hur många, inte hur mycket)
1) finns ett samband?
2) om sambandet finns, hur
stor är risken för slumpfynd?
många analysmetoder arbetar
med rankningar (rangordning)
istället för rådata...
1) oberoende slumpmässigt urval
...andra jämför poängfördelning runt medianen
2) data ordinal/ nominal skalnivå
det bästa icke parametriska alternativet till
oberoende (unpaired) t- test
Fischers exact test istället för chi 2
KRAV för användning
använder sig av rankningar
3) ingen förväntad cellfrekvens under 5
Mann Whitney
U- test
avslöjar skillnader i "central tendency"
<5
2 x 2 frequency table quick test
liten powerförlust jämfört med t- test
signifikanstestning med U statistic
jämför fördelning av en kontinuerlig
variabel för två grupper
resultatet bygger på ytterlighetsvärden och
är därmed känsligt för outliners
bygger på rankningar och motstår därför outliners
den som råder i
hela populationen
A
den icke parametriska motsvarigheten
till one sample t- test
testar om två grupper av observationer har
slumpmässigt dragits ur samma population
One sample
sign test
JÄMFÖRELSE AV
TVÅ OBEROENDE
GRUPPER
KAN BESVARAS MED...
10 maj
Metoder för data på
nominal och
ordinalskalenivå
Timo Hursti
JÄMFÖRELSE
OBEROENDE
GRUPPER
Kolmogorov
Smirnov test
CHI 2 analys
Wald Wolfowits
runs test
nollhypotes (chi 2 test av oberoende) =
det råder oberoende mellan variablerna
1) Samband räknas ut med hjälp av formel
2) Slumptest sker då man jmf chi2 värdet
med frihetsgrader i tabell
Icke parametrisk ANOVA för data på ordinalnivå
arbetar med rankningar istället för rådata
kan användas med två eller flera grupper
Kruskall- Wallis
one way ANOVA
signifikanstestning bygger på chi2 fördelning
JÄMFÖRELSE AV
FLER ÄN TVÅ
OBEROENDE
GRUPPER
är det fler kvinnor än män
som använder cykelhjälm?
Går ut på att jämföra den observerade
frekvensfördelningen mot...
bygger på rankningar
(är användning av cykelhjälm
oberoende av kön?)
1) vi gör en studie och får följande
observerade värden
det bästa icke parametriska alternativet till
beroende (paired) t- test
jmf om persons rankning förändrats ex. före/ efter
intervention - hur mycket och vilken riktning
korrigering av chi 2 med hjälp av
Yatés correction of continuity
Wilcoxon´s signed rank
test for matched pairs
ger en t- statistic som används för
signifikansbestämning
bygger enbart på om rankningen blivit högre eller
lägre ("sign") och har därför mindre "power" än...
JÄMFÖRELSE
TVÅ BEROENDE
GRUPPER
JÄMFÖRELSE
BEROENDE
GRUPPER
Paired
sign test
Icke parametrisk envägs
ANOVA för beroende värden
tillämpbar för upprepade
mätningar från samma personer
Analysmetoder och sambandsmått på NOMINALAnalysmetoder och sambandsmått för data på
SKALENIVÅ
2) Förväntade värden ska motsvara
proportionerna och nollhypotes
ORDNIALSKALENIVÅ
mellan två
grupper
B
Friedman
two way
ANOVA
ger en x2 statistic
JÄMFÖRELSE
FLER ÄN TVÅ
BEROENDE
GRUPPER
SAMBANDSMÅTT
3) formel för beräkning
av förväntade värden
kolumnmarg * radmarg /N
4) efter beräkning av chi2 analys
Spearmans Rank
Order Correlation
(rho)
korrelationsberäkning
för rangordnade
observationer på
ordninalskalenivå
testar i vilken mån
det går att utifrån en
persons rangordning
för variabel A förutse
rangordning för
variabel B
Kendalls tau
5) signifikans avgörs
av frihetsgrader
fungerar på liknande
sätt som...
Chi 2 värde
...är mindre använd,
men har vissa fördelar
frihetsgrader (df)
p- värde
rek. för små
sampel
Viktiga mått
sambandsmått
varierar mellan - 1 och + 1
kan tolkas som förklarad
varians om kvarderas
Effektstorlek
(sambandets
storlek)
(phi)
liten 0,1
riktvärden
medel 0,3
stor 0,5
signifikanstestning med
hjälp av egen tabell
x= 3,125
bestämning av frihetsgrader
df = (R-1) (C-1)
R = antalet rader
C = antalet kolumner
(signifikans)
ofta df1= .05
(OBS fasta tal i
marginaler)