Statistik, 2p
PROTOKOLL
FACIT (korrekta svar i röd fetstil)
Datorlaboration 2 – Konfidensintervall & hypotesprövning
Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta den statistiska
bearbetningen av samma öringdata som under laboration 1. Denna gång kommer ni att prova
på några vanligt förekommande statistiska tester och skattningsmetoder. Mer information om
dessa finns under flik 13 i kurspärmen samt i "röda boken" (Vejde & Leander, 2000) .
Arbeta gärna två och två. Öppna er datafil som ni sparade under första datorlaborationen, eller
hämta en ny kopia av filen från samma adress som förut:
www.zoologi.su.se/~popgen/statistik2p
Utför nedanstående uppgifter och svara på frågorna. Även denna gång ska protokollet
lämnas in.
Uppgifter/frågor
1. Konfidensintervall för en kontinuerlig variabel. Följande formel används:
1a. Beräkna ett 95 % konfidensintervall för variabeln WEIGHT (kroppsvikt). Använd
totalmaterialet, d.v.s. alla fiskar (=n). Börja med att räkna ut medelvärde ("x-bar") och
stickprovsvarians (s2) för denna variabel (repetition från laboration 1):
Stickprovsstorlek: 50
Medelvärde: 141
Varians: 2638
1b. Beräkna därefter standard error (S.E.), d.v.s. följande del av ovanstående uttryck:
S.E. för WEIGHT (kroppsvikt) är: 7,26
2.
Tips: För att dra kvadratroten ur ett tal används funktionen =ROT(tal), där tal
representerar det värde man vill dra roten ur. Prova t.ex. att skriva =ROT(9) i någon
valfri cell (följt av ENTER) och kontrollera att det stämmer...
1c. Ta nu reda på värdet av tdf , d.v.s. "t-faktorn" för det aktuella antalet frihetsgrader
(df = n–1) och den önskade konfidensnivån. Detta gör ni antingen genom att använda
funktionen =TINV(sannolikhet; frihetsgrader) i Excel, där sannolikhet representerar
den sökta konfidensgränsen (i detta fall 5 %, skriv in 0,05), eller med hjälp av en t-tabell.
Vad är df respektive tdf i det aktuella fallet? Observera att stickprovsstorleken (n) är det
totala antalet fiskar i stickprovet (d.v.s. honor+hanar).
df : 49
tdf : 2,01
1d. Ni har nu den information som behövs för att räkna ut ett 95 % konfidensintervall för
kroppsvikt med hjälp av formeln på föregående sida. Vad blev resultatet?
nedre 95% gräns: 126,3
övre 95% gräns: 155,5
1e. Beskriv innebörden av det konfidensintervall ni just räknat ut:
Med 95% sannolikhet ligger populationens medelvärde (””) inom detta intervall
2. Hypotesprövning - test för medelvärdesskillnad (två medelvärden, t-test)
2a. Beräkna medellängden bland öringarna (båda könen) fångade i Blanktjärnen
respektive i Flyn (repetition från laboration 1).
Medellängder (mm):
Blanktjärnen: 258
Flyn: 221
2b. Återspeglar den observerade medellängdsskillnaden i stickprovet en verklig ("sann")
skillnad mellan de båda tjärnarnas öringar? För att angripa denna fråga statistiskt ska vi
utföra ett så kallat t-test. I Excel används modulen Dataanalys (den som ni använde för
att framställa histogram tidigare; återfinns under menyn Verktyg). "Rulla" ner mot slutet
av listan med alternativ och välj t-test: Två sampel antar lika varians.
3.
Tryck OK och följande dialogruta öppnas:
I fälten Variabel 1–område och Variabel 2–område skriver ni in de cellområden som
innehåller kroppslängderna för Blanktjärnen respektive för Flyn (era data måste alltså vara
sorterade med avseende på lokal). I rutan märkt Alfa står inskrivet 0.05 (5 %). Detta är den
signifikansnivå som t-testet kommer att utföras på, och detta värde kan ändras om man så
önskar (men låt det stå denna gång). Innan ni trycker OK och utför testet, svara på
följande :
Vilken är nollhypotesen (H0) som skall testas?
Medellängden bland 5-åriga öringar är den samma i Blanktjärnen och Flyn (1 = )
Vilken är alternativhypotesen (H1) vid ett dubbelsidigt test?
Medellängden bland 5-åriga öringar i sjöarna Blanktjärnen och Flyn är inte den
samma (1  )
Tryck på OK. Vilket blev resultatet? Vi bryr oss endast om det som står på följande rader i
tabellen:
Antal frihetsgrader ("fg"): 48
t-värde ("t-kvot"): 6,37
p-värde, dubbelsidigt test ("P(T<=t) tvåsidig"): 6,7 x 10-8
4.
Föreligger det en statistiskt signifikant skillnad i medellängd mellan insamlingslokalerna?
Ja! Det föreligger en statistiskt signifikant medellängdsskillnad mellan lokalerna
(P<<0.05, H0 förkastas)
Tolkning: Om H0 är sann är sannolikheten att få en så här stor skillnad (eller
större) mellan två stickprov av denna storlek, väldigt låg! Alltså förkastar vi
nollhypotesen.
3. Konfidensintervall för en relativ frekvens. Följande formel används:
3a. Beräkna konfidensintervall för andelen honor i totalmaterialet. Under laboration 1
(fråga 5) beräknade ni ett punktestimat för denna relativa frekvens i ert stickprov. Vilket
var detta estimat?
Andelen honor i stickprovet (phonor) är: 0,4 (40%)
Beräkna ett 95% resp. 99% konfidensintervall. (Se fråga 1 för hur man med hjälp av Excel
drar kvadratroten ur tal och bestämmer värdet för tdf .) Åter är antalet frihetsgrader
df = n–1.
OBS! n=50 (ni har ju använt hela stickprovet för att skatta andelen honor/hanar!)
95% konfidensintervall för andelen honor: 0,26 < Phonor < 0,54
99% konfidensintervall för andelen honor: 0,21 < Phonor < 0,59
3b. Vilket av intervallen är "bredast" och varför?
99% konfidensintervallet är bredast; ju säkrare man vill vara på att intervallet
inkluderar populationens ”sanna” medelvärde, desto bredare intervall krävs
3c. Fundera över om det verkar troligt att den sanna frekvensen honor (Phonor) är 0.5,
Ja, det förefaller möjligt att Phonor är 0,5 (d.v.s. att könskvoten är jämn) eftersom
denna frekvens täcks av konfidensintervallen.
5.
4. Hypotesprövning – test av relativa frekvenser (2 "a priori")
Testa de observerade absoluta frekvenserna honor/hanar mot de som förväntas vid jämn
könskvot med hjälp av ett s.k. 2 –test. I Excel gör ni detta med hjälp av funktionen
=CHI2TEST(obs;förv), där obs och förv representerar två cellområden där ni skrivit in
de observerade resp. förväntade antalen honor/hanar. Funktionen CHI2TEST skriver då
ut det aktuella p-värdet.
Vilken är nollhypotesen (H0)?
Könskvoten i populationen är jämn (Phonor = Phanar = 0.5)
Vilken är alternativhypotesen (H1)?
Könskvoten i populationen är inte jämn (Phonor Phanar)
Vad blev p-värdet?
0,16
Vilken slutsats drar ni?
Det går inte att förkasta hypotesen att könskvoten i populationen är jämn (P>0.05)
5. Linjär regression
Finns det ett samband mellan kroppslängd och -vikt (WEIGHT och LENGTH)? En
naturlig startpunkt för att analysera denna typ av frågeställning är att först illustrera sina
data grafiskt. Under datorlaboration 1 gjorde ni ett punktdiagram över dessa variabler,
vilket bör ha sett ut så här (den räta linjen får man genom att högerklicka på någon av
punkterna i diagrammet och därefter välja "infoga trendlinje"):
6.
Föreligger ett verkligt (linjärt) samband mellan variablerna kroppslängd och –vikt i
populationen? Eller är det synbarliga sambandet i ovanstående figur endast orsakat av
slumpen i ett stickprov av begränsad storlek? Åter bör frågan analyseras statistiskt, och vi
gör det denna gång med hjälp av s.k. linjär regression. Använd modulen Dataanalys och
välj alternativet Regression. Följande dialogruta öppnas:
I fälten Y-indataområde och X-indataområde skriver ni in de cellområden (-referenser)
som innehåller längder respektive vikter. Innan ni trycker OK och utför testet, svara på
följande:
Vilken är nollhypotesen (H0)?
Det råder inget (linjärt) samband mellan variablerna x och y (vikt och längd), d.v.s.
=0
Vilken är alternativhypotesen (H1)?
Det råder ett (linjärt) samband mellan variablerna x och y (vikt och längd), d.v.s. 
0
Tryck OK. Vilket blev resultatet? (Bry er endast om det p-värde som står utskrivet på
nedersta raden i nedersta deltabellen, d.v.s. raden märkt X-variabel 1).
p-värde: 2,4x10-34
Föreligger det ett statistiskt signifikant (linjärt) samband mellan vikt och längd?
Ja! (p<<0.05, H0 förkastas)
Glöm ej att lämna in protokollet!