Statistik, 2p PROTOKOLL FACIT (korrekta svar i röd fetstil) Datorlaboration 2 – Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta den statistiska bearbetningen av samma öringdata som under laboration 1. Denna gång kommer ni att prova på några vanligt förekommande statistiska tester och skattningsmetoder. Mer information om dessa finns under flik 13 i kurspärmen samt i "röda boken" (Vejde & Leander, 2000) . Arbeta gärna två och två. Öppna er datafil som ni sparade under första datorlaborationen, eller hämta en ny kopia av filen från samma adress som förut: www.zoologi.su.se/~popgen/statistik2p Utför nedanstående uppgifter och svara på frågorna. Även denna gång ska protokollet lämnas in. Uppgifter/frågor 1. Konfidensintervall för en kontinuerlig variabel. Följande formel används: 1a. Beräkna ett 95 % konfidensintervall för variabeln WEIGHT (kroppsvikt). Använd totalmaterialet, d.v.s. alla fiskar (=n). Börja med att räkna ut medelvärde ("x-bar") och stickprovsvarians (s2) för denna variabel (repetition från laboration 1): Stickprovsstorlek: 50 Medelvärde: 141 Varians: 2638 1b. Beräkna därefter standard error (S.E.), d.v.s. följande del av ovanstående uttryck: S.E. för WEIGHT (kroppsvikt) är: 7,26 2. Tips: För att dra kvadratroten ur ett tal används funktionen =ROT(tal), där tal representerar det värde man vill dra roten ur. Prova t.ex. att skriva =ROT(9) i någon valfri cell (följt av ENTER) och kontrollera att det stämmer... 1c. Ta nu reda på värdet av tdf , d.v.s. "t-faktorn" för det aktuella antalet frihetsgrader (df = n–1) och den önskade konfidensnivån. Detta gör ni antingen genom att använda funktionen =TINV(sannolikhet; frihetsgrader) i Excel, där sannolikhet representerar den sökta konfidensgränsen (i detta fall 5 %, skriv in 0,05), eller med hjälp av en t-tabell. Vad är df respektive tdf i det aktuella fallet? Observera att stickprovsstorleken (n) är det totala antalet fiskar i stickprovet (d.v.s. honor+hanar). df : 49 tdf : 2,01 1d. Ni har nu den information som behövs för att räkna ut ett 95 % konfidensintervall för kroppsvikt med hjälp av formeln på föregående sida. Vad blev resultatet? nedre 95% gräns: 126,3 övre 95% gräns: 155,5 1e. Beskriv innebörden av det konfidensintervall ni just räknat ut: Med 95% sannolikhet ligger populationens medelvärde (””) inom detta intervall 2. Hypotesprövning - test för medelvärdesskillnad (två medelvärden, t-test) 2a. Beräkna medellängden bland öringarna (båda könen) fångade i Blanktjärnen respektive i Flyn (repetition från laboration 1). Medellängder (mm): Blanktjärnen: 258 Flyn: 221 2b. Återspeglar den observerade medellängdsskillnaden i stickprovet en verklig ("sann") skillnad mellan de båda tjärnarnas öringar? För att angripa denna fråga statistiskt ska vi utföra ett så kallat t-test. I Excel används modulen Dataanalys (den som ni använde för att framställa histogram tidigare; återfinns under menyn Verktyg). "Rulla" ner mot slutet av listan med alternativ och välj t-test: Två sampel antar lika varians. 3. Tryck OK och följande dialogruta öppnas: I fälten Variabel 1–område och Variabel 2–område skriver ni in de cellområden som innehåller kroppslängderna för Blanktjärnen respektive för Flyn (era data måste alltså vara sorterade med avseende på lokal). I rutan märkt Alfa står inskrivet 0.05 (5 %). Detta är den signifikansnivå som t-testet kommer att utföras på, och detta värde kan ändras om man så önskar (men låt det stå denna gång). Innan ni trycker OK och utför testet, svara på följande : Vilken är nollhypotesen (H0) som skall testas? Medellängden bland 5-åriga öringar är den samma i Blanktjärnen och Flyn (1 = ) Vilken är alternativhypotesen (H1) vid ett dubbelsidigt test? Medellängden bland 5-åriga öringar i sjöarna Blanktjärnen och Flyn är inte den samma (1 ) Tryck på OK. Vilket blev resultatet? Vi bryr oss endast om det som står på följande rader i tabellen: Antal frihetsgrader ("fg"): 48 t-värde ("t-kvot"): 6,37 p-värde, dubbelsidigt test ("P(T<=t) tvåsidig"): 6,7 x 10-8 4. Föreligger det en statistiskt signifikant skillnad i medellängd mellan insamlingslokalerna? Ja! Det föreligger en statistiskt signifikant medellängdsskillnad mellan lokalerna (P<<0.05, H0 förkastas) Tolkning: Om H0 är sann är sannolikheten att få en så här stor skillnad (eller större) mellan två stickprov av denna storlek, väldigt låg! Alltså förkastar vi nollhypotesen. 3. Konfidensintervall för en relativ frekvens. Följande formel används: 3a. Beräkna konfidensintervall för andelen honor i totalmaterialet. Under laboration 1 (fråga 5) beräknade ni ett punktestimat för denna relativa frekvens i ert stickprov. Vilket var detta estimat? Andelen honor i stickprovet (phonor) är: 0,4 (40%) Beräkna ett 95% resp. 99% konfidensintervall. (Se fråga 1 för hur man med hjälp av Excel drar kvadratroten ur tal och bestämmer värdet för tdf .) Åter är antalet frihetsgrader df = n–1. OBS! n=50 (ni har ju använt hela stickprovet för att skatta andelen honor/hanar!) 95% konfidensintervall för andelen honor: 0,26 < Phonor < 0,54 99% konfidensintervall för andelen honor: 0,21 < Phonor < 0,59 3b. Vilket av intervallen är "bredast" och varför? 99% konfidensintervallet är bredast; ju säkrare man vill vara på att intervallet inkluderar populationens ”sanna” medelvärde, desto bredare intervall krävs 3c. Fundera över om det verkar troligt att den sanna frekvensen honor (Phonor) är 0.5, Ja, det förefaller möjligt att Phonor är 0,5 (d.v.s. att könskvoten är jämn) eftersom denna frekvens täcks av konfidensintervallen. 5. 4. Hypotesprövning – test av relativa frekvenser (2 "a priori") Testa de observerade absoluta frekvenserna honor/hanar mot de som förväntas vid jämn könskvot med hjälp av ett s.k. 2 –test. I Excel gör ni detta med hjälp av funktionen =CHI2TEST(obs;förv), där obs och förv representerar två cellområden där ni skrivit in de observerade resp. förväntade antalen honor/hanar. Funktionen CHI2TEST skriver då ut det aktuella p-värdet. Vilken är nollhypotesen (H0)? Könskvoten i populationen är jämn (Phonor = Phanar = 0.5) Vilken är alternativhypotesen (H1)? Könskvoten i populationen är inte jämn (Phonor Phanar) Vad blev p-värdet? 0,16 Vilken slutsats drar ni? Det går inte att förkasta hypotesen att könskvoten i populationen är jämn (P>0.05) 5. Linjär regression Finns det ett samband mellan kroppslängd och -vikt (WEIGHT och LENGTH)? En naturlig startpunkt för att analysera denna typ av frågeställning är att först illustrera sina data grafiskt. Under datorlaboration 1 gjorde ni ett punktdiagram över dessa variabler, vilket bör ha sett ut så här (den räta linjen får man genom att högerklicka på någon av punkterna i diagrammet och därefter välja "infoga trendlinje"): 6. Föreligger ett verkligt (linjärt) samband mellan variablerna kroppslängd och –vikt i populationen? Eller är det synbarliga sambandet i ovanstående figur endast orsakat av slumpen i ett stickprov av begränsad storlek? Åter bör frågan analyseras statistiskt, och vi gör det denna gång med hjälp av s.k. linjär regression. Använd modulen Dataanalys och välj alternativet Regression. Följande dialogruta öppnas: I fälten Y-indataområde och X-indataområde skriver ni in de cellområden (-referenser) som innehåller längder respektive vikter. Innan ni trycker OK och utför testet, svara på följande: Vilken är nollhypotesen (H0)? Det råder inget (linjärt) samband mellan variablerna x och y (vikt och längd), d.v.s. =0 Vilken är alternativhypotesen (H1)? Det råder ett (linjärt) samband mellan variablerna x och y (vikt och längd), d.v.s. 0 Tryck OK. Vilket blev resultatet? (Bry er endast om det p-värde som står utskrivet på nedersta raden i nedersta deltabellen, d.v.s. raden märkt X-variabel 1). p-värde: 2,4x10-34 Föreligger det ett statistiskt signifikant (linjärt) samband mellan vikt och längd? Ja! (p<<0.05, H0 förkastas) Glöm ej att lämna in protokollet!