VECKOPLAN (VECKA 4 AV 6) Målet för veckan är att inhämta kunskap i diskriminantanalys DA, kanonisk diskriminantanalys CDA samt logistisk diskriminantanalys. Även denna vecka lämnar du in en rapport. Uppgifterna som ska lämnas in gör du i MINITAB och SAS. Rapporten mailas till [email protected] senast onsdag 30/9 kl. 24.00. DETALJERAD PLAN: 1. Läs kap 8.1-8.7 i Manly och kap 5.4 i Danielsson. Vi skiljer mellan diskriminantanalys med linjära diskriminanter DA och kanonisk diskriminantanalys CDA. Vid DA är man främst intresserad av att diskriminera enskilda observationer till grupper medan man vid CDA är mer intresserad av att välja ut vilka variabler som diskriminerar grupperna bäst. För detta kan stegvis diskriminantanalys användas. 2. Läs kap 8.10 i Manly. Vid DA måste variablerna vara normalfördelade. Om de inte är det så kan logistisk diskriminantanalys användas. 3. Läs worddokumentet DA_CDA.doc som finns på hemsidan. Här visas hur man kör MINITAB, SAS och SPSS på hund-data sid 55-57 i Manly. 4. Lös uppgifterna nedan och redovisa dem i en rapport. UPPGIFTER: 1. Studera data-materialet som finns under Salmon-data. Beskrivning av data: För att bli bättre på att reglera fångstkvoterna av lax så är det av intresse att kunna avgöra var laxen kommer ifrån. På laxens fjäll finns sk tillväxt-ringar som de fått dels i sötvatten och dels i havsvatten. Man vet att ringarna är mindre för Alaskafödda fiskar jämfört med Kanadafödda. Därför kallas variablerna Freshwater och Marine, där Freshwater är ett storleksmått för ringar uppkomna i sötvatten och Marine i saltvatten. a. Gör en diskriminantanalys i MINITAB med länder som grupper (Alaska=1, Kanada=2). Studera standardutskriften i detalj och kommentera resultaten. Ta också ut en maximal utskrift och analysera den. b. Gör en kanonisk diskriminantanalys i SAS eller SPSS för de två grupperna (länderna) och tolka det intressanta i utskriften. c. Gör en regressionsanalys i MINITAB. Låt länder vara responsvariabel och Freshwater och Marine förklarande variabler. Standardisera de förklarande variablerna. Koda länder med 1 och -1. Ta ut de anpassade värdena och prediktera grupptillhörighet. Det ska vara samma tecken på anpassade värden och responsvariabeln om diskrimineringen har gått bra. Jämför resultatet med vad som erhållits vid CDA. Jämför också regressionsuttrycket med den kanoniska diskriminantfunktionen. 2. Under Iris hittar du din data-mängd. Är det möjligt att separera Iris arterna med hjälp av de givna variablerna? Går det att reducera antalet variabler och ändå separera grupperna väl? 3. Under Personal finns det ett datamaterial för din grupp bestående av uppgifter för de tjänstemän som anställdes vid ett visst företag under 1980. Vissa variabler mättes vid anställningstillfället medan andra mättes efter en tid. Du hittar också en fil med variabel-deklaration. Använd DA och CDA även om variablerna inte kan antas vara normalfördelade. i. Kan man med de uppgifter som finns vid anställningstillfället göra en bra prognos av den kommande karriären inom företaget? ii. Vilka variabler har störst betydelse om samtliga uppgifter utnyttjas? iii. Vad är det som äventyras vid DA och CDA då normalfördelningsantagandet spricker?