VECKOPLAN (VECKA 4 AV 6)
Målet för veckan är att inhämta kunskap i diskriminantanalys DA, kanonisk
diskriminantanalys CDA samt logistisk diskriminantanalys.
Även denna vecka lämnar du in en rapport. Uppgifterna som ska lämnas in gör du i
MINITAB och SAS. Rapporten mailas till [email protected] senast onsdag 30/9 kl.
24.00.
DETALJERAD PLAN:
1. Läs kap 8.1-8.7 i Manly och kap 5.4 i Danielsson. Vi skiljer mellan
diskriminantanalys med linjära diskriminanter DA och kanonisk
diskriminantanalys CDA. Vid DA är man främst intresserad av att diskriminera
enskilda observationer till grupper medan man vid CDA är mer intresserad av
att välja ut vilka variabler som diskriminerar grupperna bäst. För detta kan
stegvis diskriminantanalys användas.
2. Läs kap 8.10 i Manly. Vid DA måste variablerna vara normalfördelade. Om de
inte är det så kan logistisk diskriminantanalys användas.
3. Läs worddokumentet DA_CDA.doc som finns på hemsidan. Här visas hur man
kör MINITAB, SAS och SPSS på hund-data sid 55-57 i Manly.
4. Lös uppgifterna nedan och redovisa dem i en rapport.
UPPGIFTER:
1. Studera data-materialet som finns under Salmon-data. Beskrivning av data: För
att bli bättre på att reglera fångstkvoterna av lax så är det av intresse att kunna
avgöra var laxen kommer ifrån. På laxens fjäll finns sk tillväxt-ringar som de fått
dels i sötvatten och dels i havsvatten. Man vet att ringarna är mindre för
Alaskafödda fiskar jämfört med Kanadafödda. Därför kallas variablerna
Freshwater och Marine, där Freshwater är ett storleksmått för ringar uppkomna
i sötvatten och Marine i saltvatten.
a. Gör en diskriminantanalys i MINITAB med länder som grupper (Alaska=1,
Kanada=2). Studera standardutskriften i detalj och kommentera
resultaten. Ta också ut en maximal utskrift och analysera den.
b. Gör en kanonisk diskriminantanalys i SAS eller SPSS för de två grupperna
(länderna) och tolka det intressanta i utskriften.
c. Gör en regressionsanalys i MINITAB. Låt länder vara responsvariabel och
Freshwater och Marine förklarande variabler. Standardisera de
förklarande variablerna. Koda länder med 1 och -1. Ta ut de anpassade
värdena och prediktera grupptillhörighet. Det ska vara samma tecken på
anpassade värden och responsvariabeln om diskrimineringen har gått
bra. Jämför resultatet med vad som erhållits vid CDA. Jämför också
regressionsuttrycket med den kanoniska diskriminantfunktionen.
2. Under Iris hittar du din data-mängd. Är det möjligt att separera Iris arterna med
hjälp av de givna variablerna? Går det att reducera antalet variabler och ändå
separera grupperna väl?
3. Under Personal finns det ett datamaterial för din grupp bestående av uppgifter
för de tjänstemän som anställdes vid ett visst företag under 1980. Vissa variabler
mättes vid anställningstillfället medan andra mättes efter en tid. Du hittar också
en fil med variabel-deklaration. Använd DA och CDA även om variablerna inte
kan antas vara normalfördelade.
i. Kan man med de uppgifter som finns vid anställningstillfället
göra en bra prognos av den kommande karriären inom företaget?
ii. Vilka variabler har störst betydelse om samtliga uppgifter
utnyttjas?
iii. Vad är det som äventyras vid DA och CDA då
normalfördelningsantagandet spricker?