Steg 0: SPSS två datavyer Vi börjar med att bekanta oss med SPSS två fönster, eller vyer, ett för att manipulera data, och ett för att manipulera sk. metadata, som är data om data exempelvis variabelnamn, förklarande text, variabeltyper,… Figur 1: SPSS Variabelvy I variabelvyn kan vi definiera variabler och ange dess egenskaper. Variablernas egenskaper bestäms av det vi anger i de 10 kolumnerna, • Name. Variabelns namn. • Type. Anger variabelns lagringstyp, dvs hur datorn sparar den. Kan vara numeric (siffror) eller string (text). Default är numeric. • Width. Anger hur många tecken inklusive decimalpunkt variabeln innehåller. Exempelvis behövs bredden 4 för att spara 3.14. Defaultvärdet är 8. • Decimals. Antal decimaler variabeln ska ha. Defaultvärdet är 2. • Label. En etikett, möjlighet att skriva en förklaringstext till variabeln. Etiketten kommer sedan att användas i utdatafilen. • Values. Etiketter för de olika värden variabeln kan anta. Etiketterna kommer sedan att användas i utdatafilen. • Missing. Anger vilka siffervärden som SPSS ska betrakta som ”Missing Data”, dvs data som av någon anledning fattas. Kan användas för att skilja mellan data som fattas och data som kanske inte skrivits in pga felhantering. Vanligt är att använda -99 för data som fattas. • Columns. Antalet tecken-kolumner som används när data visas i datavyn. Defaultvärdet är 8. • Align. Anger justering för data. Alternativ vänster-, centrum eller högerjusterat. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 1 • Measure. Anger vilken sorts data variabeln representerar. Det finns tre alternativ, scale (mätdata), ordinal (ordinaldata, dvs sorterbara kategoridata) och nominal (kategoridata utan inbördes ordning). Alla fälten är inte lika viktiga: • • • • Name och Type är nödvändiga att man väljer själv beroende på vad som ska analyseras. Label, Values och Measure är inte nödvändiga att välja själv, däremot kommer hanteringen av data, analyser och annat att gå mycket lättare. Alla dessa tre her med dokumenteringen av data att göra. Missing har också med dokumentation och tolkning av data att göra. Om på något sätt vill representera att data fattas så måste den användas. Width, Columns, Alignment och Decimals behöver man inte välja själv, det går i de allra flesta fall att använda de värden som SPSS själv föreslår. Genom att trycka på etikettknappen kan man visa data eller etiketter. Figur 2: SPSS Datavy I datavyn skriver vi in och ändrar data. Varje kolumn representerar en variabel och varje rad ett objekt eller fall (fritt översatt från engelskans case). Fönstret fungerar som kalkylbladet i Excel med undantaget att vi inte gör några beräkningar i arket utan vid sidan om, via menyerna. Tab-tangenten flyttar åt höger och piltangenterna upp/ner/höger/vänster precis som man kan förvänta sig. Finess: Man kan välja om man vill visa data som de är eller om man vi se deras etiketter istället. Tryck bara på etikett-knappen . En god regel är att skapa värdeetiketter (value labels) för kategori-data men skippa det för mätdata. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 2 Steg 1: Skapa variabler Klicka på fliken ”Variable View” ► Skapa följande variabler: • • • • • • • • Identitet Längd Vikt Kön BMI Ålder Utbildning. Blodtryck Här skriver du namnet på den nya variabeln. • • Här väljer du variabelns typ, numerisk eller string. Här anger du hur många tecken variabeln ska kunna lagra. Här anges antal decimaler. Bestäm nu vad variablerna har för typ (Type), dvs om variablerna är numeriska eller alfanumeriska (string). Bestäm också hur många tecken variablernas värden ska bestå av (Width) samt hur många decimaler som behövs (Decimals). Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 3 2. Förklara och förtydliga dina data Det är ALLTID bra att beskriva variablerna kortfattat, dessutom behöver man beskriva vad koderna för de kodade variabler såsom kön, utbildningsnivå, osv, betyder. Om det i materialet fattas data på en del ställlen behöver detta också beskrivas. Det har egentligen inte med SPSS att göra utan handlar mer om att vara tydlig med vad data betyder. • • • Beskriv variablerna kortfattat. Bestäm hur variablerna ska kodas, för de variabler det är aktuellt. Typexempel på variabler som kodas är svar på kryssfrågor och variabler med endast fixt antal alternativ. Skriv in hur ni kodar att värden fattas. Exempelvis med kod -99, eller någon annan kod som inte kan misstas för en observation. Nästa steg är att skriva in detta i SPSS-filen! Här skriver du förklarande text till variabelns namn Anger kolumnbredd Anger hur data justeras Här förklaras variabelvärden för en kategorisk variabel. Bestäm koder för saknade variabelvärden. Anger variabelns mätnivå ► Skriv in den förklarande texten för variablerna i kolumnen Label. Definiera variabelvärden på de kategoriska variablerna i Values och på de saknade variabelvärdena i Missing. Ändra kolumnbredd och justera data om du tycker det är nödvändigt. Ange variabelns mätnivå under Measure. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 4 Steg 3: Mata in data Nu är SPSS-filen förberedd för data, dvs det är dags att skriva in alla siffror ☻ och vi gör det under i ”Data View”. Klicka på fliken ”Data View” och mata in dina data. En observation på varje rad ► Mata in värdena på följande personer: Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Kön Man Man Kvinna Man Kvinna Kvinna Kvinna Man Man Kvinna Man Man Kvinna Kvinna Man Man Kvinna Kvinna Man Kvinna Längd 178 198 172 182 161 174 158 180 187 179 174 190 168 170 184 178 165 175 172 155 Vikt 72 81 68 91 70 58 65 83 80 63 78 80 51 71 70 112 67 69 104 161 Självstudiematerial för SPSS (ver. 15.01), Ålder 38 43 31 48 40 27 52 58 29 31 44 39 32 40 30 51 35 27 64 45 Utbildning Gymnasium Högskola Gymnasium Högskola Gymnasium Högskola Högskola Grundskola Gymnasium Högskola Högskola Grundskola Gymnasium Högskola Gymnasium Grundskola Högskola Högskola Grundskola Gymnasium Bltr 135 110 125 180 175 110 210 180 135 140 180 150 130 185 150 215 67 69 104 161 Fredrik Lundin, Jan 2009. 5 ► Spara filen! Gå till menyalternativet File → Save as. Spara därefter på enhet H:\ under ett namn som du kommer ihåg. Alternativen New/Open/Save/Save as/Print fungerar ungefär som motsvarande i Word och Excel. Skapa ny fil Öppnar en fil Öppnar en datafil från en extern databas eller läs in en textfil. Sparar en fil. Samma funktionalitet som i word/excel. Titta på innehållet i en fil utan att öppna den. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 6 3. Enklare analyser: Kvantitativa variabler För att göra enklare analyser och ta fram en del beskrivande mått som medelvärde, median, standardavvikelse mm, används menyalternativet Analyze. Under det alternativet finns det flera olika alternativ beroende på vilken typ av variabel som ska analyseras. ► Nu ska du öppna den fil som du arbetade med tidigare. Gå till menyalternativet File → Open → Data. Markera din fil och klicka på Open. Om det behövs eller om man vill går det nu bra att kontrollera, ändra eller juster data på något sätt. Vi ska dock gå vidare till en inledande analys. ► Gå till menalternativet Analyze → Descriptive Statistics → Descriptives Används framförallt till kvantitativa variabler. Här kan du beräkna medelvärde, median, standardavvikelse osv. Resultatet ges i tabellform. Vi får fram ett formulär där vi kan välja variabler att analysera. Markera variabler och tryck på pilknappen för att flytta dom till Variable-rutan Knappen options ger möjlighet att välja … Markera de variabler du vill analysera Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 7 …typ av statistik som ska produceras, exempelvis… …lägesmått. …spridningsmått. …och mått på hur skev fördelningen är. ► Lös nedanstående uppgifter. 1. Vad är genomsnittsåldern? _____________________________ 2. Vad är lägsta vikten? ______________________________ 3. Vad betyder N i resultatfönstret? ______________________________ Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 8 4. Enklare analyser: Kvalitativa variabler Vissa variabler lämpar sig inte för medelvärden, t ex den kvalitativa eller kategiriska variabeln kön. Under menyalternativet Analyze finns det flera olika möjligheter för att analysera kvalitativa variabler. Under Frequencies… kan vi skapa frekvenstabeller, enklare diagram och beräkna lite statistik. Obs! Man kan även beräkna medelvärden och standardavvikelser, trots att detta inte alltid har någon relevans. Ger oss absoluta och relativa frekvenser. Jämför två eller flera kategoriska eller kvalitativa variabler. För att jämföra två kategoriska variabler används Analyze → Descriptive Statistics → Crosstabs… Funktionen producerar tabeller där vi exempelvis kan se hur utbildningsnivå och kön är fördelar i materialet. Kön * Utbildning Crosstabulation Count Utbildning 1 Kön Total 2 Total 3 0 0 3 4 1 3 3 3 9 3 6 7 16 7 Korstabellen (Crosstab) är ett enkelt sätt att leta indikationer på om exempelvis utbildningsfördelningen verkar vara olika för män och kvinnor. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 9 ► Gå till menyalternativet Analyze → Descriptive Statistics → Frequencies, för att lösa nedanstående uppgifter. 1. Hur många är kvinnor? ___________________________________ 2. Hur många procent utgör kvinnorna? ___________________________________ 3. Hur stor andel har enbart grundskoleutbildning? __________________________ ► Gå till menyalternativet Analyze → Descriptive Statistics → Crosstabs, för att lösa nedanstående uppgifter. 1. Hur stor andel av männen har gymnasiekompetens? _______________________ 2. Hur stor andel är kvinnor med högskolekompetens? _______________________ 3. Hur stor andel av dom med gymnasiekompetens är kvinnor? __________________ Markera den variabel du vill ha radvis och lägg den i fönstret under Row(s): Markera den variabel du vill ha kolumnvis och lägg den i fönstret under Column(s): För att bestämma vilken typ av procent tryck på knappen Cells… Vi kan även välja vilken typ av statistik som ska produceras, under Statistics… Vi hinner tyvärr inte gå in på alla de statistikor och tester som kan beräknas under knappen Statistics…, det kanske kan bli temat för en annan kurs. Underformuläret har 15 alternativ som täcker 17 olika typer av test, alla med sina svaga och starka sidor. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 10 Under Analyze-Reports finns ytterligare sätt att beskriva datamaterialet. Skapar pivottabeller med olika lager. Skapar tabeller som listar observationerna. Rapporterar data utifrån valda kriterier. Layout utan pivot möjligheter. ► Gå till menyalternativet Analyze → Reports →Case Summaries och försök skapa tabellen nedan. Case Summaries Ålder Kön 0 N 1 Total 7 Mean 36,1429 9 42,1111 16 39,5000 Dialogrutan for Case Summaries och dess underdialogruta Satistics… innehåller en hel del val! Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 11 Obs! Håll pekaren över en variabel, och hela dess etikett visas! Här läggs variabler som ska beskrivas. Här läggs variabler, som observationerna ska grupperas efter. Med knappen Statistics… kan vi välja typer av beskrivningsmått. Här kan vi välja hur vi vill att de enskilda observationerna ska visas, eller om vi bara vill ta med ett visst antal Markera vilka beskrivningsmått som ska beräknas De som valts hamnar här… När du är nöjd tryck Continue Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 12 ► Gå till menyalternativet Analyze → Descriptive Statistics eller gå till Analyze → Reports och använd den procedur du tycker är lämpligast för att lösa följande uppgifter. 1. Vad är genomsnittslängden bland kvinnorna? __________________________________ 2. Hur stor andel har högskoleutbildning? __________________________________ 3. Vad är personernas totalvikt? __________________________________ 4. Vilket är det lägsta blodtrycksvärdet? __________________________________ 5. Vad är medelvikten bland kvinnor? __________________________________ 6. Hur stor är standardavvikelsen för männens vikt? __________________________________ 7. Hur stor är standardfelet för männens medelvikt? __________________________________ Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 13 5. Pivottabeller En pivottabell används när man vill redovisa resultatet av beroende på utfallet av en eller flera variabler. Man kan visa flera olika typer av statistiska mått i tabellen, och man kan välja att visa dessa för olika val av de kategoriska variablerna. OLAP Cubes Kön: Total Utbildning: Total MusikPref: Total 20 Mean 79,2000 Std. Deviation 23,35222 % of Total Sum 100,0% % of Total N 100,0% Vikt Sum 1584,00 Längd 3500,00 20 175,0000 10,67708 100,0% 100,0% 2911 20 145,55 41,321 100,0% 100,0% Bltr N Man kan se pivottabellen som en tabell med flera lager, ett för varje val av de kategoriska variablerna och som innehåller den valda informationen om de kvantitativa variablerna. Tabellen görs med variablerna och måtten i olika lager (layers) och sedan kan man flytta om och skifta variablerna beroende på vad som är aktuellt att visa. Skapar pivoteringsbara tabeller Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 14 ► Gå till kommandot Analyze → Reports → OLAP Cubes. Välj variablerna ålder, kön och utbildningsnivå. Variablerna de statistiska måtten ska beräknas för hamnar här. Här kan vi välja vilka typer av statistiska mått (se nedan) som ska visas i tabellen. De kategoriska variablerna vi väljer utfall för lägger vi här. Här finns möjlighet att beräkna och visa differenser mellan två variabler eller mellan en variabels katagorier. OBS Överkursbetonat! …och här visas de vi valt. Här finns de mått vi kan välja mellan… Tryck här för att fortsätta. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 15 När vi gjort alla val och tryckt på OK så kan vi välja för vilken kombination av kön och utbildningsnivå vi vill se statistiken. Man kan även sätta rubrik (title) och förklarande text (caption). Här visas tabellen för kön=1, dvs män, och utbildningsnivå 3, som är högskoleutbildning. Tyvärr får vi inte etiketterna (labels) för de olika variablernas (kön/utbildning) olika värden utskrivna utan endast värdena. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 16 6. Custom tables I SPSS finns bra möjlighet att konstruera sina egna tabeller. Vi ska inte titta på alla detaljer utan på möjligheten att skapa en speciell tabell, en korstabell med flera lager. Den finns i menyn under Analyze → Tables → Custom Tables. Nedan ser vi ett exempel på hur korstabell ser ut, där vikt/längd/blodtryck visas för de olika alternativen på kön och utbildning. Vi kan välja vilken variabel (lager) som visas. Rubrik och förklarande text (caption) kan vi också sätta (men det visste ni ju redan). Här hittar ni Custom Tables Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 17 Formuläret där man gör sina val är logiskt uppbyggt, även om det innehåller mycket! Formuläret är ett sk. dragand-drop formulär, dvs. ni markerar variabler och drar dom till den plats ni vill ha dom. OBS! Tabellen funkar bäst om man väljer kategoriska variabler för rader/kolumner och kvantitativa variabler för lagren, dvs för innahållet i tabellen, men det går att välja kategoriska variabler för lagren också. Hit drar man variabeln vars värden hamnar i kolumnerna. Hit bort drar man variablerna man vill ha som lager. Hit drar man variabeln vars värden hamnar i raderna. För att visa de inställningar man kan göra och för att ni ska få en lathund för framtiden ägnar vi nu fyra ☺ sidor åt de viktigaste inställningarna. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 18 1. Välj statistiska mått. Det gör vi genom att markera ett lager, exempelvis vikt, ramen runt blir då dubbeldragen. Nere till vänster kan man nu klicka på % Summary statistics… för att välja statistiska mått. Nu får nu fram formuläret som visas på nästa sida. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 19 Här väljer man kolumnrubrik Här väljer ni vilka statistiska mått som ska vara med. Här väljs vilket format siffrorna visas i. Här kan vi bestämma om valen vi gjort ska bara ska gälla det valda lagret eller alla lager. Det finns alltså goda möjlighetr att justera tabellen efter egna önskemål. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 20 2. Välj vilka variaber uppdelningen ska ske efter Efter att ha valt vilka variabler som ska utgöra rader (utbildningsnivåer) och kolumnrt (kön) kan vi välja om de ska visas i någon speciell ordninge, eller om vi vill ta bort någon kategori. Välj kategorivariabel att justera (i detta fall är Utbildning valt). Klicka på Categories and Totals… när du valt variabel. Nu kommer formuläret på nästa sida visas! Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 21 Här visas kategorier som kommer att visas. Vill vi utesluta någon kategori markerar vi denna och frycker på ► för att flytta den till ”utesluten”-rutan. Här kan vi välja om vi vill ha det sorterat på ett speciellt sätt. En avslutande kommentar om Custom Tables: Jag har inga övningar på dessa! Nyttan med tabelltypen är lättare att se med större och mera komplicerade datamängder.har ni egna data ta gärna med dessa till ett annat kurstillfälle och prova tabelltypen, eller prova på egen hand. 7. Dela materialet eller välja ut vissa observationer. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 22 Ibland är det av intresse att dela upp ett material efter en viss variabel, till exempel kön, för att göra jämförande analyser på dessa grupper. Det kan enkelt göras med kommandot Data → Split File. Använder man detta kommando kommer all analys hädanefter att göras med den uppdelning man önskat. Vill man analysera vissa observationer används kommandot Data → Select Cases med samma resultat som split file. Delar filen i två eller flera grupper med hjälp av en viss variabel, till exempel kön. Väljer ut vissa observationer att utföra vidare analyser på med hjälp av if-sats. ► Använd Split File eller Select Cases för att lösa följande uppgifter. 1. Välj ut alla kvinnor och beräkna deras totalvikt _____________________________________ 2. Välj ut alla män som är över 30 år och har en vikt över 80 kg. Beräkna genomsnittligt blodtryck. __________________________________ 3. Gör två frekvenstabeller på variabeln utbildningsnivå, en för män och en för kvinnor. 4. Gör en frekvenstabell på variabeln utbildningsnivå där män och kvinnor redovisas var för sig. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 23 8. Transformera data. Det finns tillfällen då det är nödvändigt att transformera data på något sätt, till exempel göra nya klassindelningar, koda om variabelvärden eller bilda nya variabler som är funktioner av andra variabler. Till detta använder vi kommandot Transform. Bildar ny variabel med hjälp av matematiska beräkningar. Koda om till nya värden, till exempel ålder till åldersklasser. ► Du ska nu med hjälp av Compute räkna ut personernas BMI-värden. BMI får man genom att ta vikten i kg delat med längden i meter upphöjt till två, BMI = vikt i kg (längd i meter )2 . Tänk på att variabeln längd är uttryckt i centimeter! Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 24 Skriv in namnet på den nya variabeln här. Skriv in formeln med variabelnamn (om någon variabel används i formeln). För en förklaring av dessa tre fönster, se bilaga A (sidan 34). ► Du ska nu med hjälp av Recode → Into Different Variables göra en ny variabel med klassindelade BMIvärden. Sätt värden under 20 som underviktig, värden mellan 20-25 som normalviktig, värden mellan 25-30 som överviktig och värden över 30 som kraftigt överviktig. Man kan även använda Compute och Recode för kontroll av variabler som kan ha blivit fel vid stansning. Vi antar att om det finns personer med längd kortare än 1 m och länge än 2.30 så måste detta kontrolleras. ► Använd Recode → Into Different Variables för att göra en ny variabel som är 1 om längden är 1.00 m eller mindre, 2 om längden är mellan 1.00 och 2.30 och 3 om personen är längre än 2.30 m. Använd frekvenstabellen under Analyze → Descriptive statistics → Frequencies för att kolla om någon längd kräver extra kontroll. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 25 1 1. 2. 3. Markera den aktuella variabeln i vänstra fönstret Klicka på pilen för att få över variabeln i högra fönstret Döp den nya variabeln och tryck på Change. 3 2 4 Klicka på Old and New Values… för att komma till nästa formulär, där omkodningen bestäms. 6 1. Skriv in gamla värden här. 2. Skriv in nya värden här. 5 Tryck på Continue när du är klar! 7 8 3. Tryck på denna för att få in gamla och nya värden i fönstret. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 26 9. Utdatafönstret Alla beräkningar, transformationer, diagram osv vi gör i SPSS skrivs ut i utdatafönstret. Innan vi går vidare kan vi behöva en kort presentatin av innehållet. Här ser vi rubriker för de olika poster programmet lagt till. Vi kan välja att visa eller dölja var och en av dom genom att dubbelklicka på symbolen vid varje text. Här hamnar resultatet av våra ansträngningar. Fylls på efter hand som vi arbetar vidare. Utdatafilen kan sparas. Kicka på disketten! Den sparas som en spo-fil, vilket står för SPSS Output file. Den kan sedan öppnas på nytt och fyllas på med utdata. All text i fönstret går att ändra, det är bara att dubbelklicka på texten. Vi kan exempelvis ändra rubrikerna i tabellerna. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 27 10. Diagram och andra figurer Tänk på att val av figur bestäms av vilken typ av variabel som ska illustreras. • Kvalitativa variabler illustreras vanligen med hjälp av stapeldiagram (bar chart) eller cirkeldiagram (pie chart). • Kvantitativa variabler kan illustreras med histogram (histogram) eller frekvenspolygon (area). Om man vill illustrera ett samband mellan två kvantitativa variabler kan man använda ett spridningsdiagram (scatterplot). Samtliga figurer kan göras med hjälp av Graphs → Interactive (eller Graphs → Legacy Dialogs). I figuren nedan ser vi att det är ungefär samma typ av diagram vi kan rita oavsett vilket vi väljer. Under Chart Builder… hittar vi ett formulär som låter oss bygga egna typer av diagram från grunden. Under Legacy Dialogs hamnar de äldre procedurerna som finns kvar för att gamla användare ska känna igen sig. OBS! Vi kommer inte att gå igenom dessa. Under Interactive hittar vi alla typer av digram SPSS kan rita åt oss. Alla typerna av diagram går att göra väldigt enkelt men ett minimum av inställningar och det är den typ av diagram vi hinner gå igenom i kursen. Det finns en hel del inställningar man kan göra för varje diagramtyp och med en stabil grund att stå på (få ni förhoppningsvis i denna kursen) så är det ganska lätt att gå vidare. Nedan ser vi fyra av de enklare typerna av diagram! Histogram Grupperat stapeldiagram 5 Cirkeldiagram Spridningsdiagram V V 4 200 4 V 3 175 V V V V 3 V 2 150 V 2 V V V V 125 1 V 1 V V 20 125 150 175 200 Kvinna 24 28 32 Man Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 28 Nedan visas ett exempel på hur du kan göra ett stapeldiagram. Principen är sedan densamma för övriga diagramtyper. Här väljer du om du vill ha antal eller procent. Markera i vänstra fönstret och draden hit med hjälp av musen. Här väljer du vilken variabel du vill illustrera. Markera i vänstra fönstret och dra hit med hjälp av musen. För grupperat stapeldiagram, markera den extra variabeln och dra den hit (se nedan för två exempel). Dessa symboler visar om det är en numerisk, nominal eller ordinal variabel. För att istället illustrera med flera diagram, markera den extra variabeln och dra den hit. Här står vad höjden på staplarna representerar. Exempel på hur vi kan visa utbildningsnivå och gruppera (under Legend variables) med avseende på kön. Först har vi valt att visa staplarna för män och kvinnor med olika färg! Då kommer staplarna för män/kvinnor att visas bredvid varandra (med alternativet Cluster) som i den övre bilden. Om vi däremot väljer alternativet Stack istället så kommer staplarna för de olika utbildningsnivåerna att delas upp i två delar, en för män och en för kvinnor (nedre bilden). Om vi istället drar variabeln Kön till Style så kommer skillnaden att illustreras med skillnader i mönster istället för i färger. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 29 6 Personens kön Kvinna Man Bars s how counts Count 4 2 0 G ru ndsko la G ym nasium Hög skol a Personens utbildningsnivå 8 Personens kön Kvinna Man Bars s how counts Count 6 4 2 G ru ndsko la G ym nasium Hög skol a Personens utbildningsnivå Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 30 Vill man ändra i sina diagram kan man göra detta i output-fönstret. Dubbelklicka på diagrammet! Då kommer vi få fram editorn för grafer. Här kan vi ändra text och färg (samt mycket, mycket mer). Dubbelklicka på rubriken för att ändra Här står vilken datamängd vi använde. Här kan vi ändra variabler och andra inställningar vi valde från början. Dubbelklicka på färgrutorna för att ändra staplarnas färg. Vi kan lägga till text om det skulle behövas! Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 31 Det finns en nyttig funktion till i diagrameditorn som vi inte kan använda med stapeldiagram. För s.k. scatterplots går det dock alldeles utmärkt. Vi ritar en scatterplot (under menyalternativet Graphs → Interactive → Scatterplot och väljer längd för x-axeln och vikt för y-axeln. Klickar vi på plotten i outputfönstret får vi följande bild. Med detta verktyget kan vi få skrivet vilken observation en viss punkt representerar. Klicka på symbolen och klicka sedan på de olika prickarna i diagrammet. Väldigt praktiskt för att identifiera konstiga data vid en kontroll ☺ Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 32 ► Använd Graphs → Interactives för att skapa följande illustrationer: 25% Personens kön Personens systol blodtryck Man Procent 20% 15% 10% 5% 200 V 175 V 150 gymnasium V V V V V V V V V V 125 V grundskola V V Kvinna V högskola 20 Personens utbildningsnivå 24 28 32 Personens BMI-värde Kvinna Man 4 Count 3 2 1 grundskola gymnasium högskola grundskola Personens utbildningsnivå gymnasium högskola Personens utbildningsnivå Personens utbildningsnivå grundskola gymnasium högskola 11. Att arbeta med flera filer: några råd Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 33 Om man arbetar med storta datamängder finns det goda skäl att dela upp sina data i flera filer. Vi har redan gått igenom hur man gör urval bland observationerna (via Data → Select cases…) och där kan man välja att radera de icka utvalda raderna i datamängden. När man sparar en fil (via File → Save as…) så finns det nere till höger en knapp på vilken det står Variables (se figur 1). Figur 1: Förmuläret vi får upp på skärmen om vi väljer File → Save as…. Trycker man på den knappen så kan man välja vilka variabler som man ska spara i den nya filen. På nästa sida (figur 2) ser vi hur urvalsformuläret ser ut ☺ Hur man bäst göra detta varierar naturligtvis från fall till fall och beror olika saker: • Hur många olika analyser ska göras? • Hur många extra variabler kommer beräknas? • Hur många variabler innehåller ursprungsdata? En tumregel kan dock vara att ha en orginalfil som innehåller tvättade ursprungsdata och sedan välja ut variabler för varje analys och spara dessa i en egen fil. Om man sedan döper sina filer efter vad som finns i dom (exempelvis Hjärtprojekt_ursprungsdata.sav, Hjärtprojekt_Överlevnadsanalys.sav,…) så blir det förhoppningsvis lättare att hitta bland sina data även efter lång tid. Glöm inte att använda ”labels” för att förklara vad variablerna betyder! Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 34 Figur 2: Formuläret där vi väljer ut vilka variabler som ska sparas till den nya filen. Endast de förkryssade variablerna kommer sparas i den nya filen. Proceduren påverkar inte filen ur vilken man väljer sina variabler. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 35 12. Slå ihop filer Att slå ihop filer kan vi göra på flera olika sätt. De har alla gemensamt att vi utgår från en datamängd (den aktiva, markerad med grönt kryss) till vilken vi lägger till data. Sedan väljer vi en datamängd från vilken vi Figur 3: Den aktiva datamängden är alltid markerad med ett grönt kryss i hörnet. vill att data ska hämtas. Vi kan lägga till nya variabler (för samma observationer) eller så kan vi lägga till nya observationer (för samma variabler). Det finns också en möjlighet att lägga till variabler för vissa observationer matchat på exempelvis ett id-nummer. Vi kan allltså 1) Lägga till nya observationer med data för alla variablerna. 2) Lägga till nya variabler (med matchning av observationerna i de båda filerna). Observera att ett id inte behöver vara en numerisk varaibel, det behöver inte ens bestå av en enda variabel utan kan bestå av fera variabler. Det viktiga är att varje observation har en unik kombination av id-variableln eller variablerna. Det enklaste är dock att använda en numerisk variabel. Oavsett vilket vi ska göra så väljer vi menyalternativet Data → Merge Files och där väljer vi Add Cases… eller Add Variables… beroende på vad vi vill göra (se fig 4 på nästa sida). Att lägga samman filer kan vara lite rörigt innan man vänjer sig vid begreppen så därför börjar vi med att förklara de termer SPSS använder. Det är tre datamängder som används. • • • Active dataset. Den datamängd som är aktiv när vi i menyn väljer Data → Merge Files kallas aktiv. Non-active dataset. Den datamängd vi väljer att lägga till data från kallas icke-aktiv. New Active dataset. Den nya datamängden som är resultatet av sammanslagningen kallas den nya aktiva datamängden. Dessutom används termen ”keyed table” som har att göra med varifrån data läses när vi gör sammanslagningar som baseras på någon identitetsvariabel, löpnummer eller liknande. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 36 Figur 4: Här väljer vi hur vi ska lägga till nya data. Antingen som nya variabler eller som nya observationer. 1. Att lägga till nya observationer Att lägga till fler observationer Vi börjar med att lägga till observationer. Vi använder datamängden vi skapade i början av kursen (med uppgifter om 20 personer) och lägger till uppgifter för ytterligare 20 personer. De extra data finns i filen Gk_Extra_Cases.sav. Vi väljer Data → Merge Files → Add cases och får upp förmuläret där vi väljer från vilken datamängd (öppen datamängd eller SPSS-fil) vi vill att data ska läggas till från (se figur 6). Aktiv datamängd Vi kan sedan spara denna som ny fil! Nya observationer Datamängd(er) där vi hämtar nya data Figur 5: Schematisk skiss för Add Cases. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 37 Här väljer vi en redan öppnad datamängd. Här väljer vi oöppnad SPSS-fil. Figur 6: Formuläret där vi väljer vilken datakälla vi använder. Antingen så lägger vi till data från en öppen datamängd eller från en SPSS fil. Klicka för något av alternativer An open dataset eller An external SPSS data file, välj datamängd/fil och klicka Continue för att fortsätta. Här ser vi variabler som inte kommer med i den nya aktiva datamängden. Här ser vi variabler som läggs i den nya aktiva datamängden. Man kan välja ut vilka variabler som ska vara med i den nya datamängden. När alla val är gjorda, tryck OK ☺ Här ser vi hur variablernas ursprung maskeras i listorna. Figur 7: Här väljer vi hur vi vill att den nya aktiva datamängden ska se ut. Variabler som från början hamnar i rutan Unpaired Variables är sådana som endast finns i den ena av de två datamängden vi läggar samman. Det betyder att det endast finns information om dom för en del av observationerna. Väljer man att ta med dem i den nya datamängden kommer de att fyllas på med ”missing data” där data fattas. Uppdelningen i Unpaired Variables och Variables in New Active Dataset är alltså en ren information om för vilka variabler data finns respektive inte finns. Vi kan ändå välja att inkludera/exkludera variabler i den nya datamängden precis som vi vill. När vi trycker OK så läggs data till den aktiva datamängden och vi kan välja att spara den nya datamängden antingen som ny fil eller under det gamla filnamnet! Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 38 2. Att lägga till nya variabler När vi lägger till nya variabler betyder det att variabler från en fil ska läggas ihop med variabler från en annan fil. Vi måste alltså se till att rätt observation (exempelvis person) från den ena filen paras ihop med rätt observation från den andra och det gör vi med hjälp av en eller flera nyckel- eller id-variabler (och dessa måste naturligtvis finnas i båda datamängderna). Vi väljer Data → Merge Files → Add variables… och får upp ett formulär där vi väljer datakälla för de nya variablerna (likadant som i figur 5). Här redovisas variabler som inte läggs till pga att de redan finns i den aktiva datamängden. Det är här vi väljer nyckel-variabeln/variablerna. Här redovisas variablerna som tas med, (*) eller (+) indikerar från vilken fil variabeln kommer. Här väljs hur data läggs ihop (se nedan). Nyckelvariablerna redovisas här. Figur 8: Formuläret för Add Variables. I rutan för New Active Dataset ser vi att variablerna markeras med antingen (*) eller (+). Variabler med (*) är de som finns i den aktiva datamängden och de markerade med (+) kommer från den andra datakällan. Under Match cases on key variables in sorted files (filerna måste alltså vara sorterade i stigande ordning med avseende på nyckelvarianbeln innan vi lägger ihop data) kan vi välja ett av tre alternativ. En kommentar om val av nyckeltabell (keyed table): När vi väljer vilken tabell som är nyckeltabell så väljer vi från vilken fil som alla observationer hämtas från och vilken fil som bidrar med extra variabler (men inga extra observationer). SPSS har valt att kalla den fil från de extra variablerna kommer för nyckeltabell eller nyckelfil. Nedan förklaras vad de olika alternativen betyder. • • • Both files provide cases. Om vi väljer detta alternativ så kommer observationer läggas till från båda datamängderna. Matchning på nyckelvariabler sker där det är möjligt. Den nya datamängden kommer alltså innehålla alla observationerna i båda filerna. Non-active dataset is keyed table. Här kommer observationer att hämtas endast från den fil som vi inte väljer som ”keyed table”, dvs den aktiva datamängden. De data (läs observationer) som finns i den andra (icke-aktiva) datamängden läggs till bara i de fall det finns en matchning mellan för den valda nyckelvariabeln i båda filerna. För att göra sammanläggningen enklare att förstå rekommenderar jag att ni använder detta alternativ och helt avstår från nästa. (Active dataset is keyed table). Ej rekommenderat. I detta fall hämtas observationerna från den icke-aktiva datamängden och data läggs till från den aktiva endast för de observationer där en matchning finns för den Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 39 valda nyckel-variabeln. Det innebär att de observatkioner som finns i den aktiva datamängden och som inte har någon motsvarighet i den icke-aktiva inte kommer med i det nya aktiva datamängden. En liten lathund: 1. 2. 3. 4. 5. 6. 7. Välj den fil till vilken nya variabler ska läggas och låt den vara den aktiva filen. Välj fil från vilken de nya variablerna kommer. Välj nyckelvariabel och se till att det inte finns några dubletter av den. Se till att båda filerna är sorterade (storleksordning, minsta först, eng. ascending) med avseende på nyckelvariabeln. Detta är viktigt, annars fungerar inte sammanläggningen. Ni kommer att bli frågade om detta är gjort innan sammanläggningen görs. Välj Data → Merge Files → Add variables…, markera alternativet ”Non-active dataset i keyed table”. Markera nyckelvariabeln. Se till att ni tar med de variabler ni är intresserade av, och tryck OK. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 40 13. Importera data från Excel SPSS kan hantera data från ett flertal program och ett av dessa är Excel. Det innebär att det går att öppna en excelfil i SPSS precis som man öppnar en fil i SPSS egna format. Eftersom Excel sparar data i kalkylark och vi kan ha flera sådana i samma excelfil. Dessutom så kan data sparas ganska fritt i inom varje kalkylark. I SPSS är det inte så, här kan vi bara spara data i tabeller där varje variabel har sin kolumn och varje fall eller patient har sin rad. Dessutom innehåller varje SPSS fil bara en tabell, inte flera som excelfilerna kan göra. Ska det vara meningsfullt att öppna excelfiler i SPSS måste vi följa samma strikta layout även i de kalkylark vi tänker öppna i SPSS. I excelfilen kan vi ha flera kalkylark och de kan man utforma fritt, det är bara kalkylbladet som ska öppnas i SPSS som måste vara en tabell. Utformning av kalkylarket Du kan skapa det nya kalkylarket i en befintlig excelfil eller i en helt ny fil, båda fungerar lika bra. Skapa sedan en layout liknande SPSS datablad enligt följande: 1. Skapa i ett excelark en kolumn per variabel med variabelnamnet på första raden 2. Fyll på med observationer rad för rad 3. Ha SPSS uppdelning på numeriska variabler och strängvariabler i åtanke, d.v.s. blanda inte text och siffror i samma kolumn om det kan undvikas (variabelnamn undantagna). Import till SPSS Visserligen går vi in i menyn och väljer öppna data för att öppna excelfilen men det är en import eftersom SPSS läser excelfilen och sparar den i sitt eget format. Vi öppnar filen i menyn File → Open → Data (se figur 9). I rullgardinen Filfomat kan vi markera att det är en excelfil vi ska öppna. Vi markerar filen på vanligt sätt och trycker OK. Nästa dialogruta vi stöter på (se figur 10) handlar om att välja vilket kalkylblad vi ska läsa och var i detta data finns. Har vi utformat kalkylbladet med SPSS i åtanke (steg 1-3 ovan) kan vi välja de omfång (range) som SPSS föreslår. Trycker vi på OK läses kalkylarket in och vi kan spara det som en SPSS fil på vanligt sätt. När väl data lästs in kan vi välja vilken skala (nominal/ordinal/scale) variablerna har och skapa labels både för variabler och värden (för nominal/ordinal variabler). Det finns ingen möjlighet att skapa ange labels och skala för variabler i excel och sedan importera dessa till SPSS. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 41 Figur 9: Välj format för data som vi ska öppna. Utöver att läsa excelfiler kan alltså SPSS läsa filer från en rad program, däribland SAS och dBase. SAS är ett stort statistikprogram som används av många i branchen, Stata ett annat statistikprogram som också finns inom LiV och dBase är en databashanterare (ungefär som Ms Access). SPSS kan också läsa filer från och skriva i Access filer men det görs under ett databasgränssnitt som heter odbc och är lite mera tekniskt till sin natur. Som analysvertyg är SPSS ett program av många med sina för- och nackdelar precis som Excel och exempelvis Word och Access (se figur på sidan 46). Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 42 Här markerar vi att första raden innehåller variabelnamn, inte data. Här visar vi var i kalkylbladet data finns. Står det inget importeras allt på bladet. Här väljer vi vilket kalkylblad vi ska importera. Figur 30: Dialogruta för att välja kalkylblad. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 43 14. Datastruktur Ibland stöter man på en datamängd som inte har någon självklar struktur, och då kan det vara så att man fokuserat på fel analysobjekt. Vad betyder då det här? Vi börjar med ett exempel: Vi samlar in patientdata från Apoteksbolagets register om läkemedelsanvändning hos äldre. Antag att studien handlar om hur många olika läkemedel 75+ åringar står på och hur mycket av olika läkemedelstyper (blodtryckssänkande, insulin, antidepressiva, …) som de använder. Varje patient kommer att representeras med att unikt och anonymt id samt en lista med läkemedel, deras typ och dygnsdosen. Hur ska vi lägga upp en SPSS-fil för detta? Det beror naturligtvis på vilka specifika frågor vi vill ha svar på och vilka typer av tabeller/diagram vi vill ha för redovisning, men vi kan ändå välja en enkel grundstruktur som underlättar för senare analyser. I detta fall kan vi ställa upp data enligt följande: PatientID (Skalvariabel) 1 1 1 2 2 • • • Läkemedel (Strängvariabel) Ramipril Covarex Gabapentin Ramipril Lantus OptiPen Pro • • • Typ (Nominal) C09AA ACE-hämmare C09AA ACE-hämmare N03A Antiepileptika C09AA ACE-hämmare A10AE04 Insulin glargin • • • Dygnsdos [mg] (Skalvariabel) 10 8 300 12.5 ? • • • Detta blir enklare att hantera än om vi väljer den kanske mer traditionella strukturen med PatientID och en variabel för namn, en för typ och en för dygnsdos, per läkemedel. Dessutom får vi problem om olika patienter äter olika många läkemedel samt hur många läkemedel man max ska få äta samtidigt. Väljer vi formatet ovan kan sedan SPSS göra summeringar per patient, s.k. aggregeringar, samt ganska lätt skapa tabeller över hur många patienter som står på varje läkemedel och/eller läkemedelstyp. Samma typ av datastruktur är lämplig om man samlar in data i tidsserier där exempelvis en patient återkommer och nya prover tas vid varje besök. Då är det besöket som är observationen, så att varje besök får en rad i datafilen. Är man osäker på vilken struktur man ska välja i datafilen (i Excel eller SPSS) är det bra att tänka igenom problemet innan, i efterhand kan det vara väldigt svårt att genomföra ändringarna på ett systematiskt sätt (d.v.s. utan att knappa in data från början) utan att det blir fel. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 44 Analytiska slutsatser Analytiska slutsatser Tabeller, Diagram, kurvor,… Analysdata Tvättade data Rådata SPSS Klassificering Transformeringar Omstrukturering Aggregering Kontroll Justering Rättning, … Enkät 5 Enkät 4 Enkät 2 Enkät 2 Enkät 1 Enkätundersökning Databaser Fältmätningar ? Självstudiematerial för SPSS (ver. 15.01), Övrigt,… Färdig fråga Fredrik Lundin, Jan 2009. 45 Bilaga A Vill man göra beräkningen för endast vissa data så kan man göra en selektion här. Självstudiematerial för SPSS (ver. 15.01), Genom att markera en funktionsgrupp så listas de ingående funktionerna under Functions and Special Variables. Man får även en kort beskrivning av funktionen, på engelska. Fredrik Lundin, Jan 2009. 46 Förslag på litteratur 1-5 1. 2. 3. 4. 5. Altman DG. Practical statistics for medical research Chapman & Hall, 2003, ISBN: 9781584880394. Beaglehole R. Grundläggande epidemiologi Studentlitteratur, 1995, ISBN: 91-44-48551-4. McNeil D. Epidemilogical research methods John Wiley & Sons, 1996, ISBN: 0-471-96196-5. Munroe BH. Statistical Methods for Health Care Research. 4 ed Lippincott, 2000, ISBN: 0-7817-2175-X. Rothman K. Modern Epidemiology. 3 ed Lippincott Williams And Wilkins, 2008, ISBN: 9780781755641. Självstudiematerial för SPSS (ver. 15.01), Fredrik Lundin, Jan 2009. 47