Något om beskrivande statistik 1. Inledning I många sammanhang krävs verkliga fakta som underlag för att komma till rimliga slutsatser och/eller fatta vettiga beslut. T.ex. kan det på ett företag ha uppstått diskussioner om att det förekommer könsdiskriminering, som bl.a. yttrar sig i att kvinnor har lägre löner än män. Det kan då vara rimligt att för ett urval av kvinnor resp. män ta reda på fakta. Fakta avser då inte bara deras löner, utan också potentiellt viktiga faktorer som ålder, utbildning, antal anställningsår etc. Om det fortfarande finns löneskillnader mellan kvinnor och män, fast man tar hänsyn till en mängd bakgrundsfaktorer, så står man på betydligt fastare mark när man hävdar att det finns osakliga löneskillnader på företaget. Den situation vi beskrivit ovan är typisk för en statistisk undersökning. Man behöver få ett objektivt faktaunderlag och samlar därför på sig en mängd data. Dessa data kan erhållas genom en observationsundersökning som i exemplet ovan, men även experimentella undersökningar är vanliga. T.ex. vill en butik studera hur olika exponering av en vara påverkar varans försäljning. Man bestämmer sig för att testa tre olika typer av exponering och genomför dessa under var sina tremånadersperioder. Sedan kan man jämföra försäljningssiffror (tillsammans med annan viktig information) för att komma fram till en väl underbyggd slutsats. Syftet med en statistisk undersökning är många gånger rent beskrivande, dvs man vill ”se verkligheten som den är”. Men ofta har man också ett analytiskt syfte, som att göra en sambandsanalys eller pröva en uttalad hypotes ( i löneexemplet vill man studera sambandet mellan lön och kön och testa om skillnaden är ”statistiskt signifikant”). Även om syftet för en undersökning är analytiskt, har den ofta stora inslag av beskrivande moment. Slutsatser från en analytisk undersökning dras alltid till någon population. Ofta är populationen ändlig och lätt att förstå (som t.ex. de anställda vid ett företag). Lika vanligt är det med en s.k. oändlig population, som är ett betydligt mera vagt begrepp och ofta används då man har oberoende mätningar vid t.ex. ett experiment. Man vill då studera en mera allmän företeelse, som t.ex. hållfastheten hos en stållegering, effekten av en reklamkampanj på försäljningen av en vara, sambandet mellan försäljningen av en vara och dess pris etc. 1 2. Olika typer av data Vad är nu data? En definition kan vara att data är mått på variabler, som kan vara rimliga att studera med hänsyn till undersökningsproblemet. I löneexemplet kan vi bl.a. se följande variabler och mått: Lön – rimligt mått är månadslön i kronor Ålder – kan vara faktisk ålder i antal år (kanske även månader) men även en klassindelning i t.ex. femårsklasser Kön – kan betecknas som K resp. M, men vanligare är t.ex. 1 resp. 0 (fortfarande bara en beteckning fast det är siffror). Uppenbarligen finns det två typer av variabler, nämligen de som kallas kvalitativa resp. kvantitativa. En kvalitativ variabel är en variabel som definierar olika kategorier som t.ex. kön, yrke, födelseland etc. Variabeln har inget naturligt siffermått men siffror används ofta som beteckning. En kvantitativ variabel har som naturligt mått siffror och siffrorna har sin självklara betydelse. Som exempel kan nämnas antal barn i en familj, ålder och inkomst. Däremot är det inte alltid självklart hur variabeln skall mätas utan man kan använda olika sorters skalor. T.ex. kan ålder mätas i antal år eller i olika ålderskategorier. Man brukar prata om fyra olika skalor på vilka variabler kan mätas. Nominalskala (klasstillhörighet) är den enda skalan för kvalitativa variabler. Ordinalskala är den grövsta skalan för kvantitativa variabler, då man enbart tar hänsyn till storleksordningen mellan olika värden. Ett exempel är åldersklasserna 1 (under 20), 2 (mellan 20 och 40) samt 3 (över 40). En individ i klass 1 är då yngre än en i klass 2 etc. Intervall- och kvotskala är de ”exakta” skalorna för kvantitativa variabler. Ur statistisk synvinkel behandlas data mätta på dessa skalor på ett likvärdigt sätt. Det som skiljer variablerna är att vissa variabler inte har någon given nollpunkt (som t.ex. temperatur). De mäts då på intervallskala där det är meningsfullt att tala om differenser (Vettigt uttalande: I dag är det 12 grader, dvs 2 grader varmare än i går då det var 10 grader. Däremot fungerar det inte med: I dag är det 20 % varmare än i går). En variabel på kvotskala har en väldefinierad nollpunkt och det är meningsfullt att bilda kvoter och uttrycka relativa mått (Lisa och Karin är 2 resp. 4 år gamla. Alltså är Karin 2 år äldre än Lisa. Men det är också korrekt att säga att Karin är dubbelt så gammal som Lisa). Det blev litet långrandigt detta med skalor och vi skall inte fördjupa oss mer, utan konstatera att skalorna leder till två typer av data. Kvalitativa variabler och kvantitativa variabler på ordinalskala ger båda frekvensdata, dvs för varje klass får man antalet individer (frekvensen) som ingår i klassen. Kvantitativa variabler på intervall- eller kvotskala ger data i form av enskilda numeriska värden. 2 3. Tabeller och diagram I media, kursböcker och annat matas vi dagligen med information i form av tabeller och diagram. Informationen ser vederhäftig ut och det är lätt att ta till sig den helt okritiskt, inte minst för att många tycker att det bara är ”tråkiga siffror”, som man inte orkar penetrera närmare. Men här riskerar man att gå på ordentliga nitar! Statistiska uppgifter kan presenteras på många olika sätt, och man måste förstå hur den aktuella tabellen eller diagrammet är konstruerat, för att rätt tolka informationen. Vanligen är informationen formellt sett korrekt, men kan framställas på sådant sätt, att det är lätt att feltolka den om man inte granskar den kritiskt. Särskilt tydligt blir detta vid politiska debatter, då det är vanligt att representanter för olika partier visar diagram över någon företeelse. Trots att man illustrerar samma företeelse ger diagrammen helt olika intryck (kanske för att man använder olika skalor, delvis olika tidsperioder etc). Frekvensdata Vi studerar nu en variabel som är indelad i olika klasser, och vill med hjälp av tabeller och diagram illustrera hur data fördelar sig över de olika klasserna. Vidare behandlar vi två klassindelade variabler tillsammans och gör motsvarande illustrationer. Exempel 3.1. I en mediaundersökning riktad till allmänheten vill man ta reda på svenska folkets inställning till olika tidningar. För varje tidning får de svarande uttrycka sin åsikt på en femgradig skala. Frågorna och svarsalternativen är av följande typ. ”Tidningen XX är trovärdig” Instämmer: O inte alls O O O O helt Förutom svaren på dessa frågor har man också frågat om den svarandes kön. 800 personer har besvarat enkäten och vi vill redovisa svarsfördelningarna över kön, över trovärdighet men även över kombinationen av kön och trovärdighet. Det senare gör vi för att se om kvinnor och män uppfattar trovärdigheten på olika sätt. Kön Tabell 3.1.1 Svarsfördelning efter kön Kön Kvinnor Män Totalt Antal 380 420 800 Andel i procent 47.5 52.5 100 Denna fördelning kan illustreras i ett stapeldiagram, som har konstruerats direkt från Minitab: 3 Figur 3.1.1 Stapeldiagram över könsfördelning Sum of Antal 420 Män 410 400 390 Kvinnor 380 0 1 Kön Figurtexten är inte den snyggaste, men detta bortser vi från nu. Det vi kan konstatera är att diagrammet i och för sig är korrekt, men ger ett intryck av att kvinnorna är väldigt få i förhållande till männen. Detta beror på Y-axelns skala, som inte alls börjar i 0. Det är lätt att styra om detta i Minitab och vi erhåller då i stället följande: Figur 3.1.2 Stapeldiagram över könsfördelning Män Sum of Antal 400 Kvinnor 300 200 100 0 0 1 Kön Nu får vi ett helt annat och mera korrekt intryck av stapeldiagrammet, eller hur? Vi kan dra lärdomen, att man bör undvika ”stympade” skalor, eftersom det omedelbara synintrycket av diagrammet lätt blir vilseledande. Ett vanligt sätt att illustrera fördelningar är med cirkeldiagram, där cirkelsektorernas areor är proportionella mot frekvenserna: 4 Figur 3.1.3 Cirkeldiagram över könsfördelning Pie Chart of Kön 0 (420; 52,5%) 1 (380; 47,5%) ¤ Trovärdigheten Vad gäller trovärdigheten har följande resultat erhållits: Tabell 3.1.2 Fördelning efter trovärdighet Trovärdighet 1 2 3 4 5 Totalt Antal 120 120 240 160 160 800 Procentuell andel 15 15 30 20 20 100 Figur 3.1.4 Stapeldiagram över trovärdighetsfördelningen 250 Sum of ant 200 150 100 50 0 1 2 3 4 5 Trov 5 Figur 3.1.5 Cirkeldiagram över trovärdighetsfördelningen Pie Chart of Trov 2 (120; 15,0%) 1 (120; 15,0%) 3 (240; 30,0%) 5 (160; 20,0%) 4 (160; 20,0%) Kombinationen kön och trovärdighet Här behöver vi ta fram en korstabell, dvs en frekvenstabell där båda variablerna redovisas tillsammans. Raderna i tabellen kan vara kön, medan kolumnerna är trovärdigheten. För att förenkla redovisningen så ges trovärdigheten bara i 3 klasser; negativa (ursprunglig kod 1 och 2), obestämda (kod 3) och positiva (kod 4 och 5): Tabell 3.1.3 Fördelning efter trovärdighet för män och kvinnor. Antal Kön Kvinnor Män Totalt Trovärdighet Neg Obest 80 120 160 120 240 240 Pos 180 140 320 Totalt 380 420 800 Vi kan konstatera att i marginalerna har vi de fördelningar som tidigare redovisats (trovärdighetsfördelningen var dock då mera finfördelad). Vi kan också konstatera att männen är betydligt mer negativa än kvinnorna (160/420 = 38.1 % jämfört med 80/380 = 21.4 %). För att illustrera detta tar vi fram ett stapeldiagram uppdelat på kön: 6 Figur 3.1.6 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Antal 200 Pos Neg Sum of Ant Pos Obest Obest 100 Neg 0 0 1 Kon Eftersom antalet män och kvinnor är olika, kan det vara litet besvärligt att direkt se skillnaden i fördelning, när den som här ges i antal. Det blir enklare om man i stället går över till procentuella andelar inom varje grupp (kön i detta fall): Figur 3.1.6 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Procentuell andel 100 Percent Sum of Ant 90 80 70 60 50 40 30 Pos Neg Obest Pos Obest Neg 20 10 0 0 1 Kon Man ser omedelbart från de två fördelningarna, att kvinnorna har en klart mer positiv inställning än männen till tidningens trovärdighet. 7 Det sista diagrammet kan rent formellt också konstrueras genom att låta trovärdighetsklasserna utgöra ”x-axel”: 100 Percent Sum of Ant 90 80 70 Män 60 Kvinnor MänKvinnor 50 40 30 Män Kvinnor 20 10 0 1 2 3 Trov Om vi tittar på grupp 1 så är männens stapel dubbelt så hög som kvinnornas, dvs männen är två gånger så negativa som kvinnorna??! Detta är dock fel sätt att tolka det hela, utan det vi kan säga är, att av de negativa så utgör männen två tredjedelar. Eftersom männen är något fler i studien, så är detta en del av förklaringen till männens höga andel. Vi såg ju ovan att av männen är 38.1 % negativa, medan motsvarande andel bland kvinnorna är 21.4 %. Andelen negativa män är alltså inte dubbelt så stor som andelen negativa kvinnor, utan ”bara” 78 % större (38.1/21.4 = 1.78). Vi drar lärdomen, att de grupper man vill jämföra bör utgöra diagrammets indelningsgrund (”x-axel”), så att man inte riskerar att av misstag dra felaktiga slutsatser. ¤ Data i form av enskilda numeriska värden (från kvantitativa variabler) De kvantitativa variablerna kan klassificeras i diskreta resp. kontinuerliga variabler. En diskret variabel kan bara anta vissa diskreta värden, och i stället för att ange alla enskilda värden, så presenteras sådana data i form av frekvenstabeller, precis som i avsnitt 3.1. En kontinuerlig variabel antar alla värden i ett intervall, vilket innebär att ett observationsmaterial innehåller värden som i stort sett alla är olika. Sådana data kan inte direkt presenteras i tabeller och diagram, utan måste först indelas i klasser. 8 Exempel 3.2.1 (Diskret variabel) Vi studerar under ett år antal trafikolyckor per dag som inträffar i en tätort. De n = 365 observationerna är 0, 0, 2, 0, 1, 4, ….,2, 0, 0. Data kan sammanfattas i följande frekvenstabell: Tabell 3.2.1 Antal och procentuell andel trafikolyckor per dag Antal olyckor (x) Antal dagar, frekvens (f) 102 125 80 32 20 4 0 2 0 n = 365 0 1 2 3 4 5 6 7 8 Summa Procentuell relativ frekvens 27.9 34.2 21.9 8.8 5.5 1.1 0 0.5 0 99.9 Denna fördelning illustreras lämpligen med ett s.k. stolpdiagram (stapeldiagram för diskret variabel), där man på y-axeln har frekvenserna eller relativa frekvenserna för varje x-värde: Figur 3.2.1 Fördelning över antal trafikolyckor per dag f 100 50 0 0 1 2 3 4 5 6 7 x ¤ 9 Exempel 3.2.2 (Kontinuerlig variabel) En förening med 500 medlemmar har följande åldersfördelning Tabell 3.2.2 Föreningens åldersfördelning Ålder -19 20-29 30-39 40-49 50-59 60-69 70Alla Frekvens 20 80 120 150 80 40 10 500 Relativ frekvens i % 4 16 24 30 16 8 2 100 Fördelningen för en kontinuerlig variabel brukar illustreras med ett histogram. På x-axeln markeras klassgränserna och ovanför varje klass avsätts en rektangelarea som är proportionell mot frekvensen (eller relativa frekvensen). Om klasserna är lika breda (vilket de helst bör vara), så är rektangelns höjd proportionell mot frekvensen. För att konstruera histogram i Minitab måste man ha alla enskilda data inlagda. Här hade vi inte data på den formen och därför får vi lov att själva rita ett histogram. Detta görs förmodligen enklast för hand. Pröva! (Observera att en person som fyllt 29 år men ännu inte 30 anges med åldern 29). ¤ 4. Sammanfattande mått på datamaterial I föregående kapitel har vi studerat olika sätt att illustrera hela fördelningen hos ett datamaterial. Ofta vill man sammanfatta denna information i några enkla mått som är smidigare att hantera. Främst gäller detta om man har data på en kvantitativ variabel. De typer av mått som man vanligen använder är dels mått på observationernas genomsnitt och dels mått på observationernas spridning kring genomsnittet. Genomsnittsmått (lägesmått, centralmått) Det i särklass vanligaste genomsnittsmåttet är (aritmetiska) medelvärdet, men man ser att även medianen används i praktiken. Typvärdet fungerar främst för kvalitativa data och för klassindelade kvantitativa. Typvärdet är det vanligaste värdet, dvs det x-värde som har den största frekvensen. Medianen (md) är det i storleksordning mittersta värdet (om antalet observationer är jämnt, så definieras medianen som medelvärdet av de två mittersta värdena). Medianen delar alltså datamaterialet mitt itu. 10 Medelvärdet ( x ) för ett datamaterial med n observationer betecknade x1, x2 ,...xn definieras som n x x2 ... x n sum( xi ) x 1 n n x i 1 i n Exempel 4.1.1 (se exempel 3.2.1) Den första veckan är det observerade antalet olyckor 0, 0, 2, 0, 1, 4, 2. (med beteckningarna ovan är t.ex. x1 = 0 och x7 = 2). Vi ser att typvärdet är 0, medan medianen är md = 1. Medelvärdet av antalet olyckor är 0 0 2 0 1 4 2 9 x 1.3 7 7 Säg nu att sista dagen var en extrem halkdag och det blev inte alls 2 olyckor utan i stället 12! Fortfarande är typvärdet 0 och medianen 1. Medelvärdet blir 19 x 2.7 7 dvs väsentligt mycket större än ovan. Detta är en generell lärdom: Medelvärden är känsliga för extremvärden, medan medianvärden inte påverkas i nämnvärd grad. Medianen kan därför vara ett lämpligare genomsnittsmått än medelvärdet i vissa sammanhang. T.ex. används vanligen medianlön i stället för genomsnittslön i samband med löneförhandlingar mellan företag och fack. ¤ Exempel 4.1.2 Vi tar nu och studerar alla olycksdata i exempel 3.2.1. Typvärdet är 1 olycka per dag. Antalet dagar är 365, varför värde nr 183 (i storleksordning) är median. Vi har 102 st. 0:or och 125 st. 1:or, dvs värde nr 103 upp till och med nr 227 är alla lika med 1, vilket innebär att md = 1. Medelvärdet är 365 x x 102 0 125 1 80 2 32 3 20 4 4 5 0 6 2 7 365 365 495 1.36 365 i 1 i Med formelspråk kan medelvärdet för diskreta data skrivas f i xi x n ¤ 11 Vi skall nu studera en litet besvärligare men i praktiken vanlig situation, när man har medelvärdena beräknade för ett antal grupper och vill beräkna medelvärdet för totala antalet observationer. Antag för enkelhetens skull att vi har två grupper med antalet observationer n1 xi xi grupp1 grupp 2 resp. n2. Antag vidare att medelvärdena är x1 resp. x 2 n1 n2 Det totala medelvärdet kan nu skrivas som 1xi grupp 2xi n x n x n xi grupp n 2 2 x 1 1 1 x1 2 x 2 n n n n n dvs det totala medelvärdet är ett vägt medelvärde av gruppmedelvärdena och vikterna är gruppernas relativa frekvenser. Exempel 4.1.3 Ett företag är bekymrat över sjukfrånvarons utveckling och följer därför upp frånvaron det senaste året. I tabellen nedan ges medelvärdet av antalet frånvarodagar uppdelat på företagets två avdelningar och på kön. Tabell 4.1.1 Medelantal frånvarodagar per år (antal personer inom parentes) Avd. 1 Avd. 2 Totalt Kvinnor 5.8 (150) 8.5 (100) ? (250) Män 6.0 (50) 9.1 (700) ? (750) Vi börjar med att beräkna medelfrånvaron för kvinnor resp. män. För kvinnor 100 blir den 150 250 5.8 250 8.5 3.48 3.40 6.88 6.9 , medan motsvarande beräkning för män ger medelvärdet 8.89 = 8.9. Männen har alltså i snitt 2 frånvarodagar fler än kvinnorna. Hajar du inte till?? Vi ser att på de två avdelningarna har männen något högre sjukfrånvaro i snitt , men inte alls så mycket som 2 dagar. Då har vi väl räknat fel!? Nej, faktiskt inte. Skälet till den stora skillnaden är att männen huvudsakligen finns på avdelning 2, och den avdelningen har i stort sett 3 sjukdagar flera än avdelning 1 (avdelningarnas medelvärden kan med vägda medelvärden beräknas till 5.9 resp. 9.0). Om man vill se skillnaden i frånvaro beroende på kön (oavsett avdelning), måste medelvärdena vägas ihop med en gemensam fördelning för könen. Det vanligaste sättet att göra detta är med s.k. standardvägning, där man som gemensam fördelning använder marginalfrekvenserna, dvs i detta fall 200 på avdelning 1 och 800 på avdelning 2. Det standardvägda medelvärdet för kvinnor blir då 0.2 5.8 0.8 8.5 8.0 , medan männens medelvärde blir 8.5. 12 Männen har alltså i genomsnitt ”bara” en halv dag mera sjukfrånvaro än kvinnorna. Det är helt korrekt att säga att männen på företaget har i genomsnitt 2 frånvarodagar fler än kvinnorna. Här räknas både med ev. skillnader beroende på kön, men också skillnader beroende på vilka arbetsuppgifter man har. Är man ute efter att enbart spegla skillnaden mellan könen, måste man göra en standardiserad jämförelse, dvs ta bort ev. skillnader i arbetsuppgifter. Ett enkelt sätt att göra detta är att jämföra standardvägda medelvärden. ¤ Spridningsmått Det är viktigt att som sammanfattande mått på ett datamaterial inte bara beräkna ett genomsnitt utan att också ge ett mått på spridningen i data. Så t.ex. är medelvärdet 0 för siffrorna -1, 0 och 1, men samma medelvärde har vi också för -10, 0 och 10. Dock har det senare datamaterialet betydligt mycket större spridning än det första. Det absolut vanligaste spridningsmåttet är datamaterialets standardavvikelse. Ibland används också kvartilavstånd och variationsbredd som enkla mått på spridning. Variationsbredden är differensen mellan största och minsta värdet i datamaterialet. Kvartilavståndet är differensen mellan den tredje och första kvartilen. Första, andra och tredje kvartilen delar upp det storleksordnade datamaterialet i 4 lika stora delar, så att i varje del finns en fjärdedel av totala antalet observationer. Andra kvartilen kallas vanligen för median som vi tidigare har nämnt. Standardavvikelsen definieras som s (x i x)2 n 1 Kvadreras uttrycket erhålls variansen ( xi x ) 2 2 s n 1 som i stort sett är medelvärdet av observationernas kvadratiska avvikelser från sitt genomsnitt. Genom en algebraisk omskrivning kan formeln för variansen skrivas som ( x )2 2 xi n i 2 s n 1 och denna formel är ofta enklare för numeriska beräkningar. 13 Exempel 4.2.1 Betrakta följande datamaterial där observationerna skrivits i storleksordning: 0, 0, 3, 3, 4, 6, 7, 8, 8, 9, 11, 13 Variationsbredden är 13 – 0 = 13 Datamaterialet indelas i följande fyra grupper 0, 0, 3 3, 4, 6 7, 8, 8 9, 11, 13 De tre kvartilerna blir därför rimligen 3, 6.5 och 8.5, varför kvartilavståndet är 8.5 – 3 = 5.5 72 Medelvärdet av de 12 observationerna är x 12 6 , varför variansen är 0 0 9 9 16 36 49 64 64 81 121 169 7212 s 11 618 5184 618 432 186 12 16.91 11 11 11 Standardavvikelsen är då 2 2 s 186 11 4.1 Slutligen bör vi nämna att det finns ett antal olika sätt att beskriva datamaterial för att illustrera materialets genomsnitt och spridning. I lådagram (eng. boxplot) begränsas lådan av första och tredje kvartilen och dessutom ritas medianen in. Vidare går ”vingarna” ut till min.- och max.-värdena. Nedan finns ett lådagram för vårt enkla exempel: Figur 4.2.1 Exempel på lådagram C1 10 5 0 ¤ Anm.: I ett datamaterial för en diskret varaiabel förekommer varje värde med en viss frekvens, och då kan formeln för variansen skrivas ( f x )2 2 f i ( xi x ) 2 f i xi ni i 2 s n 1 n 1 14 5. Övningsuppgifter 5.1 I en partisympatiundersökning intervjuades 800 personer och man fick följande sympatifördelning (antal som sympatiserar med): (s) 236, (v) 62, (mp) 39, (m) 201, (fp) 42, (c) 41, (kd) 30. Utan ställningstagande 149 a) Sätt upp en frekvenstabell över datamaterialet och rita ett stapeldiagram. b) Illustrera datamaterialet med ett cirkeldiagram. (Tänk igenom hur du vill behandla de osäkra) (Vilken typ av data har vi i detta fall?) 5,2 På en tenta på tekniska fakulteten deltar 86 studenter varav 24 är kvinnor. På tentan kan man få betygen U, 3, 4 och 5. I tabellen nedan redovisas resultatet U 3 4 5 Kvinnor 4 11 7 2 Män 15 27 13 7 Man vill jämföra tentaresultaten för kvinnor och män. Konstruera ett lämpligt stapeldiagram för jämförelsen och kommentera vad du ser. (Vilken typ av data har vi i detta fall?) 5,3 På tentan ovan kan man maximalt erhålla 24 poäng. I tabellen nedan redovisas resultaten för olika poängintervall: Intervall 0-4 5-9 10-14 15-19 20-24 Antal 3 16 38 20 7 Illustrera datamaterialet med ett lämpligt histogram (Vilken typ av data har vi i detta fall?) 5,4 Vid en avdelning för kvalitetskontroll gör man stickprov på de artiklar som produceras. Artiklarna paketeras i lådor om 100 st. och vid kontrollen plockas lådorna ut slumpvis och alla artiklarna i en utvald låda kontrolleras. Man noterar antalet defekta artiklar och för 50 kontrollerade lådor erhålls Antal defekta 0 1 2 3 6 Antal lådor 36 8 3 2 1 a) b) c) d) Illustrera datamaterialet med ett stolpdiagram Beräkna medelvärdet för antalet defekta artiklar i en låda Beräkna medianen för antalet defekta artiklar i en låda Vilket är typvärdet för antalet defekta artiklar i en låda 5,5 I en idrottsförening hör 60 % av medlemmarna till sektion 1 och resten till sektion 2. I tabellen nedan redovisas medelåldern uppdelad på sektion och på kön. I tabellen anges inte antalet män och kvinnor inom varje sektion, utan i stället den procentuella fördelningen. 15 Kvinnor Män Sektion 1 Andel (%) 30 70 Medelålder 22.4 24.1 Sektion 2 Andel (%) 60 40 Medelålder 26.3 28.0 a) Beräkna medelåldern i sektion 1 resp. i sektion 2 b) Beräkna medelåldern i hela föreningen c) Beräkna medelåldern för föreningens kvinnor 5,6 Vi fortsätter på uppgift 5.5. a) Beräkna skillnaden i medelålder mellan sektion 2 och sektion 1 b) Hur stämmer resultatet i a) med de åldersskillnader man ser mellan sektionerna för män resp. kvinnor? Varför får man olika resultat? c) Vi vill ha åldersskillnaden mellan de två sektionerna när man standardiserar könsfördelningen. Beräkna de standardiserade medelvärdena för de två sektionerna och notera att man får den förväntade skillnaden i medelålder. 5,7 I en telefonväxel noterar man antalet inkommande samtal under varje arbetsdag. Under en arbetsvecka har man erhållit följande data: 255, 267, 253, 256, 234 Beräkna medelvärde och standardavvikelse för antalet inkommande samtal per dag. 5,8 Se uppgift 5.4. Beräkna standardavvikelsen för antalet defekta artiklar i en låda. 5,9 I en hushållsundersökning studerade man bl.a. hushållens bilinnehav. Hushåll som inte hade bil noterades med värdet 0, medan hushåll med minst en bil fick värdet 1. I studien deltog 1256 hushåll och följande resultat erhölls: Tillgång till bil (x) 0 1 Frekvens (f) 164 1092 a) Beräkna medelvärdet för x. Tolka värdet b) Beräkna variansen för x. n x (1 x ) c) Beräkna och notera att det blir samma resultat som i b) n 1 n x (1 x ) d) Försök visa matematiskt att s 2 när man har observationer n 1 som bara består av 0:or och 1:or. Svar till övningsuppgifter 5.1 a) Frekvenstabell Row Parti 1 2 s v Antal 236 62 16 3 4 5 6 7 8 mp m fp c kd osäkra 39 201 42 41 30 149 Stapeldiagram Sum of Antal 200 100 0 c fp kd m mp osäkra s v Parti b) Cirkeldiagram Pie Chart of Parti m (201; 25,1%) kd mp ( 39; 4,9%) ( 30; 3,8%) fp osäkra (149; 18,6%) s ( 42; 5,3%) c ( 41; 5,1%) v ( 62; 7,8%) (236; 29,5%) Data är kvalitativa/kategoriska 5.2 Här är data på ordinalskala och i form av frekvenser. Jämförande stapeldiagram för betygen uppdelade på kön (procentuell fördelning): 17 Percent Sum of Antal 100 3 50 3 4 U 4 U 5 5 0 k m Kön 5.3 Intervallgränserna sätts lämpligen vid 4.5, 9.5, 14.5 och 19.5. För att få lika breda klasser sätts också första gränsen vid -0.5 och sista vid 24.5 (praktiskt lite konstigt!). Rita sedan sammanhängande staplar med höjden proportionell mot frekvensen. (Här har vi kvantitativa, klassindelade data) 5.4 a) Stolpdiagrammet 40 Frekvens 30 20 10 0 0 1 2 3 4 5 6 Defekta b) 0.52 c) 0 d) 0 5.5 a) 23.59 resp. 26.98 b) 24.95 c) 24.63 5.6 a) 3.39 b) Skillnad 3.9 för K resp. M. P.g.a. olika könsfördelning i sektionerna erhålls inte denna åldersskillnad totalt, då könen har olika åldrar. c) Standardiserad könsfördelning: 42 % kvinnor och 58 % män. Medlålder för sektionerna blir då 23.386 resp. 27.286, dvs skillnad 3.9 förstås. 5.7 Medelvärde 253, standardavvikelse 11.94 5.8 1.11 5.9 a) 0.87 b) 0.1136 18