Något om beskrivande statistik
1. Inledning
I många sammanhang krävs verkliga fakta som underlag för att komma till
rimliga slutsatser och/eller fatta vettiga beslut. T.ex. kan det på ett företag ha
uppstått diskussioner om att det förekommer könsdiskriminering, som bl.a. yttrar
sig i att kvinnor har lägre löner än män. Det kan då vara rimligt att för ett urval av
kvinnor resp. män ta reda på fakta. Fakta avser då inte bara deras löner, utan
också potentiellt viktiga faktorer som ålder, utbildning, antal anställningsår etc.
Om det fortfarande finns löneskillnader mellan kvinnor och män, fast man tar
hänsyn till en mängd bakgrundsfaktorer, så står man på betydligt fastare mark när
man hävdar att det finns osakliga löneskillnader på företaget.
Den situation vi beskrivit ovan är typisk för en statistisk undersökning. Man
behöver få ett objektivt faktaunderlag och samlar därför på sig en mängd data.
Dessa data kan erhållas genom en observationsundersökning som i exemplet
ovan, men även experimentella undersökningar är vanliga. T.ex. vill en butik
studera hur olika exponering av en vara påverkar varans försäljning. Man
bestämmer sig för att testa tre olika typer av exponering och genomför dessa
under var sina tremånadersperioder. Sedan kan man jämföra försäljningssiffror
(tillsammans med annan viktig information) för att komma fram till en väl
underbyggd slutsats.
Syftet med en statistisk undersökning är många gånger rent beskrivande, dvs man
vill ”se verkligheten som den är”. Men ofta har man också ett analytiskt syfte,
som att göra en sambandsanalys eller pröva en uttalad hypotes ( i löneexemplet
vill man studera sambandet mellan lön och kön och testa om skillnaden är
”statistiskt signifikant”). Även om syftet för en undersökning är analytiskt, har
den ofta stora inslag av beskrivande moment.
Slutsatser från en analytisk undersökning dras alltid till någon population. Ofta är
populationen ändlig och lätt att förstå (som t.ex. de anställda vid ett företag). Lika
vanligt är det med en s.k. oändlig population, som är ett betydligt mera vagt
begrepp och ofta används då man har oberoende mätningar vid t.ex. ett
experiment. Man vill då studera en mera allmän företeelse, som t.ex. hållfastheten
hos en stållegering, effekten av en reklamkampanj på försäljningen av en vara,
sambandet mellan försäljningen av en vara och dess pris etc.
1
2. Olika typer av data
Vad är nu data?
En definition kan vara att data är mått på variabler, som kan vara rimliga att
studera med hänsyn till undersökningsproblemet. I löneexemplet kan vi bl.a. se
följande variabler och mått:
Lön – rimligt mått är månadslön i kronor
Ålder – kan vara faktisk ålder i antal år (kanske även månader) men även en
klassindelning i t.ex. femårsklasser
Kön – kan betecknas som K resp. M, men vanligare är t.ex. 1 resp. 0 (fortfarande
bara en beteckning fast det är siffror).
Uppenbarligen finns det två typer av variabler, nämligen de som kallas kvalitativa
resp. kvantitativa.
En kvalitativ variabel är en variabel som definierar olika kategorier som t.ex. kön,
yrke, födelseland etc. Variabeln har inget naturligt siffermått men siffror används
ofta som beteckning.
En kvantitativ variabel har som naturligt mått siffror och siffrorna har sin
självklara betydelse. Som exempel kan nämnas antal barn i en familj, ålder och
inkomst. Däremot är det inte alltid självklart hur variabeln skall mätas utan man
kan använda olika sorters skalor. T.ex. kan ålder mätas i antal år eller i olika
ålderskategorier.
Man brukar prata om fyra olika skalor på vilka variabler kan mätas.
Nominalskala (klasstillhörighet) är den enda skalan för kvalitativa variabler.
Ordinalskala är den grövsta skalan för kvantitativa variabler, då man enbart tar
hänsyn till storleksordningen mellan olika värden. Ett exempel är åldersklasserna
1 (under 20), 2 (mellan 20 och 40) samt 3 (över 40). En individ i klass 1 är då
yngre än en i klass 2 etc.
Intervall- och kvotskala är de ”exakta” skalorna för kvantitativa variabler. Ur
statistisk synvinkel behandlas data mätta på dessa skalor på ett likvärdigt sätt. Det
som skiljer variablerna är att vissa variabler inte har någon given nollpunkt (som
t.ex. temperatur). De mäts då på intervallskala där det är meningsfullt att tala om
differenser (Vettigt uttalande: I dag är det 12 grader, dvs 2 grader varmare än i går
då det var 10 grader. Däremot fungerar det inte med: I dag är det 20 % varmare än
i går). En variabel på kvotskala har en väldefinierad nollpunkt och det är
meningsfullt att bilda kvoter och uttrycka relativa mått (Lisa och Karin är 2 resp.
4 år gamla. Alltså är Karin 2 år äldre än Lisa. Men det är också korrekt att säga att
Karin är dubbelt så gammal som Lisa).
Det blev litet långrandigt detta med skalor och vi skall inte fördjupa oss mer, utan
konstatera att skalorna leder till två typer av data.
Kvalitativa variabler och kvantitativa variabler på ordinalskala ger båda
frekvensdata, dvs för varje klass får man antalet individer (frekvensen) som ingår
i klassen.
Kvantitativa variabler på intervall- eller kvotskala ger data i form av enskilda
numeriska värden.
2
3. Tabeller och diagram
I media, kursböcker och annat matas vi dagligen med information i form av
tabeller och diagram. Informationen ser vederhäftig ut och det är lätt att ta till sig
den helt okritiskt, inte minst för att många tycker att det bara är ”tråkiga siffror”,
som man inte orkar penetrera närmare.
Men här riskerar man att gå på ordentliga nitar!
Statistiska uppgifter kan presenteras på många olika sätt, och man måste förstå
hur den aktuella tabellen eller diagrammet är konstruerat, för att rätt tolka
informationen. Vanligen är informationen formellt sett korrekt, men kan
framställas på sådant sätt, att det är lätt att feltolka den om man inte granskar den
kritiskt.
Särskilt tydligt blir detta vid politiska debatter, då det är vanligt att representanter
för olika partier visar diagram över någon företeelse. Trots att man illustrerar
samma företeelse ger diagrammen helt olika intryck (kanske för att man använder
olika skalor, delvis olika tidsperioder etc).
Frekvensdata
Vi studerar nu en variabel som är indelad i olika klasser, och vill med hjälp av
tabeller och diagram illustrera hur data fördelar sig över de olika klasserna.
Vidare behandlar vi två klassindelade variabler tillsammans och gör
motsvarande illustrationer.
Exempel 3.1. I en mediaundersökning riktad till allmänheten vill man ta reda
på svenska folkets inställning till olika tidningar. För varje tidning får de
svarande uttrycka sin åsikt på en femgradig skala. Frågorna och
svarsalternativen är av följande typ.
”Tidningen XX är trovärdig”
Instämmer:
O inte alls
O
O
O
O helt
Förutom svaren på dessa frågor har man också frågat om den svarandes kön.
800 personer har besvarat enkäten och vi vill redovisa svarsfördelningarna
över kön, över trovärdighet men även över kombinationen av kön och
trovärdighet. Det senare gör vi för att se om kvinnor och män uppfattar
trovärdigheten på olika sätt.
Kön
Tabell 3.1.1 Svarsfördelning efter kön
Kön
Kvinnor
Män
Totalt
Antal
380
420
800
Andel i procent
47.5
52.5
100
Denna fördelning kan illustreras i ett stapeldiagram, som har konstruerats
direkt från Minitab:
3
Figur 3.1.1 Stapeldiagram över könsfördelning
Sum of Antal
420
Män
410
400
390
Kvinnor
380
0
1
Kön
Figurtexten är inte den snyggaste, men detta bortser vi från nu. Det vi kan
konstatera är att diagrammet i och för sig är korrekt, men ger ett intryck av att
kvinnorna är väldigt få i förhållande till männen. Detta beror på Y-axelns
skala, som inte alls börjar i 0. Det är lätt att styra om detta i Minitab och vi
erhåller då i stället följande:
Figur 3.1.2 Stapeldiagram över könsfördelning
Män
Sum of Antal
400
Kvinnor
300
200
100
0
0
1
Kön
Nu får vi ett helt annat och mera korrekt intryck av stapeldiagrammet, eller
hur?
Vi kan dra lärdomen, att man bör undvika ”stympade” skalor, eftersom det
omedelbara synintrycket av diagrammet lätt blir vilseledande.
Ett vanligt sätt att illustrera fördelningar är med cirkeldiagram, där
cirkelsektorernas areor är proportionella mot frekvenserna:
4
Figur 3.1.3 Cirkeldiagram över könsfördelning
Pie Chart of Kön
0 (420; 52,5%)
1 (380; 47,5%)
¤
Trovärdigheten
Vad gäller trovärdigheten har följande resultat erhållits:
Tabell 3.1.2 Fördelning efter trovärdighet
Trovärdighet
1
2
3
4
5
Totalt
Antal
120
120
240
160
160
800
Procentuell andel
15
15
30
20
20
100
Figur 3.1.4 Stapeldiagram över trovärdighetsfördelningen
250
Sum of ant
200
150
100
50
0
1
2
3
4
5
Trov
5
Figur 3.1.5 Cirkeldiagram över trovärdighetsfördelningen
Pie Chart of Trov
2 (120; 15,0%)
1 (120; 15,0%)
3 (240; 30,0%)
5 (160; 20,0%)
4 (160; 20,0%)
Kombinationen kön och trovärdighet
Här behöver vi ta fram en korstabell, dvs en frekvenstabell där båda
variablerna redovisas tillsammans. Raderna i tabellen kan vara kön, medan
kolumnerna är trovärdigheten. För att förenkla redovisningen så ges
trovärdigheten bara i 3 klasser; negativa (ursprunglig kod 1 och 2),
obestämda (kod 3) och positiva (kod 4 och 5):
Tabell 3.1.3 Fördelning efter trovärdighet för män och kvinnor. Antal
Kön
Kvinnor
Män
Totalt
Trovärdighet
Neg
Obest
80
120
160
120
240
240
Pos
180
140
320
Totalt
380
420
800
Vi kan konstatera att i marginalerna har vi de fördelningar som tidigare
redovisats (trovärdighetsfördelningen var dock då mera finfördelad).
Vi kan också konstatera att männen är betydligt mer negativa än
kvinnorna (160/420 = 38.1 % jämfört med 80/380 = 21.4 %). För att
illustrera detta tar vi fram ett stapeldiagram uppdelat på kön:
6
Figur 3.1.6 Stapeldiagram över trovärdighetsfördelningen uppdelat på
män och kvinnor. Antal
200
Pos
Neg
Sum of Ant
Pos
Obest
Obest
100
Neg
0
0
1
Kon
Eftersom antalet män och kvinnor är olika, kan det vara litet besvärligt att
direkt se skillnaden i fördelning, när den som här ges i antal. Det blir
enklare om man i stället går över till procentuella andelar inom varje
grupp (kön i detta fall):
Figur 3.1.6 Stapeldiagram över trovärdighetsfördelningen uppdelat på
män och kvinnor. Procentuell andel
100
Percent Sum of Ant
90
80
70
60
50
40
30
Pos
Neg
Obest
Pos
Obest
Neg
20
10
0
0
1
Kon
Man ser omedelbart från de två fördelningarna, att kvinnorna har en klart
mer positiv inställning än männen till tidningens trovärdighet.
7
Det sista diagrammet kan rent formellt också konstrueras genom att låta
trovärdighetsklasserna utgöra ”x-axel”:
100
Percent Sum of Ant
90
80
70
Män
60
Kvinnor
MänKvinnor
50
40
30
Män
Kvinnor
20
10
0
1
2
3
Trov
Om vi tittar på grupp 1 så är männens stapel dubbelt så hög som
kvinnornas, dvs männen är två gånger så negativa som kvinnorna??! Detta
är dock fel sätt att tolka det hela, utan det vi kan säga är, att av de negativa
så utgör männen två tredjedelar. Eftersom männen är något fler i studien,
så är detta en del av förklaringen till männens höga andel.
Vi såg ju ovan att av männen är 38.1 % negativa, medan motsvarande
andel bland kvinnorna är 21.4 %. Andelen negativa män är alltså inte
dubbelt så stor som andelen negativa kvinnor, utan ”bara” 78 % större
(38.1/21.4 = 1.78).
Vi drar lärdomen, att de grupper man vill jämföra bör utgöra
diagrammets indelningsgrund (”x-axel”), så att man inte riskerar att av
misstag dra felaktiga slutsatser.
¤
Data i form av enskilda numeriska värden (från kvantitativa variabler)
De kvantitativa variablerna kan klassificeras i diskreta resp. kontinuerliga
variabler.
En diskret variabel kan bara anta vissa diskreta värden, och i stället för att
ange alla enskilda värden, så presenteras sådana data i form av
frekvenstabeller, precis som i avsnitt 3.1.
En kontinuerlig variabel antar alla värden i ett intervall, vilket innebär att ett
observationsmaterial innehåller värden som i stort sett alla är olika. Sådana
data kan inte direkt presenteras i tabeller och diagram, utan måste först indelas
i klasser.
8
Exempel 3.2.1 (Diskret variabel)
Vi studerar under ett år antal trafikolyckor per dag som inträffar i en tätort. De
n = 365 observationerna är 0, 0, 2, 0, 1, 4, ….,2, 0, 0. Data kan sammanfattas i
följande frekvenstabell:
Tabell 3.2.1 Antal och procentuell andel trafikolyckor per dag
Antal olyckor (x)
Antal dagar,
frekvens (f)
102
125
80
32
20
4
0
2
0
n = 365
0
1
2
3
4
5
6
7
8
Summa
Procentuell relativ
frekvens
27.9
34.2
21.9
8.8
5.5
1.1
0
0.5
0
99.9
Denna fördelning illustreras lämpligen med ett s.k. stolpdiagram
(stapeldiagram för diskret variabel), där man på y-axeln har frekvenserna eller
relativa frekvenserna för varje x-värde:
Figur 3.2.1 Fördelning över antal trafikolyckor per dag
f
100
50
0
0
1
2
3
4
5
6
7
x
¤
9
Exempel 3.2.2 (Kontinuerlig variabel)
En förening med 500 medlemmar har följande åldersfördelning
Tabell 3.2.2 Föreningens åldersfördelning
Ålder
-19
20-29
30-39
40-49
50-59
60-69
70Alla
Frekvens
20
80
120
150
80
40
10
500
Relativ frekvens i %
4
16
24
30
16
8
2
100
Fördelningen för en kontinuerlig variabel brukar illustreras med ett histogram.
På x-axeln markeras klassgränserna och ovanför varje klass avsätts en
rektangelarea som är proportionell mot frekvensen (eller relativa frekvensen).
Om klasserna är lika breda (vilket de helst bör vara), så är rektangelns höjd
proportionell mot frekvensen.
För att konstruera histogram i Minitab måste man ha alla enskilda data
inlagda. Här hade vi inte data på den formen och därför får vi lov att själva
rita ett histogram. Detta görs förmodligen enklast för hand. Pröva! (Observera
att en person som fyllt 29 år men ännu inte 30 anges med åldern 29).
¤
4. Sammanfattande mått på datamaterial
I föregående kapitel har vi studerat olika sätt att illustrera hela fördelningen hos
ett datamaterial. Ofta vill man sammanfatta denna information i några enkla mått
som är smidigare att hantera. Främst gäller detta om man har data på en
kvantitativ variabel. De typer av mått som man vanligen använder är dels mått på
observationernas genomsnitt och dels mått på observationernas spridning kring
genomsnittet.
Genomsnittsmått (lägesmått, centralmått)
Det i särklass vanligaste genomsnittsmåttet är (aritmetiska) medelvärdet, men
man ser att även medianen används i praktiken. Typvärdet fungerar främst för
kvalitativa data och för klassindelade kvantitativa.
Typvärdet är det vanligaste värdet, dvs det x-värde som har den största
frekvensen.
Medianen (md) är det i storleksordning mittersta värdet (om antalet
observationer är jämnt, så definieras medianen som medelvärdet av de två
mittersta värdena). Medianen delar alltså datamaterialet mitt itu.
10
Medelvärdet ( x ) för ett datamaterial med n observationer betecknade
x1, x2 ,...xn definieras som
n
x  x2  ...  x n sum( xi )
x 1


n
n
x
i 1
i
n
Exempel 4.1.1 (se exempel 3.2.1)
Den första veckan är det observerade antalet olyckor 0, 0, 2, 0, 1, 4, 2. (med
beteckningarna ovan är t.ex. x1 = 0 och x7 = 2). Vi ser att typvärdet är 0, medan
medianen är md = 1. Medelvärdet av antalet olyckor är
0  0  2  0 1 4  2 9
x
  1.3
7
7
Säg nu att sista dagen var en extrem halkdag och det blev inte alls 2 olyckor
utan i stället 12! Fortfarande är typvärdet 0 och medianen 1. Medelvärdet blir
19
x
 2.7
7
dvs väsentligt mycket större än ovan.
Detta är en generell lärdom: Medelvärden är känsliga för extremvärden,
medan medianvärden inte påverkas i nämnvärd grad.
Medianen kan därför vara ett lämpligare genomsnittsmått än medelvärdet i
vissa sammanhang. T.ex. används vanligen medianlön i stället för
genomsnittslön i samband med löneförhandlingar mellan företag och fack.
¤
Exempel 4.1.2
Vi tar nu och studerar alla olycksdata i exempel 3.2.1.
Typvärdet är 1 olycka per dag.
Antalet dagar är 365, varför värde nr 183 (i storleksordning) är median. Vi har
102 st. 0:or och 125 st. 1:or, dvs värde nr 103 upp till och med nr 227 är alla
lika med 1, vilket innebär att md = 1.
Medelvärdet är
365
x
x
102  0  125  1  80  2  32  3  20  4  4  5  0  6  2  7

365
365
495

 1.36
365
i 1
i

Med formelspråk kan medelvärdet för diskreta data skrivas
 f i  xi
x
n
¤
11
Vi skall nu studera en litet besvärligare men i praktiken vanlig situation, när
man har medelvärdena beräknade för ett antal grupper och vill beräkna
medelvärdet för totala antalet observationer.
Antag för enkelhetens skull att vi har två grupper med antalet observationer n1
 xi
 xi
grupp1
grupp 2
resp. n2. Antag vidare att medelvärdena är x1 
resp. x 2 
n1
n2
Det totala medelvärdet kan nu skrivas som
 1xi  grupp
 2xi n  x  n  x n
xi grupp
n

2
2
x

 1 1
 1  x1  2  x 2
n
n
n
n
n
dvs det totala medelvärdet är ett vägt medelvärde av gruppmedelvärdena och
vikterna är gruppernas relativa frekvenser.
Exempel 4.1.3
Ett företag är bekymrat över sjukfrånvarons utveckling och följer därför upp
frånvaron det senaste året. I tabellen nedan ges medelvärdet av antalet
frånvarodagar uppdelat på företagets två avdelningar och på kön.
Tabell 4.1.1 Medelantal frånvarodagar per år (antal personer inom parentes)
Avd. 1
Avd. 2
Totalt
Kvinnor
5.8 (150)
8.5 (100)
? (250)
Män
6.0 (50)
9.1 (700)
? (750)
Vi börjar med att beräkna medelfrånvaron för kvinnor resp. män. För kvinnor
100
blir den 150
250  5.8  250  8.5  3.48  3.40  6.88  6.9 , medan motsvarande
beräkning för män ger medelvärdet 8.89 = 8.9. Männen har alltså i snitt 2
frånvarodagar fler än kvinnorna.
Hajar du inte till?? Vi ser att på de två avdelningarna har männen något högre
sjukfrånvaro i snitt , men inte alls så mycket som 2 dagar. Då har vi väl räknat
fel!?
Nej, faktiskt inte. Skälet till den stora skillnaden är att männen huvudsakligen
finns på avdelning 2, och den avdelningen har i stort sett 3 sjukdagar flera än
avdelning 1 (avdelningarnas medelvärden kan med vägda medelvärden
beräknas till 5.9 resp. 9.0).
Om man vill se skillnaden i frånvaro beroende på kön (oavsett avdelning),
måste medelvärdena vägas ihop med en gemensam fördelning för könen. Det
vanligaste sättet att göra detta är med s.k. standardvägning, där man som
gemensam fördelning använder marginalfrekvenserna, dvs i detta fall 200 på
avdelning 1 och 800 på avdelning 2. Det standardvägda medelvärdet för
kvinnor blir då 0.2  5.8  0.8  8.5  8.0 , medan männens medelvärde blir 8.5.
12
Männen har alltså i genomsnitt ”bara” en halv dag mera sjukfrånvaro än
kvinnorna.
Det är helt korrekt att säga att männen på företaget har i genomsnitt 2
frånvarodagar fler än kvinnorna. Här räknas både med ev. skillnader
beroende på kön, men också skillnader beroende på vilka arbetsuppgifter man
har.
Är man ute efter att enbart spegla skillnaden mellan könen, måste man göra
en standardiserad jämförelse, dvs ta bort ev. skillnader i arbetsuppgifter. Ett
enkelt sätt att göra detta är att jämföra standardvägda medelvärden.
¤
Spridningsmått
Det är viktigt att som sammanfattande mått på ett datamaterial inte bara
beräkna ett genomsnitt utan att också ge ett mått på spridningen i data. Så t.ex.
är medelvärdet 0 för siffrorna -1, 0 och 1, men samma medelvärde har vi
också för -10, 0 och 10. Dock har det senare datamaterialet betydligt mycket
större spridning än det första.
Det absolut vanligaste spridningsmåttet är datamaterialets standardavvikelse.
Ibland används också kvartilavstånd och variationsbredd som enkla mått på
spridning.
Variationsbredden är differensen mellan största och minsta värdet i
datamaterialet.
Kvartilavståndet är differensen mellan den tredje och första kvartilen. Första,
andra och tredje kvartilen delar upp det storleksordnade datamaterialet i 4 lika
stora delar, så att i varje del finns en fjärdedel av totala antalet observationer.
Andra kvartilen kallas vanligen för median som vi tidigare har nämnt.
Standardavvikelsen definieras som
s
 (x
i
 x)2
n 1
Kvadreras uttrycket erhålls variansen
( xi  x ) 2

2
s 
n 1
som i stort sett är medelvärdet av observationernas kvadratiska avvikelser från
sitt genomsnitt.
Genom en algebraisk omskrivning kan formeln för variansen skrivas som
( x )2
2
xi  n i

2
s 
n 1
och denna formel är ofta enklare för numeriska beräkningar.
13
Exempel 4.2.1
Betrakta följande datamaterial där observationerna skrivits i storleksordning:
0, 0, 3, 3, 4, 6, 7, 8, 8, 9, 11, 13
Variationsbredden är 13 – 0 = 13
Datamaterialet indelas i följande fyra grupper
0, 0, 3 3, 4, 6 7, 8, 8 9, 11, 13
De tre kvartilerna blir därför rimligen 3, 6.5 och 8.5, varför kvartilavståndet är
8.5 – 3 = 5.5
72
Medelvärdet av de 12 observationerna är x  12
 6 , varför variansen är
0  0  9  9  16  36  49  64  64  81  121  169  7212
s 

11
618  5184
618  432 186
12


 16.91
11
11
11
Standardavvikelsen är då
2
2
s
186
11
 4.1
Slutligen bör vi nämna att det finns ett antal olika sätt att beskriva
datamaterial för att illustrera materialets genomsnitt och spridning. I lådagram
(eng. boxplot) begränsas lådan av första och tredje kvartilen och dessutom
ritas medianen in. Vidare går ”vingarna” ut till min.- och max.-värdena.
Nedan finns ett lådagram för vårt enkla exempel:
Figur 4.2.1 Exempel på lådagram
C1
10
5
0
¤
Anm.: I ett datamaterial för en diskret varaiabel förekommer varje värde med
en viss frekvens, och då kan formeln för variansen skrivas
(
f x )2
2
f i ( xi  x ) 2  f i  xi   ni i

2
s 

n 1
n 1
14
5. Övningsuppgifter
5.1 I en partisympatiundersökning intervjuades 800 personer och man fick följande
sympatifördelning (antal som sympatiserar med): (s) 236, (v) 62, (mp) 39, (m) 201, (fp)
42, (c) 41, (kd) 30. Utan ställningstagande 149
a) Sätt upp en frekvenstabell över datamaterialet och rita ett stapeldiagram.
b) Illustrera datamaterialet med ett cirkeldiagram.
(Tänk igenom hur du vill behandla de osäkra)
(Vilken typ av data har vi i detta fall?)
5,2 På en tenta på tekniska fakulteten deltar 86 studenter varav 24 är kvinnor. På tentan
kan man få betygen U, 3, 4 och 5. I tabellen nedan redovisas resultatet
U
3
4
5
Kvinnor
4
11
7
2
Män
15
27
13
7
Man vill jämföra tentaresultaten för kvinnor och män. Konstruera ett lämpligt
stapeldiagram för jämförelsen och kommentera vad du ser.
(Vilken typ av data har vi i detta fall?)
5,3 På tentan ovan kan man maximalt erhålla 24 poäng. I tabellen nedan redovisas
resultaten för olika poängintervall:
Intervall 0-4
5-9
10-14 15-19 20-24
Antal
3
16
38
20
7
Illustrera datamaterialet med ett lämpligt histogram
(Vilken typ av data har vi i detta fall?)
5,4 Vid en avdelning för kvalitetskontroll gör man stickprov på de artiklar som
produceras. Artiklarna paketeras i lådor om 100 st. och vid kontrollen plockas lådorna ut
slumpvis och alla artiklarna i en utvald låda kontrolleras. Man noterar antalet defekta
artiklar och för 50 kontrollerade lådor erhålls
Antal defekta 0
1
2
3
6
Antal lådor
36 8
3
2
1
a)
b)
c)
d)
Illustrera datamaterialet med ett stolpdiagram
Beräkna medelvärdet för antalet defekta artiklar i en låda
Beräkna medianen för antalet defekta artiklar i en låda
Vilket är typvärdet för antalet defekta artiklar i en låda
5,5 I en idrottsförening hör 60 % av medlemmarna till sektion 1 och resten till sektion 2.
I tabellen nedan redovisas medelåldern uppdelad på sektion och på kön. I tabellen anges
inte antalet män och kvinnor inom varje sektion, utan i stället den procentuella
fördelningen.
15
Kvinnor
Män
Sektion 1
Andel (%)
30
70
Medelålder
22.4
24.1
Sektion 2
Andel (%)
60
40
Medelålder
26.3
28.0
a) Beräkna medelåldern i sektion 1 resp. i sektion 2
b) Beräkna medelåldern i hela föreningen
c) Beräkna medelåldern för föreningens kvinnor
5,6 Vi fortsätter på uppgift 5.5.
a) Beräkna skillnaden i medelålder mellan sektion 2 och sektion 1
b) Hur stämmer resultatet i a) med de åldersskillnader man ser mellan
sektionerna för män resp. kvinnor? Varför får man olika resultat?
c) Vi vill ha åldersskillnaden mellan de två sektionerna när man
standardiserar könsfördelningen. Beräkna de standardiserade
medelvärdena för de två sektionerna och notera att man får den förväntade
skillnaden i medelålder.
5,7 I en telefonväxel noterar man antalet inkommande samtal under varje arbetsdag.
Under en arbetsvecka har man erhållit följande data:
255, 267, 253, 256, 234
Beräkna medelvärde och standardavvikelse för antalet inkommande samtal
per dag.
5,8 Se uppgift 5.4. Beräkna standardavvikelsen för antalet defekta artiklar i en låda.
5,9 I en hushållsundersökning studerade man bl.a. hushållens bilinnehav. Hushåll som
inte hade bil noterades med värdet 0, medan hushåll med minst en bil fick värdet 1. I
studien deltog 1256 hushåll och följande resultat erhölls:
Tillgång till bil (x)
0
1
Frekvens (f)
164
1092
a) Beräkna medelvärdet för x. Tolka värdet
b) Beräkna variansen för x.
n  x (1  x )
c) Beräkna
och notera att det blir samma resultat som i b)
n 1
n  x (1  x )
d) Försök visa matematiskt att s 2 
när man har observationer
n 1
som bara består av 0:or och 1:or.
Svar till övningsuppgifter
5.1
a) Frekvenstabell
Row
Parti
1
2
s
v
Antal
236
62
16
3
4
5
6
7
8
mp
m
fp
c
kd
osäkra
39
201
42
41
30
149
Stapeldiagram
Sum of Antal
200
100
0
c
fp
kd
m
mp osäkra
s
v
Parti
b) Cirkeldiagram
Pie Chart of Parti
m
(201; 25,1%)
kd
mp
( 39; 4,9%)
( 30; 3,8%)
fp
osäkra (149; 18,6%)
s
( 42; 5,3%)
c
( 41; 5,1%)
v
( 62; 7,8%)
(236; 29,5%)
Data är kvalitativa/kategoriska
5.2
Här är data på ordinalskala och i form av frekvenser. Jämförande stapeldiagram
för betygen uppdelade på kön (procentuell fördelning):
17
Percent Sum of Antal
100
3
50
3
4
U
4
U
5
5
0
k
m
Kön
5.3
Intervallgränserna sätts lämpligen vid 4.5, 9.5, 14.5 och 19.5. För att få lika breda
klasser sätts också första gränsen vid -0.5 och sista vid 24.5 (praktiskt lite
konstigt!). Rita sedan sammanhängande staplar med höjden proportionell mot
frekvensen. (Här har vi kvantitativa, klassindelade data)
5.4
a) Stolpdiagrammet
40
Frekvens
30
20
10
0
0
1
2
3
4
5
6
Defekta
b) 0.52
c) 0
d) 0
5.5
a) 23.59 resp. 26.98
b) 24.95
c) 24.63
5.6
a) 3.39
b) Skillnad 3.9 för K resp. M. P.g.a. olika könsfördelning i
sektionerna erhålls inte denna åldersskillnad totalt, då könen har olika åldrar.
c) Standardiserad könsfördelning: 42 % kvinnor och 58 % män. Medlålder för
sektionerna blir då 23.386 resp. 27.286, dvs skillnad 3.9 förstås.
5.7
Medelvärde 253, standardavvikelse 11.94
5.8
1.11
5.9
a) 0.87
b) 0.1136
18