Något om beskrivande statistik
1. Inledning
I de flesta sammanhang krävs fakta som underlag för att komma till rimliga slutsatser eller fatta
vettiga beslut. Exempelvis kan det på ett företag ha uppstått diskussioner om att det förekommer könsdiskriminering, som yttrar sig i att kvinnor har lägre löner än män. Det kan då vara rimligt att för ett urval av kvinnor respektive män ta reda på fakta. Fakta avser då inte bara deras
löner, utan också potentiellt viktiga faktorer som ålder, utbildning, antal anställningsår etc. Om
det fortfarande finns löneskillnader mellan kvinnor och män, fast man tar hänsyn till en mängd
bakgrundsfaktorer, så står man på betydligt fastare mark när man hävdar att det finns osakliga
löneskillnader på företaget.
Den situation vi beskrivit ovan är typisk för en statistisk undersökning. Man behöver få ett objektivt faktaunderlag och samlar därför på sig en mängd data. Dessa data kan erhållas genom en
observationsundersökning som i exemplet ovan, men även experimentella undersökningar är
vanliga. Exempelvis kan vi tänka oss en butik som vill studera hur olika exponering av en vara
påverkar varans försäljning. Man bestämmer sig för att testa tre olika typer av exponering och
genomför dessa under var sina tremånadersperioder. Sedan kan man jämföra försäljningssiffror
(tillsammans med annan viktig information) för att komma fram till en väl underbyggd slutsats.
Syftet med en statistisk undersökning är många gånger rent beskrivande, vilket innebär att man
vill ”se verkligheten som den är”. Men ofta har man också ett analytiskt syfte, som att göra en
sambandsanalys eller pröva en uttalad hypotes (i löneexemplet vill man studera sambandet
mellan lön och kön och testa om skillnaden är ”statistiskt signifikant”). Även om syftet för en
undersökning är analytiskt, har den ofta stora inslag av beskrivande moment.
Slutsatser från en analytisk undersökning dras alltid till någon population. Populationen kan vara
ändlig och lätt att förstå (som t.ex. de anställda vid ett företag). Lika vanligt är det med en oändlig population, som är ett betydligt mera vagt begrepp och ofta används då man har oberoende
mätningar vid t.ex. ett experiment. Man vill då studera en mera allmän företeelse, som t.ex.
hållfastheten hos en stållegering, effekten av en reklamkampanj på försäljningen av en vara,
sambandet mellan försäljningen av en vara och dess pris etc.
1
2. Olika typer av data
Vad är nu data?
En definition kan vara att data är mått på variabler, som kan vara rimliga att studera med hänsyn till undersökningsproblemet. I löneexemplet kan vi bl.a. se följande variabler och mått:

Lön – rimligt mått är månadslön i kronor

Ålder – kan vara faktisk ålder i antal år (kanske även månader) men även en klassindelning i
t.ex. femårsklasser

Kön – kan betecknas som K resp. M, men vanligare är t.ex. 1 resp. 0 (fortfarande bara en
beteckning fast det är siffror).
Uppenbarligen finns det två typer av variabler, nämligen de som kallas kvalitativa respektive
kvantitativa.

En kvalitativ variabel är en variabel som definierar olika kategorier som t.ex. kön, yrke, födelseland etc. Variabeln har inget naturligt siffermått men siffror används ofta som beteckning.

En kvantitativ variabel har som naturligt mått siffror och siffrorna har sin självklara betydelse. Som exempel kan nämnas antal barn i en familj, ålder och inkomst. Däremot är det inte
alltid självklart hur variabeln skall mätas utan man kan använda olika sorters skalor. T.ex.
kan ålder mätas i antal år eller i olika ålderskategorier.
Man brukar prata om fyra olika skalor på vilka variabler kan mätas.

Nominalskala: när vi bara kan betrakta data som olika grupper. Till denna skala hör endast
kvalitativa variabler.

Ordinalskala: när vi betraktar data som grupper, men kan rangordna dem. Grupperna har
alltså en inbördes storleksordning, men avstånden kan ändå vara olika mellan dem. Till denna skala hör både kvalitativa och kvantitativa variabler. Ett exempel är åldersklasserna 1
(under 20), 2 (mellan 20 och 40) samt 3 (över 40). En individ i klass 1 är då yngre än en i klass
2 etc.

Intervall- och kvotskala är de ”exakta” skalorna för kvantitativa variabler. Ur statistisk synvinkel behandlas data mätta på dessa skalor på ett likvärdigt sätt. Det som skiljer variablerna
är att vissa variabler inte har någon given nollpunkt (som t.ex. temperatur). De mäts då på
intervallskala där det är meningsfullt att tala om differenser (Vettigt uttalande: I dag är det
12 grader, dvs 2 grader varmare än i går då det var 10 grader. Däremot fungerar det inte
2
med: I dag är det 20 % varmare än i går). En variabel på kvotskala har en väldefinierad nollpunkt och det är meningsfullt att bilda kvoter och uttrycka relativa mått (Lisa och Karin är 2
resp. 4 år gamla. Alltså är Karin 2 år äldre än Lisa. Men det är också korrekt att säga att Karin
är dubbelt så gammal som Lisa).
Det blev litet långrandigt detta med skalor och vi skall inte fördjupa oss mer, utan konstatera att
skalorna leder till två typer av data. Kvalitativa variabler och kvantitativa variabler på ordinalskala ger båda frekvensdata, dvs för varje klass får man antalet individer (frekvensen) som ingår i
klassen. Kvantitativa variabler på intervall- eller kvotskala ger data i form av enskilda numeriska
värden.
3. Tabeller och diagram
I media, kursböcker och annat matas vi dagligen med information i form av tabeller och diagram. Informationen ser vederhäftig ut och det är lätt att ta till sig den helt okritiskt, inte minst
för att många tycker att det bara är ”tråkiga siffror”, som man inte orkar fördjupa sig närmare i.
Men här riskerar man att gå på ordentliga nitar!
Statistiska uppgifter kan presenteras på många olika sätt, och man måste förstå hur den aktuella
tabellen eller diagrammet är konstruerat, för att rätt tolka informationen. Vanligen är informationen formellt sett korrekt, men kan framställas på sådant sätt, att det är lätt att feltolka den
om man inte granskar den kritiskt.
Särskilt tydligt blir detta vid politiska debatter, då det är vanligt att representanter för olika partier visar diagram över någon företeelse. Trots att man illustrerar samma företeelse ger diagrammen helt olika intryck (kanske för att man använder olika skalor, delvis olika tidsperioder
etc).
3.1 Frekvensdata
Vi studerar nu en variabel som är indelad i olika klasser, och vill med hjälp av tabeller och diagram illustrera hur data fördelar sig över de olika klasserna.
Exempel 1
I en mediaundersökning riktad till allmänheten vill man ta reda på svenska folkets inställning till
olika tidningar. För varje tidning får de svarande uttrycka sin åsikt på en femgradig skala. Frågorna och svarsalternativen är av följande typ.
”Tidningen XX är trovärdig”
Instämmer:
inte alls O
O
O
O
3
O helt och hållet
Förutom svaren på dessa frågor har man också frågat om den svarandes kön.
800 personer har besvarat enkäten och vi vill redovisa svarsfördelningarna över kön, över trovärdighet men även över kombinationen av kön och trovärdighet. Det senare gör vi för att se om
kvinnor och män uppfattar trovärdigheten på olika sätt.
3.1.1 Kön
Tabell 1. Svarsfördelning efter kön
Kön
Antal
Kvinnor
380
Män
420
Totalt
800
Andel (i procent)
47.5
52.5
100
Denna fördelning kan illustreras i ett stapeldiagram, som har konstruerats i den statistiska programvaran Minitab:
Figur 1 Stapeldiagram över könsfördelning
Sum of Antal
420
Män
410
400
390
Kvinnor
380
0
1
Kön
Figurtexten är inte den snyggaste, men detta bortser vi från nu. Det vi kan konstatera är att diagrammet i och för sig är korrekt, men ger ett intryck av att kvinnorna är väldigt få i förhållande
till männen. Detta beror på Y-axelns skala, som inte alls börjar i 0. Det är lätt att styra om detta i
Minitab och vi erhåller då i stället följande:
4
Figur 2 Stapeldiagram över könsfördelning
Män
Sum of Antal
400
Kvinnor
300
200
100
0
0
1
Kön
Nu får vi ett helt annat och mera korrekt intryck av stapeldiagrammet, eller hur?
Vi kan dra lärdomen att man bör undvika ”stympade” skalor, eftersom det omedelbara synintrycket av diagrammet lätt blir vilseledande.
Ett alternativt sätt att illustrera könsfördelningen är med cirkeldiagram, vilket konstrueras så att
cirkelsektorernas areor är proportionella mot frekvenserna:
Figur 3 Cirkeldiagram över könsfördelning
Pie Chart of Kön
0 (420; 52,5%)
1 (380; 47,5%)
Cirkeldiagram blir lätt röriga om variabeln kan anta många värden, och då lämpar sig stapeldiagram i allmänhet bättre. Man bör också tänka på att cirkeldiagrammet är som tydligast i färg,
och att diagramtypen därför kanske inte lämpar sig i en svartvit rapport.
5
3.1.2 Trovärdighet
Vad gäller trovärdigheten har följande resultat erhållits:
Tabell 2 Fördelning efter trovärdighet
Trovärdighet
1
2
3
4
5
Totalt
Antal
120
120
240
160
160
800
Procentuell andel
15
15
30
20
20
100
Figur 4 Stapeldiagram över trovärdighetsfördelningen
250
Sum of ant
200
150
100
50
0
1
2
3
4
5
Trov
Figur 5 Cirkeldiagram över trovärdighetsfördelningen
Pie Chart of Trov
2 (120; 15,0%)
1 (120; 15,0%)
3 (240; 30,0%)
5 (160; 20,0%)
4 (160; 20,0%)
6
3.1.3 Kombinationen kön och trovärdighet
För att studera kombinationen av kön och trovärdighet behöver vi ta fram en korstabell, dvs en
frekvenstabell där båda variablerna redovisas tillsammans. Vi konstruerar tabellen så att raderna är kön, medan kolumnerna är trovärdigheten. För att förenkla redovisningen så ges trovärdigheten bara i 3 klasser; negativa (ursprunglig kod 1 och 2), obestämda (kod 3) och positiva
(kod 4 och 5):
Tabell 3 Fördelning efter trovärdighet för män och kvinnor. Antal
Kön
Kvinnor
Män
Totalt
Trovärdighet
Neg
80
160
240
Obest
120
120
240
Pos
180
140
320
Totalt
380
420
800
Vi kan konstatera att i marginalerna har vi de fördelningar som tidigare redovisats (trovärdighetsfördelningen var dock då mera finfördelad). Vi kan också konstatera att männen är betydligt
mer negativa än kvinnorna (160/420 = 38.1 % jämfört med 80/380 = 21.4 %). För att illustrera
detta tar vi fram ett stapeldiagram uppdelat på kön:
Figur 6 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Antal
200
Pos
Neg
Sum of Ant
Pos
Obest
Obest
100
Neg
0
0
1
Kon
7
Eftersom antalet män och kvinnor är olika, kan det vara litet besvärligt att direkt se skillnaden i
fördelning, när den som här ges i antal. Det blir enklare om man i stället går över till procentuella andelar inom varje grupp (kön i detta fall):
Figur 7 Stapeldiagram över trovärdighetsfördelningen uppdelat på män och kvinnor. Procentuell
andel
100
Percent Sum of Ant
90
80
70
60
50
40
30
Pos
Neg
Obest
Pos
Obest
Neg
20
10
0
0
1
Kon
Man ser omedelbart från de två fördelningarna, att kvinnorna har en klart mer positiv inställning
än männen till tidningens trovärdighet.
Det sista diagrammet kan rent formellt också konstrueras genom att låta trovärdighetsklasserna
utgöra ”x-axel”:
8
100
Percent Sum of Ant
90
80
70
Män
60
Kvinnor
MänKvinnor
50
40
30
Män
Kvinnor
20
10
0
1
2
3
Trov
Om vi tittar på grupp 1 så är männens stapel dubbelt så hög som kvinnornas, dvs männen är två
gånger så negativa som kvinnorna? Detta är dock fel sätt att tolka det hela, utan det vi kan säga
är, att av de negativa så utgör männen två tredjedelar. Eftersom männen är något fler i studien,
så är detta en del av förklaringen till männens höga andel.
Vi såg ju ovan att av männen är 38.1 % negativa, medan motsvarande andel bland kvinnorna är
21.4 %. Andelen negativa män är alltså inte dubbelt så stor som andelen negativa kvinnor, utan
”bara” 78 % större (38.1/21.4 = 1.78).
Vi drar lärdomen, att de grupper man vill jämföra bör utgöra diagrammets indelningsgrund (”xaxel”), så att man inte riskerar att av misstag dra felaktiga slutsatser.
3.2 Data i form av enskilda numeriska värden (från kvantitativa variabler)
De kvantitativa variablerna kan klassificeras i diskreta respektive kontinuerliga variabler. En diskret variabel kan bara anta vissa diskreta värden, och i stället för att ange alla enskilda värden,
så presenteras sådana data i form av frekvenstabeller, precis som i avsnitt 3.1.
En kontinuerlig variabel antar alla värden i ett intervall, vilket innebär att ett observationsmaterial innehåller värden som i stort sett alla är olika. Sådana data kan inte direkt presenteras i tabeller och diagram, utan måste först indelas i klasser.
Exempel 2 (Diskret variabel)
Vi studerar under ett år antal trafikolyckor per dag som inträffar i en tätort. De n = 365 observationerna är 0, 0, 2, 0, 1, 4, ….,2, 0, 0. Data kan sammanfattas i följande frekvenstabell:
9
Tabell 4 Antal och procentuell andel trafikolyckor per dag
Antal olyckor (x)
Antal dagar, frekvens (f)
Procentuell relativ frekvens
0
102
27.9
1
125
34.2
2
80
21.9
3
32
8.8
4
20
5.5
5
4
1.1
6
0
0
7
2
0.5
≥8
0
0
Summa
n = 365
99.9
Denna fördelning illustreras lämpligen med ett s.k. stolpdiagram (stapeldiagram för diskret variabel), där man på y-axeln har frekvenserna eller relativa frekvenserna för varje x-värde:
Figur 8 Fördelning över antal trafikolyckor per dag
f
100
50
0
0
1
2
3
4
5
6
x
Exempel 3 (Kontinuerlig variabel)
En förening med 500 medlemmar har följande åldersfördelning
10
7
Tabell 5 Föreningens åldersfördelning
Ålder
-19
20-29
30-39
40-49
50-59
60-69
70Alla
Frekvens
20
80
120
150
80
40
10
500
Relativ frekvens (i %)
4
16
24
30
16
8
2
100
Fördelningen för en kontinuerlig variabel brukar illustreras med ett histogram. På x-axeln markeras klassgränserna och ovanför varje klass avsätts en rektangelarea som är proportionell mot
frekvensen (eller relativa frekvensen). Om klasserna är lika breda (vilket de helst bör vara), så är
rektangelns höjd proportionell mot frekvensen.
För att konstruera histogram i Minitab måste man ha alla enskilda data inlagda. Här hade vi inte
data på den formen och därför får vi lov att själva rita ett histogram. Detta görs förmodligen
enklast för hand. Pröva! (Observera att en person som fyllt 29 år men ännu inte 30 anges med
åldern 29).
4. Sammanfattande mått på datamaterial
I föregående kapitel har vi studerat olika sätt att illustrera hela fördelningen hos ett datamaterial. Ofta vill man sammanfatta denna information i några enkla mått som är smidigare att hantera. Främst gäller detta om man har data på en kvantitativ variabel. De typer av mått som man
vanligen använder är dels mått på observationernas genomsnitt och dels mått på observationernas spridning kring genomsnittet.
4.1 Genomsnittsmått (lägesmått, centralmått)
Det i särklass vanligaste genomsnittsmåttet är (aritmetiska) medelvärdet, men man ser att även
medianen används i praktiken. Typvärdet fungerar främst för kvalitativa data och för klassindelade kvantitativa.
Typvärdet är det vanligaste värdet, dvs det x-värde som har den största frekvensen.
Medianen (md) är det i storleksordning mittersta värdet (om antalet observationer är jämnt, så
definieras medianen som medelvärdet av de två mittersta värdena). Medianen delar alltså datamaterialet mitt itu.
11
Medelvärdet ( x med statistiskt språkbruk) för ett datamaterial med n observationer betecknade x1, x2 ,...xn definieras som
n
x
x1  x 2  ...  x n sum( xi )


n
n
x
i 1
i
n
Exempel 4 (baseras på exempel 2)
Den första veckan är det observerade antalet olyckor 0, 0, 2, 0, 1, 4, 2. (med beteckningarna
ovan är t.ex. x1 = 0 och x7 = 2). Vi ser att typvärdet är 0, medan medianen är md = 1. Medelvärdet
av antalet olyckor är
x
0  0  2  0 1 4  2 9
  1.3
7
7
Säg nu att sista dagen var en extrem halkdag och det blev inte alls 2 olyckor utan i stället 12!
Fortfarande är typvärdet 0 och medianen 1. Medelvärdet blir
x
19
 2.7
7
dvs väsentligt mycket större än ovan.
Detta är en generell lärdom: Medelvärden är känsliga för extremvärden, medan medianvärden
inte påverkas i nämnvärd grad.
Medianen kan därför vara ett lämpligare genomsnittsmått än medelvärdet i vissa sammanhang.
T.ex. används vanligen medianlön i stället för genomsnittslön i samband med löneförhandlingar
mellan företag och fack.
Exempel 5
Vi tar nu och studerar alla olycksdata i exempel 2.
Typvärdet är 1 olycka per dag.
Antalet dagar är 365, varför värde nr 183 (i storleksordning) är median. Vi har 102 st. 0:or och
125 st. 1:or, dvs värde nr 103 upp till och med nr 227 är alla lika med 1, vilket innebär att md = 1.
Medelvärdet är
12
365
x
x
102  0  125  1  80  2  32  3  20  4  4  5  0  6  2  7

365
365
495

 1.36
365
i 1
i

Med formelspråk kan medelvärdet för diskreta data skrivas
x
f
i
 xi
n
Vi skall nu studera en litet besvärligare men i praktiken vanlig situation, när man har medelvärdena beräknade för ett antal grupper och vill beräkna medelvärdet för totala antalet observationer.
Antag för enkelhetens skull att vi har två grupper med antalet observationer n1 resp. n2. Antag
vidare att medelvärdena är
x
x1 
grupp1
x2 
grupp2
i
n1
resp.
x
i
n2
Det totala medelvärdet kan nu skrivas som
x
x
n
i

x
i

grupp1
x
grupp2
n
i

n1  x1  n2  x2 n1
n
  x1  2  x2
n
n
n
dvs det totala medelvärdet är ett vägt medelvärde av gruppmedelvärdena och vikterna är gruppernas relativa frekvenser.
Exempel 6
Ett företag är bekymrat över sjukfrånvarons utveckling och följer därför upp frånvaron det senaste året. I tabellen nedan ges medelvärdet av antalet frånvarodagar uppdelat på företagets
två avdelningar och på kön.
Tabell 6 Medelantal frånvarodagar per år (antal personer inom parentes)
13
Avd 1
Avd 2
Totalt
Kvinnor
5.8 (150)
8.5 (100)
? (250)
Män
6.0 (50)
9.1 (700)
? (750)
Vi börjar med att beräkna medelfrånvaron för kvinnor resp. män. För kvinnor blir den
150
250
, medan motsvarande beräkning för män ger
 5.8  100
250  8.5  3.48  3.40  6.88  6.9
medelvärdet 8.89 = 8.9. Männen har alltså i snitt 2 frånvarodagar fler än kvinnorna.
Hajar du inte till? Vi ser att på de två avdelningarna har männen något högre sjukfrånvaro i snitt,
men inte alls så mycket som 2 dagar. Då har vi väl räknat fel!?
Nej, faktiskt inte. Skälet till den stora skillnaden är att männen huvudsakligen finns på avdelning
2, och den avdelningen har i stort sett 3 sjukdagar flera än avdelning 1 (avdelningarnas medelvärden kan med vägda medelvärden beräknas till 5.9 resp. 9.0).
Om man vill se skillnaden i frånvaro beroende på kön (oavsett avdelning), måste medelvärdena
vägas ihop med en gemensam fördelning för könen. Det vanligaste sättet att göra detta är med
s.k. standardvägning, där man som gemensam fördelning använder marginalfrekvenserna, dvs i
detta fall 200 på avdelning 1 och 800 på avdelning 2. Det standardvägda medelvärdet för kvinnor blir då 0.2  5.8  0.8  8.5  8.0 , medan männens medelvärde blir 8.5. Männen har alltså i
genomsnitt ”bara” en halv dag mera sjukfrånvaro än kvinnorna.
Det är helt korrekt att säga att männen på företaget har i genomsnitt 2 frånvarodagar fler än
kvinnorna. Här räknas både med ev. skillnader beroende på kön, men också skillnader beroende
på vilka arbetsuppgifter man har.
Är man ute efter att enbart spegla skillnaden mellan könen, måste man göra en standardiserad
jämförelse, dvs ta bort ev. skillnader i arbetsuppgifter. Ett enkelt sätt att göra detta är att jämföra standardvägda medelvärden.
4.2 Spridningsmått
Det är viktigt att som sammanfattande mått på ett datamaterial inte bara beräkna ett genomsnitt utan att också ge ett mått på spridningen i data. Så t.ex. är medelvärdet 0 för siffrorna -1, 0
och 1, men samma medelvärde har vi också för -10, 0 och 10. Dock har det senare datamaterialet betydligt mycket större spridning än det första.
Det absolut vanligaste spridningsmåttet är datamaterialets standardavvikelse. Ibland används
också kvartilavstånd och variationsbredd som enkla mått på spridning.
Variationsbredden är differensen mellan största och minsta värdet i datamaterialet.
14
Kvartilavståndet är differensen mellan den tredje och första kvartilen. Första, andra och tredje
kvartilen delar upp det storleksordnade datamaterialet i 4 lika stora delar, så att i varje del finns
en fjärdedel av totala antalet observationer. Andra kvartilen kallas vanligen för median.
Standardavvikelsen definieras som
s
 (x
i
 x)2
n 1
Kvadreras uttrycket erhålls variansen
s
2
 (x

i
 x)2
n 1
som i stort sett är medelvärdet av observationernas kvadratiska avvikelser från sitt genomsnitt.
Genom en algebraisk omskrivning kan formeln för variansen skrivas som
s2
x

2
i
( x )2
 n i
n 1
och denna formel är ofta enklare för numeriska beräkningar.
Exempel 7
Betrakta följande datamaterial där observationerna skrivits i storleksordning:
0, 0, 3, 3, 4, 6, 7, 8, 8, 9, 11, 13
Variationsbredden är 13 – 0 = 13
Datamaterialet indelas i följande fyra grupper
0, 0, 3 3, 4, 6 7, 8, 8 9, 11, 13
De tre kvartilerna blir därför rimligen 3, 6.5 och 8.5, varför kvartilavståndet är 8.5 – 3 = 5.5
Medelvärdet av de 12 observationerna är x 
72
12
 6 , varför variansen är
0  0  9  9  16  36  49  64  64  81  121  169  7212
s 

11
618  5184
618  432 186
12


 16.91
11
11
11
2
2
Standardavvikelsen är då
15
s
186
11
 4.1
Slutligen bör vi nämna att det finns ett antal olika sätt att beskriva datamaterial för att illustrera
materialets genomsnitt och spridning. I lådagram (eng. boxplot) begränsas lådan av första och
tredje kvartilen och dessutom ritas medianen in. Vidare går ”vingarna” ut till min.- och max.värdena. Nedan finns ett lådagram för vårt enkla exempel:
Figur 9 Exempel på lådagram
C1
10
5
0
Anm.: I ett datamaterial för en diskret variabel förekommer varje värde med en viss frekvens,
och då kan formeln för variansen skrivas
s2
 f (x

i
i
 x)2
n 1
f

i
(
f x )2
2
 xi   ni i
n 1
5. Övningsuppgifter
5.1 I en partisympatiundersökning intervjuades 800 personer och man fick följande sympatifördelning (antal som sympatiserar med): (s) 236, (v) 62, (mp) 39, (m) 201, (fp) 42, (c) 41, (kd)
30. Utan ställningstagande 149
a) Sätt upp en frekvenstabell över datamaterialet och rita ett stapeldiagram.
b) Illustrera datamaterialet med ett cirkeldiagram.
(Tänk igenom hur du vill behandla de osäkra)
(Vilken typ av data har vi i detta fall?)
16
5.2 På en tenta på tekniska fakulteten deltar 86 studenter varav 24 är kvinnor. På tentan kan
man få betygen U, 3, 4 och 5. I tabellen nedan redovisas resultatet
U
3
4
5
Kvinnor
4
11
7
2
Män
15
27
13
7
Man vill jämföra tentaresultaten för kvinnor och män. Konstruera ett lämpligt stapeldiagram för jämförelsen och kommentera vad du ser.
(Vilken typ av data har vi i detta fall?)
5.3 På tentan ovan kan man maximalt erhålla 24 poäng. I tabellen nedan redovisas resultaten
för olika poängintervall:
Intervall
0-4
5-9
10-14
15-19
20-24
Antal
3
16
38
20
7
Illustrera datamaterialet med ett lämpligt histogram
(Vilken typ av data har vi i detta fall?)
5.4 Vid en avdelning för kvalitetskontroll gör man stickprov på de artiklar som produceras. Artiklarna paketeras i lådor om 100 st. och vid kontrollen plockas lådorna ut slumpvis och alla artiklarna i en utvald låda kontrolleras. Man noterar antalet defekta artiklar och för 50 kontrollerade lådor erhålls
Antal defekta
0
1
2
3
6
Antal lådor
36
8
3
2
1
a) Illustrera datamaterialet med ett stolpdiagram
17
b) Beräkna medelvärdet för antalet defekta artiklar i en låda
c) Beräkna medianen för antalet defekta artiklar i en låda
d) Vilket är typvärdet för antalet defekta artiklar i en låda
5.5 I en idrottsförening hör 60 % av medlemmarna till sektion 1 och resten till sektion 2. I tabellen nedan redovisas medelåldern uppdelad på sektion och på kön. I tabellen anges inte antalet män och kvinnor inom varje sektion, utan i stället den procentuella fördelningen.
Sektion 1
Sektion 2
Andel (%)
Medelålder
Andel (%)
Medelålder
Kvinnor
30
22.4
60
26.3
Män
70
24.1
40
28.0
a) Beräkna medelåldern i sektion 1 resp. i sektion 2
b) Beräkna medelåldern i hela föreningen
c) Beräkna medelåldern för föreningens kvinnor
5.6 Vi fortsätter på uppgift 5.5.
a) Beräkna skillnaden i medelålder mellan sektion 2 och sektion 1
b) Hur stämmer resultatet i a) med de åldersskillnader man ser mellan sektionerna
för män resp. kvinnor? Varför får man olika resultat?
c) Vi vill ha åldersskillnaden mellan de två sektionerna när man standardiserar
könsfördelningen. Beräkna de standardiserade medelvärdena för de två sektionerna och notera att man får den förväntade skillnaden i medelålder.
5.7 I en telefonväxel noterar man antalet inkommande samtal under varje arbetsdag. Under en
arbetsvecka har man erhållit följande data:
255, 267, 253, 256, 234
18
Beräkna medelvärde och standardavvikelse för antalet inkommande samtal per dag.
5.8 Se uppgift 5.4. Beräkna standardavvikelsen för antalet defekta artiklar i en låda.
5.9 I en hushållsundersökning studerade man bl.a. hushållens bilinnehav. Hushåll som inte hade
bil noterades med värdet 0, medan hushåll med minst en bil fick värdet 1. I studien deltog
1256 hushåll och följande resultat erhölls:
Tillgång till bil (x)
0
1
Frekvens (f)
164
1092
a) Beräkna medelvärdet för x. Tolka värdet
b) Beräkna variansen för x.
c) Beräkna
n  x (1  x )
och notera att det blir samma resultat som i b)
n 1
d) Försök visa matematiskt att s 2 
n  x (1  x )
när man har observationer som
n 1
bara består av 0:or och 1:or.
Svar till övningsuppgifter
5.1
a) Frekvenstabell
Row
1
2
3
4
5
6
7
8
Parti
s
v
mp
m
fp
c
kd
osäkra
Antal
236
62
39
201
42
41
30
149
19
Stapeldiagram
Sum of Antal
200
100
0
c
fp
kd
m
mp osäkra
s
v
Parti
b) Cirkeldiagram
Pie Chart of Parti
m
(201; 25,1%)
kd
mp
( 39; 4,9%)
( 30; 3,8%)
fp
osäkra (149; 18,6%)
s
( 42; 5,3%)
c
( 41; 5,1%)
v
( 62; 7,8%)
(236; 29,5%)
Data är kvalitativa/kategoriska
5.2
Här är data på ordinalskala och i form av frekvenser. Jämförande stapeldiagram för betygen uppdelade på kön (procentuell fördelning):
20
Percent Sum of Antal
100
3
50
3
4
U
4
U
5
5
0
k
m
Kön
5.3
Intervallgränserna sätts lämpligen vid 4.5, 9.5, 14.5 och 19.5. För att få lika breda klasser
sätts också första gränsen vid -0.5 och sista vid 24.5 (praktiskt lite konstigt!). Rita sedan
sammanhängande staplar med höjden proportionell mot frekvensen. (Här har vi kvantitativa, klassindelade data)
5.4
a) Stolpdiagrammet
40
Frekvens
30
20
10
0
0
1
2
3
4
5
6
Defekta
b) 0.52
c) 0
d) 0
5.5
a) 23.59 resp. 26.98
b) 24.95
c) 24.63
5.6
a) 3.39
b) Skillnad 3.9 för K resp. M. P.g.a. olika könsfördelning i sektionerna
erhålls inte denna åldersskillnad totalt, då könen har olika åldrar.
21
c) Standardiserad könsfördelning: 42 % kvinnor och 58 % män. Medlålder för sektionerna blir då 23.386 resp. 27.286, dvs skillnad 3.9 förstås.
5.7
Medelvärde 253, standardavvikelse 11.94
5.8
1.11
5.9
a) 0.87
b) 0.1136
22