normalplottar - Stockholms universitet

STOCKHOLMS UNIVERSITET
Matematisk statistik
Statistik för naturvetare
Louise af Klintberg
5 november 2003
NORMALPLOTTAR
För att avgöra om ett datamaterial anpassar sig till en normalfördelning kan man i första hand
göra ett histogram över värdena och se om det ”ser normalfördelat ut”. Man har då förstås
hjälp av en inritad anpassad normalkurva. (Det går faktiskt att med viss möda åstadkomma en
hyfsad sådan i Excel.) Men ett histogram ger en ganska grov bild över data, särskilt om man
inte har så många observationer, kan det ändå bli svårt. Se figur 1. Här är de 100 observerade
värdena framställda så att de ska anpassa sig till en normalfördelning med väntevärde 5 och
standardavvikelse 2.
Anpassning till normalfördelning
0,3
0,25
0,2
Andel
Normalkurva
0,15
0,1
0,05
0
-1
0
1
2
3
4
5
6
7
8
9
10
11
Figur 1. Histogram över 100 normalfördelade slumptal med anpassad normalkurva.
Här störs man av den höga stapeln omkring 6 – den gör att det inte ser så normalfördelat ut.
Men det hade inte varit så stor skillnad i data om en del av observationerna i denna stapel i
stället kommit ett steg åt vänster eller åt höger. Då hade anpassningen verkat mycket bättre.
Ett säkrare sätt att avgöra om normalfördelning föreligger är att göra en normalplot. Om man
sorterar observationerna i storleksordning och plottar dem mot sina andelstal, dvs tal nummer
k plottas mot k/n kan man skönja en krökt kurva. Se figur 2. Om observationerna kommer
från en normalfördelning ska den kurvan anpassa sig till motsvarande normafördelningskurva.
Se figur 3.
Anpassning
till
normalfördelning
observationer ≤ x
1,200
1,000
0,800
0,600
Andel
0,400
0,200
-2,000
0,000
0,000
2,000
4,000
6,000
8,000
10,000
12,000
x
Figur 2. 100 normalfördelade slumptal plottade mot sina andelstal
Normalfördelningskurva
E(X)=5,
V(X)=4
1,200
1,000
P(X ≤ x)
0,800
0,600
0,400
0,200
-2,000
0,000
0,000
2,000
4,000
6,000
8,000
10,000
12,000
x
Figur 3. Teoretisk normalfördelningskurva, P(X≤x) där X är normalfördelad (5, 2)
För att slippa jämföra med en krökt kurva kan man göra en skalförändring i diagrammet där
observationerna plottas mot sina andelstal. Om man i stället plottar mot den inversa
standardiserade normalfördelningsfunktionen för dessa tal ska punkterna anpassa sig till en rät
linje om observationerna är normalfördelade. Se figur 4 som visar en normalplot för samma
observationer som ovan.
Normalplot
-2,000
0,000
2,000
4,000
6,000
Figur 2. Normalplot för 100 normalfördelade slumptal
8,000
10,000
12,000
Normalplot i Excel
Metoden att framställa en normalplot illustreras med hjälp av tabell 1. I första kolumnen
ligger de observerade värdena (i vårt fall de normalfördelade slumptalen) sorterade i storleksordning. I nästa kolumn finns observationernas ordningstal k. I kolumnen därpå står vad man
kan kalla andelstalen k/(n+1 ), dvs ungefär hur stor andel av observationerna som högst är lika
med observationen på raden. Här är n lika med antalet observationer, i vårt fall 100. (Att man
delar med n+1 har praktiska skäl). Värdena i sista kolumnen får man genom att använda
funktionen NORMSINV på andelstalen. I normalplotten är observationerna i första kolumnen
plottade mot värdena i sista kolumnen. Välj punktdiagram i diagramguiden.
Observationer
-0,5
0,1
0,7
0,7
0,8
1,2
1,2
1,3
1,3
1,3
1,4
1,8
k
1
2
3
4
5
6
7
8
9
10
11
12
k/(n+1)
0,010
0,020
0,030
0,040
0,050
0,059
0,069
0,079
0,089
0,099
0,109
0,119
Φ -1 (k/(n+1))
-2,330
-2,058
-1,885
-1,755
-1,650
-1,560
-1,481
-1,410
-1,346
-1,287
-1,232
-1,181
Tabell 1. Tabell för framställning av normalplot för 100 normalfördelade. Endast de tio första raderna är
medtagna.
Histogram med inlagd normalkurva
Börja med att ta fram medelvärdet och standardavvikelsen för datamängden med hjälp av
Verktyg Dataanalys Beskrivande statistik. Användr sedan Verktyg Dataanalys Histogram med
lämpliga klassgränser (Fackområde). Det är inte nödvändigt att kryssa i rutan för Diagram.
Man får då de två första kolumnerna i tabell 2. Den tredje kolumnen innehåller Andel som är
Frekvens/n där n som ovan är antalet observationer. I kolumnen Normalkurva används
funktionen NORMFÖRD(Andel;Medelvärde;Standardavvikelse;FALSKT) där Medelvärde och
Standardavvikelse erhållits från Beskrivande statistik. Diagrammet får man genom att välja
det Anpassat i Diagramguiden och därefter Linje – kolumn.
Fack
Frekvens
Andel
Normalkurva
-1
0
1
2
3
0
1
4
8
9
0
0,01
0,04
0,08
0,09
0,00606719
0,0171008
0,03983157
0,07666924
0,12195442
Tabell 2. Tabell för framställning av histogram med ilagd normalkurva. Endast de fem första raderna är
medtagna.