STOCKHOLMS UNIVERSITET Matematisk statistik Statistik för naturvetare Louise af Klintberg 5 november 2003 NORMALPLOTTAR För att avgöra om ett datamaterial anpassar sig till en normalfördelning kan man i första hand göra ett histogram över värdena och se om det ”ser normalfördelat ut”. Man har då förstås hjälp av en inritad anpassad normalkurva. (Det går faktiskt att med viss möda åstadkomma en hyfsad sådan i Excel.) Men ett histogram ger en ganska grov bild över data, särskilt om man inte har så många observationer, kan det ändå bli svårt. Se figur 1. Här är de 100 observerade värdena framställda så att de ska anpassa sig till en normalfördelning med väntevärde 5 och standardavvikelse 2. Anpassning till normalfördelning 0,3 0,25 0,2 Andel Normalkurva 0,15 0,1 0,05 0 -1 0 1 2 3 4 5 6 7 8 9 10 11 Figur 1. Histogram över 100 normalfördelade slumptal med anpassad normalkurva. Här störs man av den höga stapeln omkring 6 – den gör att det inte ser så normalfördelat ut. Men det hade inte varit så stor skillnad i data om en del av observationerna i denna stapel i stället kommit ett steg åt vänster eller åt höger. Då hade anpassningen verkat mycket bättre. Ett säkrare sätt att avgöra om normalfördelning föreligger är att göra en normalplot. Om man sorterar observationerna i storleksordning och plottar dem mot sina andelstal, dvs tal nummer k plottas mot k/n kan man skönja en krökt kurva. Se figur 2. Om observationerna kommer från en normalfördelning ska den kurvan anpassa sig till motsvarande normafördelningskurva. Se figur 3. Anpassning till normalfördelning observationer ≤ x 1,200 1,000 0,800 0,600 Andel 0,400 0,200 -2,000 0,000 0,000 2,000 4,000 6,000 8,000 10,000 12,000 x Figur 2. 100 normalfördelade slumptal plottade mot sina andelstal Normalfördelningskurva E(X)=5, V(X)=4 1,200 1,000 P(X ≤ x) 0,800 0,600 0,400 0,200 -2,000 0,000 0,000 2,000 4,000 6,000 8,000 10,000 12,000 x Figur 3. Teoretisk normalfördelningskurva, P(X≤x) där X är normalfördelad (5, 2) För att slippa jämföra med en krökt kurva kan man göra en skalförändring i diagrammet där observationerna plottas mot sina andelstal. Om man i stället plottar mot den inversa standardiserade normalfördelningsfunktionen för dessa tal ska punkterna anpassa sig till en rät linje om observationerna är normalfördelade. Se figur 4 som visar en normalplot för samma observationer som ovan. Normalplot -2,000 0,000 2,000 4,000 6,000 Figur 2. Normalplot för 100 normalfördelade slumptal 8,000 10,000 12,000 Normalplot i Excel Metoden att framställa en normalplot illustreras med hjälp av tabell 1. I första kolumnen ligger de observerade värdena (i vårt fall de normalfördelade slumptalen) sorterade i storleksordning. I nästa kolumn finns observationernas ordningstal k. I kolumnen därpå står vad man kan kalla andelstalen k/(n+1 ), dvs ungefär hur stor andel av observationerna som högst är lika med observationen på raden. Här är n lika med antalet observationer, i vårt fall 100. (Att man delar med n+1 har praktiska skäl). Värdena i sista kolumnen får man genom att använda funktionen NORMSINV på andelstalen. I normalplotten är observationerna i första kolumnen plottade mot värdena i sista kolumnen. Välj punktdiagram i diagramguiden. Observationer -0,5 0,1 0,7 0,7 0,8 1,2 1,2 1,3 1,3 1,3 1,4 1,8 k 1 2 3 4 5 6 7 8 9 10 11 12 k/(n+1) 0,010 0,020 0,030 0,040 0,050 0,059 0,069 0,079 0,089 0,099 0,109 0,119 Φ -1 (k/(n+1)) -2,330 -2,058 -1,885 -1,755 -1,650 -1,560 -1,481 -1,410 -1,346 -1,287 -1,232 -1,181 Tabell 1. Tabell för framställning av normalplot för 100 normalfördelade. Endast de tio första raderna är medtagna. Histogram med inlagd normalkurva Börja med att ta fram medelvärdet och standardavvikelsen för datamängden med hjälp av Verktyg Dataanalys Beskrivande statistik. Användr sedan Verktyg Dataanalys Histogram med lämpliga klassgränser (Fackområde). Det är inte nödvändigt att kryssa i rutan för Diagram. Man får då de två första kolumnerna i tabell 2. Den tredje kolumnen innehåller Andel som är Frekvens/n där n som ovan är antalet observationer. I kolumnen Normalkurva används funktionen NORMFÖRD(Andel;Medelvärde;Standardavvikelse;FALSKT) där Medelvärde och Standardavvikelse erhållits från Beskrivande statistik. Diagrammet får man genom att välja det Anpassat i Diagramguiden och därefter Linje – kolumn. Fack Frekvens Andel Normalkurva -1 0 1 2 3 0 1 4 8 9 0 0,01 0,04 0,08 0,09 0,00606719 0,0171008 0,03983157 0,07666924 0,12195442 Tabell 2. Tabell för framställning av histogram med ilagd normalkurva. Endast de fem första raderna är medtagna.