Föreläsning 1. Introduktion, beskrivande statistik

Föreläsning 1. Introduktion, beskrivande statistik
Jesper Rydén
Matematiska institutionen, Uppsala universitet
[email protected]
1MS008, 1MS777 • vt 2016
Var finns slumpen?
Slumpmässig variation?
I
Spel och dobbel: tärningar, kortlekar, rouletter . . .
I
Naturen i sig själv
I
System av människohand: tekniska system
Denna kurs: Matematiska modeller för slumpmässig variation.
Bildkällor: tarningsspel.nu, jarnia.se, gassco.no
Exempel: Tider mellan fel
Tider mellan fel hos luftkonditioneringen hos flygplan av typen
Boeing 720.
Sorterade observationer (timmar):
3
44
5
46
5
50
13
72
14
79
15
88
22
97
22
102
23
139
30
188
36
197
39
210
Bildkälla: simviation.com
Exempel, forts.
Observationerna ritade längs en axel.
Spridning hos detta datamaterial? ”Vanliga” värden? Skevhet?
0
50
100
150
Tid mellan fel (h)
200
250
Exempel: Borrkronors brottseghet
Ett svenskt företag utvecklar stift av hårdmetall för borrkronor.
√
Laboratorieförsök: undersökning av brottseghet (MPa m) hos två
material, A och B.
Bildkälla: atlascopco.se
Exempel, forts.
För vardera materialet, 10 mätvärden.
Är brottsegheten hos material B (kryss) högre än för material A
(ringar)?
9.5
10.0
10.5
Brottseghet (MPa sqrt(m))
11.0
11.5
Exempel: Mätbojar till havs
Vid avancerade mätbojar till
havs mäts fysikaliska storheter:
temperatur, vindriktning,
vindhastighet, våghöjd.
Mätbojen NDBC 46001, se
bild, finns i Stilla havet.
Vi studerar här signifikant
våghöjd (m), medelvärdet av
den högsta tredjedelen vågor.
Bildkälla: ndbc.noaa.gov
Exempel, forts.
Mätningar över fem års tid.
Exempel på en tidsserie.
Notera: säsongsvariation, saknade data.
12
Signifikant våghöjd (m)
10
8
6
4
2
0
1983
1984
1985
1986
Tidpunkt
1987
1988
Sammanfattning: syfte med stokastisk modellering
Sett ur ingenjörssynvinkel:
Beskrivning. Matematik: realistiska beskrivningar av förlopp. Ny
kunskap om process eller fenomen.
Jämförelse. Jämför egenskaper hos två produkter, behandlingar,
system.
Prediktion. Förutsäg framtida värden och (inte minst) dess
osäkerhet.
Dimensionering. Belastning och styrka (materialegenskaper) kan
variera. Konstruera tillräckligt säkert.
Kvalitet. Kan ett varuparti vid produktion accepteras? Mät
variabler av intresse i processen.
Data och dess ursprung
Beskrivande statistik: Sammanfatta data.
Några begrepp:
I
Enheter i en population.
I
Kvalitativa och kvantitativa variabler.
Datainsamlingens karaktär:
I
Experimentsituation?
I
Insamling över tid?
Observationer och variabler
Kvantitativa. Numeriska observationer. Mätbara, uttryckt i
någon form av mått. Observationer kan jämföras med varandra.
Kvalitativa. I stället för siffror används ord eller annan
ickenumerisk beskrivning. Kan i vissa fall omvandlas till kvantitativ
analys.
Visualisering av data: Nightingale en pionjär.
Florence Nightingale (1820-1910),
en pionjär på många sätt.
Stora insatser under Krimkriget.
Bildkälla: latimesblogs.latimes.com
Visualisering av data: Nightingale en pionjär.
Bildkälla: web.utk.edu
Visualisering av data: Nightingale en pionjär.
Behov att beskriva datamaterial
Lägesmått. Hur preciserar vi ”medelvärdet” i en datamängd?
Spridningsmått. Hur stor är spridningen kring medelvärdet?
Beroendemått. Om flera storheter studeras, vilka varierar
slumpmässigt, vad kan sägs om deras samvariation?
Statistiska mått
Lägesmått.
Aritmetiskt medelvärde:
x̄ =
1
(x1 + · · · + xn )
n
Andra lägesmått: median, typvärde.
Spridningsmått.
Standardavvikelse:
v
u
n
u 1 X
(xi − x̄)2
s=t
n−1
i=1
Andra spridningsmått: varians (s 2 ), variationsbredd
Standardavvikelsen . . .
v
u
n
u 1 X
t
(xi − x̄)2
s=
n−1
i=1
Lägg märke till att standardavvikelsen . . .
I
alltid är ickenegativ
I
är relaterad till aritmetiska medelvärdet som en kvadratisk
avvikelse
I
har samma enhet som de betraktade observationerna
AKTIVERING!
Man har följande observationer:
Bildkälla: sodahead.com
−3,
0,
3
Beräkna varians och standardavvikelse.
Diverse mått
Median. Den observation som är belägen mitt i uppsättningen av
data efter att värdena ordnats i storleksordning.
Typvärde. Det värde som förekommer flest gånger i
datauppsättningen.
Kvartil. Medianen i den undre halvan av de ordnade
observationerna.
Variationsbredd. Skillnaden mellan det största och minsta värdet.
Variationskoefficient. Kvoten mellan standardavvikelse och
medelvärde, s/x̄.
Samvariation
Givet: talpar (x1 , y1 ), . . . , (xn , yn ).
Korrelationskoefficient:
Pn
− x̄)(yi − ȳ )
pPn
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ )
r = pPn
i=1 (xi
Det gäller att −1 ≤ r ≤ 1.
Höga, positiva värden: stark positiv korrelation.
Höga, negativa värden: stark negativ korrelation.
Värden kring noll: okorrelerade storheter.
Spridningsdiagram
Spridningsdiagram (sambandsdiagram, scatter plot).
3000
2000
1000
Vikt (g)
4000
5000
Längd (cm) och vikt (g) hos 747 nyfödda barn i Malmö.
35
40
45
Längd (cm)
50
55
AKTIVERING!
Datamaterial med 25 observationer. Vilken är
korrelationen? Alternativ:
0.99,
−0.03,
0.03,
−0.75,
10
12
−0.99,
0
2
4
y
6
8
Bildkälla: sodahead.com
0
2
4
6
8
0.75
Histogram
Histogram: datamaterialet indelas i klasser.
150
100
50
0
Frekvens
200
250
300
Data: vikt (g) hos nyfödda barn i Malmö.
0
1000
2000
3000
Vikt (g)
4000
5000
6000
Lådagram
190
180
170
160
Längd (cm)
200
Lådagram (boxplot) över 12 personers kroppslängder (cm)
Vilken är variationsbredden?
Vilket är medianvärdet?
15
10
5
Bildkälla: sodahead.com
20
25
30
AKTIVERING!
Temperaturdata: Uppsala
−15
−20
−25
−30
−35
−40
Minimum daily temperature (C)
Årets kallaste dag i Uppsala: 1840-2001, presenterat som tidsserie.
1850
1900
1950
Year
2000
Temperaturdata: Uppsala
40
20
0
Frequency
60
80
Årets kallaste dag i Uppsala: 1840-2001, presenterat som
histogram.
−40
−35
−30
−25
−20
Min. daily temp (C)
−15
−10