Föreläsning 1. Introduktion, beskrivande statistik Jesper Rydén Matematiska institutionen, Uppsala universitet [email protected] 1MS008, 1MS777 • vt 2016 Var finns slumpen? Slumpmässig variation? I Spel och dobbel: tärningar, kortlekar, rouletter . . . I Naturen i sig själv I System av människohand: tekniska system Denna kurs: Matematiska modeller för slumpmässig variation. Bildkällor: tarningsspel.nu, jarnia.se, gassco.no Exempel: Tider mellan fel Tider mellan fel hos luftkonditioneringen hos flygplan av typen Boeing 720. Sorterade observationer (timmar): 3 44 5 46 5 50 13 72 14 79 15 88 22 97 22 102 23 139 30 188 36 197 39 210 Bildkälla: simviation.com Exempel, forts. Observationerna ritade längs en axel. Spridning hos detta datamaterial? ”Vanliga” värden? Skevhet? 0 50 100 150 Tid mellan fel (h) 200 250 Exempel: Borrkronors brottseghet Ett svenskt företag utvecklar stift av hårdmetall för borrkronor. √ Laboratorieförsök: undersökning av brottseghet (MPa m) hos två material, A och B. Bildkälla: atlascopco.se Exempel, forts. För vardera materialet, 10 mätvärden. Är brottsegheten hos material B (kryss) högre än för material A (ringar)? 9.5 10.0 10.5 Brottseghet (MPa sqrt(m)) 11.0 11.5 Exempel: Mätbojar till havs Vid avancerade mätbojar till havs mäts fysikaliska storheter: temperatur, vindriktning, vindhastighet, våghöjd. Mätbojen NDBC 46001, se bild, finns i Stilla havet. Vi studerar här signifikant våghöjd (m), medelvärdet av den högsta tredjedelen vågor. Bildkälla: ndbc.noaa.gov Exempel, forts. Mätningar över fem års tid. Exempel på en tidsserie. Notera: säsongsvariation, saknade data. 12 Signifikant våghöjd (m) 10 8 6 4 2 0 1983 1984 1985 1986 Tidpunkt 1987 1988 Sammanfattning: syfte med stokastisk modellering Sett ur ingenjörssynvinkel: Beskrivning. Matematik: realistiska beskrivningar av förlopp. Ny kunskap om process eller fenomen. Jämförelse. Jämför egenskaper hos två produkter, behandlingar, system. Prediktion. Förutsäg framtida värden och (inte minst) dess osäkerhet. Dimensionering. Belastning och styrka (materialegenskaper) kan variera. Konstruera tillräckligt säkert. Kvalitet. Kan ett varuparti vid produktion accepteras? Mät variabler av intresse i processen. Data och dess ursprung Beskrivande statistik: Sammanfatta data. Några begrepp: I Enheter i en population. I Kvalitativa och kvantitativa variabler. Datainsamlingens karaktär: I Experimentsituation? I Insamling över tid? Observationer och variabler Kvantitativa. Numeriska observationer. Mätbara, uttryckt i någon form av mått. Observationer kan jämföras med varandra. Kvalitativa. I stället för siffror används ord eller annan ickenumerisk beskrivning. Kan i vissa fall omvandlas till kvantitativ analys. Visualisering av data: Nightingale en pionjär. Florence Nightingale (1820-1910), en pionjär på många sätt. Stora insatser under Krimkriget. Bildkälla: latimesblogs.latimes.com Visualisering av data: Nightingale en pionjär. Bildkälla: web.utk.edu Visualisering av data: Nightingale en pionjär. Behov att beskriva datamaterial Lägesmått. Hur preciserar vi ”medelvärdet” i en datamängd? Spridningsmått. Hur stor är spridningen kring medelvärdet? Beroendemått. Om flera storheter studeras, vilka varierar slumpmässigt, vad kan sägs om deras samvariation? Statistiska mått Lägesmått. Aritmetiskt medelvärde: x̄ = 1 (x1 + · · · + xn ) n Andra lägesmått: median, typvärde. Spridningsmått. Standardavvikelse: v u n u 1 X (xi − x̄)2 s=t n−1 i=1 Andra spridningsmått: varians (s 2 ), variationsbredd Standardavvikelsen . . . v u n u 1 X t (xi − x̄)2 s= n−1 i=1 Lägg märke till att standardavvikelsen . . . I alltid är ickenegativ I är relaterad till aritmetiska medelvärdet som en kvadratisk avvikelse I har samma enhet som de betraktade observationerna AKTIVERING! Man har följande observationer: Bildkälla: sodahead.com −3, 0, 3 Beräkna varians och standardavvikelse. Diverse mått Median. Den observation som är belägen mitt i uppsättningen av data efter att värdena ordnats i storleksordning. Typvärde. Det värde som förekommer flest gånger i datauppsättningen. Kvartil. Medianen i den undre halvan av de ordnade observationerna. Variationsbredd. Skillnaden mellan det största och minsta värdet. Variationskoefficient. Kvoten mellan standardavvikelse och medelvärde, s/x̄. Samvariation Givet: talpar (x1 , y1 ), . . . , (xn , yn ). Korrelationskoefficient: Pn − x̄)(yi − ȳ ) pPn 2 2 i=1 (xi − x̄) i=1 (yi − ȳ ) r = pPn i=1 (xi Det gäller att −1 ≤ r ≤ 1. Höga, positiva värden: stark positiv korrelation. Höga, negativa värden: stark negativ korrelation. Värden kring noll: okorrelerade storheter. Spridningsdiagram Spridningsdiagram (sambandsdiagram, scatter plot). 3000 2000 1000 Vikt (g) 4000 5000 Längd (cm) och vikt (g) hos 747 nyfödda barn i Malmö. 35 40 45 Längd (cm) 50 55 AKTIVERING! Datamaterial med 25 observationer. Vilken är korrelationen? Alternativ: 0.99, −0.03, 0.03, −0.75, 10 12 −0.99, 0 2 4 y 6 8 Bildkälla: sodahead.com 0 2 4 6 8 0.75 Histogram Histogram: datamaterialet indelas i klasser. 150 100 50 0 Frekvens 200 250 300 Data: vikt (g) hos nyfödda barn i Malmö. 0 1000 2000 3000 Vikt (g) 4000 5000 6000 Lådagram 190 180 170 160 Längd (cm) 200 Lådagram (boxplot) över 12 personers kroppslängder (cm) Vilken är variationsbredden? Vilket är medianvärdet? 15 10 5 Bildkälla: sodahead.com 20 25 30 AKTIVERING! Temperaturdata: Uppsala −15 −20 −25 −30 −35 −40 Minimum daily temperature (C) Årets kallaste dag i Uppsala: 1840-2001, presenterat som tidsserie. 1850 1900 1950 Year 2000 Temperaturdata: Uppsala 40 20 0 Frequency 60 80 Årets kallaste dag i Uppsala: 1840-2001, presenterat som histogram. −40 −35 −30 −25 −20 Min. daily temp (C) −15 −10