Föreläsning 3. Sannolikhetsfördelningar Jesper Rydén Matematiska institutionen, Uppsala universitet [email protected] 1MS008, 1MS777 • vt 2016 Slumpvariabel? Resultatet av ett slumpmässigt försök utgörs av ett enda tal. Definition. En slumpvariabel är en funktion definierad på ett utfallsrum. Alltså: till varje utfall relateras ett tal. Till varje utfall finns ordnat en sannolikhet (som tidigare). Slumpvariabler betecknas vanligen med versaler i slutet av alfabetet: X , Y , S, T , U etc. Två typer av slumpvariabler DISKRET. Lämplig modell för slumpförsök av typen ”hur många. . . ”. Viktiga exempel: Binomial, Poisson. KONTINUERLIG. Lämplig modell för slumpmässiga fenomen som anses variera kontinuerligt (längd, tid, kraft. . . ). Viktiga exempel: normalfördelning, exponentialfördelning. Exempel på användning DISKRET fördelning. Inför en slumpvariabel X = ”Antalet studenter som klarar en viss tenta”. Av intresse att beräkna, exempelvis P(Y ≥ 50), P(Y = 63). KONTINUERLIG fördelning. Inför en slumpvariabel Y = ”Kraften som krävs för att knäcka ett objekt”. Av intresse att beräkna, t.ex. P(Y > 10), P(2.5 < Y < 5). Vitalt att känna till för att kunna beräkna sannolikheterna ovan: Hur tilldelas sannolikheter, med andra ord, vilken är fördelningen av sannolikheter, eller sannolikhetsfördelningen i en situation? Diskreta slumpvariabler Diskret fördelning: exempel Situation. Vid en industri tillverkas varje dag 3 motorer, färdiga för leverans. Innan leverans sker kontroll, och om fel hittas går enheten tillbaka för justering. Slumpvariabel. Av intresse för kvalitet: antalet felaktiga motorer. Vi inför X = ”Antalet felaktiga motorer vid en veckas produktion”. Möjliga värden på X , dvs. utfallsrummet: S = {0, 1, 2, 3}. Fördelning. Från tidigare analyser vet man att P(X = 0) = 0.65, P(X = 1) = 0.20, P(X = 2) = 0.10, P(X = 3) = 0.05. Sannolikhetsfördelningen Sannolikhetsfördelningen ges alltså av sannolikhetsfunktionen p(x) enligt 0.65, 0.20, p(x) = P(X = x) = 0.10, 0.05, Detta kan även visualiseras. Notera att x x x x = 0, = 1, = 2, = 3. x p(x) = 1. P 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 Beräkning av sannolikheter Med hjälp av sannolikhetsfunktionen kan sannolikheter av intresse beräknas, exempelvis (a) Sannolikheten för exakt två felaktiga, P(X = 2). (b) Sannolikheten för minst två felaktiga, P(X ≥ 2). (c) Sannolikheten för minst en felaktig, P(X ≥ 1). Räkningar på tavlan. AKTIVERING! En slumpvariabel X har fördelning enligt sannolikhetsfunktionen nedan. Beräkna P(3 < X ≤ 4). 0.8 1.0 P(X ≥ 3), 0.6 0.4 0.2 0.0 p(x) Bildkälla: sodahead.com 0 1 2 3 x 4 5 Två vanliga diskreta fördelningar Vi studerar nu närmare två vanligt förekommande diskreta fördelningar: Binomialfördelningen Poissonfördelningen Binomialsannolikheter Bakgrund. Utför n oberoende upprepningar av ett slumpmässigt delförsök. Sannolikhet. Låt A vara en händelse som inträffar i delförsöket med sannolikhet p. Sannolikheten att A inträffar exakt x gånger (utav n): n x P(A) = p (1 − p)n−x x där n n! = x x!(n − x)! och x! = x(x − 1) · · · 1. Härledning med hjälp av kombinatorik. Binomialfördelningen Sannolikhetsfunktionen för en binomialfördelad slumpvariabel X ges av n x p(x) = P(X = x) = p (1 − p)n−x , x = 0, 1, 2, . . . , n x Beteckning: X ∼ Bin(n, p). Här är n och p så kallade parametrar. Exempel. Ex. 1. Antag att X ∼ Bin(2, 0.1). Då gäller 2 P(X = 0) = p(0) = 0.10 0.92 = 1 · 1 · 0.81 = 0.81, 0 2 P(X = 1) = p(1) = 0.11 0.91 = 2 · 0.1 · 0.9 = 0.18 1 och P(X ≤ 1) = P(X = 0) + P(X = 1) = 0.81 + 0.18 = 0.99. Ex. 2. En bonde sår 10 frön vilka gror oberoende av varandra. Sannolikheten för varje enskilt frö att gro upp till en planta uppges vara 0.95. Beräkna sannolikheten att minst nio frön gror upp. Räkningar på tavlan. Fyrisån svämmar över! År 1900 innebar stora vårflöden. Figuren visar situationen vid Skolgatan i april, 1900. Bildkälla: www.smhi.se AKTIVERING! Sannolikheten för översvämning under en månad uppges vara 0.05. Översvämningar anses vara statistiskt oberoende, månader emellan. Vi studerar nu slumpvariabeln Y = ”Antalet månader med översvämning under ett år.” Bildkälla: sodahead.com (a) Ange fördelningen för Y . (b) Beräkna sannolikheten för minst en översvämning under ett år. (c) Utifrån svenska förhållanden, är antagandet om oberoende rimligt? Varför (inte)? Poissonfördelningen Sannolikhetsfunktionen för en Poissonfördelad slumpvariabel X med parameter m > 0 ges av p(x) = e−m mx , x! x = 0, 1, 2, . . . Beteckning: X ∼ Po(m) Här finns en parameter, nämligen m. Användningsområde: situationer där man räknar sällsynta händelser. Små talens lag Det finns ett samband mellan binomial- och Poissonfördelningen, giltigt under premisserna nedan. Antag att ett försök utförs n oberoende gånger. Sannolikheten p att lyckas i varje försök är liten. Antalet lyckade försök X , fördelning: X ∼ Bin(n, p). Approximativt: X ∼ Po(n · p) Rimlig approximation (tumregel): p < 0.1, n > 10 Exempel Antalet värmeböljor i Uppsala under ett år anses följa en Poissonfördelning med parameter m = 1.2. Beräkna sannolikheten att det under ett år inträffar minst 2 värmeböljor. Bildkälla: nyttigt.eu Kommentar I en forskningsrapport registrerades antalet årliga värmeböljor under perioden 1840-2012. Fördelningen, baserat på data över heltalen 0, 1, . . . , 5, kan ses i stolpdiagrammet till vänster. Kontinuerliga slumpvariabler Kontinuerliga slumpvariabler Sannolikheter fördelas på ett intervall I med gränser n och u som kan vara oändliga. Viktigt hjälpmedel är här täthetsfunktionen fX (x). Sannolikheter beräknas som integraler: Z P(a < X ≤ b) = b fX (x) dx. a Det gäller att Z Z u fX (x) dx = I fX (x) dx = 1. n Täthetsfunktionen är alltid positiv. Exempel Slumpvariabeln X har täthetsfunktionen f (x) = 4x 3 , 0 ≤ x ≤ 1. Beräkna P(0.4 < X < 0.8), P(X > 0.62). Räkningar på tavlan. Exempel på fördelningar Vi studerar nu närmare några vanligt förekommande kontinuerliga fördelningar: Likformig fördelning Exponentialfördelning Normalfördelning Likformig fördelning Alternativt namn: rektangelfördelning. Täthetsfunktionen ges av fX (x) = 1 , b−a a ≤ x ≤ b. Kodbeteckning: X ∼ Re(a, b), där a och b är parametrar. AKTIVERING! En slumpvariabel Y är fördelad enligt Y ∼ Re(−0.5, 0.5), se täthetsfunktionen nedan. Beräkna sannolikheten P(Y > 0). 1 0.8 Bildkälla: sodahead.com 0.6 0.4 0.2 0 −1 −0.5 0 0.5 1 Exponentialfördelningen Täthetsfunktionen ges här av 1 fX (x) = e−x/a , a x ≥ 0, där a > 0 är en parameter. Kodbeteckning: X ∼ Exp(a). Exponentialfördelningar modellerar ofta väntetider (ankomster, livslängder, regentlängder (!),. . . ) Exponentialfördelningen Täthetsfunktioner för olika parameterval (a = 0.5, a = 1, a = 2). 2 a=0.5 a=1 a=2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 10 Exempel Antag att väntetiden (sekunder) mellan ankommande mejl till en server beskrivs av en exponentialfördelning med parametern a = 10. Detta tolkas som att i medeltal är väntetiden 10 sekunder (nästa föreläsning). Beräkna sannolikheten att det dröjer mellan 20 och 30 sekunder mellan ankomster av mejl. Bildkälla: hardwaresecrets.com Normalfördelningen Täthetsfunktionen ges av 1 2 2 f (x) = √ e−(x−µ) /2σ , σ 2π −∞ < x < ∞ Två parametrar: µ och σ. Kodbeteckning: X ∼ N(µ, σ 2 ). Parametrarna µ och σ har speciella tolkningar och kallas väntevärde resp. standardavvikelse. Normalfördelningen: täthetsfunktioner Tre täthetsfunktioner: N(0, 0.42 ), N(0, 1), N(0, 2.52 ). 1 σ=0.4 σ=1 σ=2.5 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −6 −4 −2 0 2 4 6 Egenskaper hos sannolikheter Normalfördelningen har egenskapen att . P(µ − σ ≤ X ≤ µ + σ) = 0.6826, . P(µ − 2σ ≤ X ≤ µ + 2σ) = 0.9544, . P(µ − 3σ ≤ X ≤ µ + 3σ) = 0.9974. Detta gäller för alla värden på µ och σ. Beräkning av sannolikheter, integrering av tätheter som tidigare nämnts? För normalfördelningsberäkningar används tabeller eller dator. Speciellt viktigt är fallet med µ = 0 och σ = 1, den s.k. standardiserade normalfördelningen.