Föreläsning 3. Sannolikhetsfördelningar

Föreläsning 3. Sannolikhetsfördelningar
Jesper Rydén
Matematiska institutionen, Uppsala universitet
[email protected]
1MS008, 1MS777 • vt 2016
Slumpvariabel?
Resultatet av ett slumpmässigt försök utgörs av ett enda tal.
Definition. En slumpvariabel är en funktion definierad på ett
utfallsrum.
Alltså: till varje utfall relateras ett tal. Till varje utfall finns ordnat
en sannolikhet (som tidigare).
Slumpvariabler betecknas vanligen med versaler i slutet av
alfabetet: X , Y , S, T , U etc.
Två typer av slumpvariabler
DISKRET. Lämplig modell för slumpförsök av typen ”hur
många. . . ”.
Viktiga exempel: Binomial, Poisson.
KONTINUERLIG. Lämplig modell för slumpmässiga fenomen
som anses variera kontinuerligt (längd, tid, kraft. . . ).
Viktiga exempel: normalfördelning, exponentialfördelning.
Exempel på användning
DISKRET fördelning.
Inför en slumpvariabel
X = ”Antalet studenter som klarar en viss tenta”.
Av intresse att beräkna, exempelvis P(Y ≥ 50), P(Y = 63).
KONTINUERLIG fördelning.
Inför en slumpvariabel
Y = ”Kraften som krävs för att knäcka ett objekt”.
Av intresse att beräkna, t.ex. P(Y > 10), P(2.5 < Y < 5).
Vitalt att känna till för att kunna beräkna sannolikheterna ovan:
Hur tilldelas sannolikheter, med andra ord, vilken är fördelningen
av sannolikheter, eller sannolikhetsfördelningen i en situation?
Diskreta slumpvariabler
Diskret fördelning: exempel
Situation. Vid en industri tillverkas varje dag 3 motorer, färdiga
för leverans. Innan leverans sker kontroll, och om fel hittas går
enheten tillbaka för justering.
Slumpvariabel. Av intresse för kvalitet: antalet felaktiga motorer.
Vi inför
X = ”Antalet felaktiga motorer vid en veckas produktion”.
Möjliga värden på X , dvs. utfallsrummet:
S = {0,
1,
2,
3}.
Fördelning. Från tidigare analyser vet man att P(X = 0) = 0.65,
P(X = 1) = 0.20, P(X = 2) = 0.10, P(X = 3) = 0.05.
Sannolikhetsfördelningen
Sannolikhetsfördelningen ges alltså av sannolikhetsfunktionen p(x)
enligt

0.65,



0.20,
p(x) = P(X = x) =
0.10,



0.05,
Detta kan även visualiseras. Notera att
x
x
x
x
= 0,
= 1,
= 2,
= 3.
x
p(x) = 1.
P
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
Beräkning av sannolikheter
Med hjälp av sannolikhetsfunktionen kan sannolikheter av intresse
beräknas, exempelvis
(a) Sannolikheten för exakt två felaktiga, P(X = 2).
(b) Sannolikheten för minst två felaktiga, P(X ≥ 2).
(c) Sannolikheten för minst en felaktig, P(X ≥ 1).
Räkningar på tavlan.
AKTIVERING!
En slumpvariabel X har fördelning enligt
sannolikhetsfunktionen nedan. Beräkna
P(3 < X ≤ 4).
0.8
1.0
P(X ≥ 3),
0.6
0.4
0.2
0.0
p(x)
Bildkälla: sodahead.com
0
1
2
3
x
4
5
Två vanliga diskreta fördelningar
Vi studerar nu närmare två vanligt förekommande diskreta
fördelningar:
Binomialfördelningen
Poissonfördelningen
Binomialsannolikheter
Bakgrund. Utför n oberoende upprepningar av ett slumpmässigt
delförsök.
Sannolikhet. Låt A vara en händelse som inträffar i delförsöket
med sannolikhet p.
Sannolikheten att A inträffar exakt x gånger (utav n):
n x
P(A) =
p (1 − p)n−x
x
där
n
n!
=
x
x!(n − x)!
och x! = x(x − 1) · · · 1.
Härledning med hjälp av kombinatorik.
Binomialfördelningen
Sannolikhetsfunktionen för en binomialfördelad slumpvariabel X
ges av
n x
p(x) = P(X = x) =
p (1 − p)n−x , x = 0, 1, 2, . . . , n
x
Beteckning:
X ∼ Bin(n, p).
Här är n och p så kallade parametrar.
Exempel.
Ex. 1. Antag att X ∼ Bin(2, 0.1). Då gäller
2
P(X = 0) = p(0) =
0.10 0.92 = 1 · 1 · 0.81 = 0.81,
0
2
P(X = 1) = p(1) =
0.11 0.91 = 2 · 0.1 · 0.9 = 0.18
1
och
P(X ≤ 1) = P(X = 0) + P(X = 1) = 0.81 + 0.18 = 0.99.
Ex. 2. En bonde sår 10 frön vilka gror oberoende av varandra.
Sannolikheten för varje enskilt frö att gro upp till en planta uppges
vara 0.95. Beräkna sannolikheten att minst nio frön gror upp.
Räkningar på tavlan.
Fyrisån svämmar över!
År 1900 innebar stora vårflöden. Figuren visar situationen vid
Skolgatan i april, 1900.
Bildkälla: www.smhi.se
AKTIVERING!
Sannolikheten för översvämning under en månad
uppges vara 0.05. Översvämningar anses vara
statistiskt oberoende, månader emellan. Vi studerar
nu slumpvariabeln
Y = ”Antalet månader med översvämning under ett år.”
Bildkälla: sodahead.com
(a) Ange fördelningen för Y .
(b) Beräkna sannolikheten för minst en
översvämning under ett år.
(c) Utifrån svenska förhållanden, är antagandet om
oberoende rimligt? Varför (inte)?
Poissonfördelningen
Sannolikhetsfunktionen för en Poissonfördelad slumpvariabel X
med parameter m > 0 ges av
p(x) = e−m
mx
,
x!
x = 0, 1, 2, . . .
Beteckning:
X ∼ Po(m)
Här finns en parameter, nämligen m.
Användningsområde: situationer där man räknar sällsynta
händelser.
Små talens lag
Det finns ett samband mellan binomial- och Poissonfördelningen,
giltigt under premisserna nedan.
Antag att ett försök utförs n oberoende gånger.
Sannolikheten p att lyckas i varje försök är liten.
Antalet lyckade försök X , fördelning:
X ∼ Bin(n, p).
Approximativt:
X ∼ Po(n · p)
Rimlig approximation (tumregel): p < 0.1, n > 10
Exempel
Antalet värmeböljor i Uppsala under ett år anses följa en
Poissonfördelning med parameter m = 1.2.
Beräkna sannolikheten att det under ett år inträffar minst 2
värmeböljor.
Bildkälla: nyttigt.eu
Kommentar
I en forskningsrapport registrerades antalet årliga värmeböljor
under perioden 1840-2012. Fördelningen, baserat på data över
heltalen 0, 1, . . . , 5, kan ses i stolpdiagrammet till vänster.
Kontinuerliga slumpvariabler
Kontinuerliga slumpvariabler
Sannolikheter fördelas på ett intervall I med gränser n och u som
kan vara oändliga.
Viktigt hjälpmedel är här täthetsfunktionen fX (x).
Sannolikheter beräknas som integraler:
Z
P(a < X ≤ b) =
b
fX (x) dx.
a
Det gäller att
Z
Z
u
fX (x) dx =
I
fX (x) dx = 1.
n
Täthetsfunktionen är alltid positiv.
Exempel
Slumpvariabeln X har täthetsfunktionen
f (x) = 4x 3 ,
0 ≤ x ≤ 1.
Beräkna
P(0.4 < X < 0.8),
P(X > 0.62).
Räkningar på tavlan.
Exempel på fördelningar
Vi studerar nu närmare några vanligt förekommande kontinuerliga
fördelningar:
Likformig fördelning
Exponentialfördelning
Normalfördelning
Likformig fördelning
Alternativt namn: rektangelfördelning.
Täthetsfunktionen ges av
fX (x) =
1
,
b−a
a ≤ x ≤ b.
Kodbeteckning: X ∼ Re(a, b), där a och b är parametrar.
AKTIVERING!
En slumpvariabel Y är fördelad enligt
Y ∼ Re(−0.5, 0.5), se täthetsfunktionen nedan.
Beräkna sannolikheten P(Y > 0).
1
0.8
Bildkälla: sodahead.com
0.6
0.4
0.2
0
−1
−0.5
0
0.5
1
Exponentialfördelningen
Täthetsfunktionen ges här av
1
fX (x) = e−x/a ,
a
x ≥ 0,
där a > 0 är en parameter.
Kodbeteckning: X ∼ Exp(a).
Exponentialfördelningar modellerar ofta väntetider (ankomster,
livslängder, regentlängder (!),. . . )
Exponentialfördelningen
Täthetsfunktioner för olika parameterval (a = 0.5, a = 1, a = 2).
2
a=0.5
a=1
a=2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
2
4
6
8
10
Exempel
Antag att väntetiden (sekunder) mellan ankommande mejl till en
server beskrivs av en exponentialfördelning med parametern
a = 10.
Detta tolkas som att i medeltal är väntetiden 10 sekunder (nästa
föreläsning).
Beräkna sannolikheten att det dröjer mellan 20 och 30 sekunder
mellan ankomster av mejl.
Bildkälla: hardwaresecrets.com
Normalfördelningen
Täthetsfunktionen ges av
1
2
2
f (x) = √ e−(x−µ) /2σ ,
σ 2π
−∞ < x < ∞
Två parametrar: µ och σ.
Kodbeteckning: X ∼ N(µ, σ 2 ).
Parametrarna µ och σ har speciella tolkningar och kallas
väntevärde resp. standardavvikelse.
Normalfördelningen: täthetsfunktioner
Tre täthetsfunktioner: N(0, 0.42 ), N(0, 1), N(0, 2.52 ).
1
σ=0.4
σ=1
σ=2.5
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−6
−4
−2
0
2
4
6
Egenskaper hos sannolikheter
Normalfördelningen har egenskapen att
.
P(µ − σ ≤ X ≤ µ + σ) = 0.6826,
.
P(µ − 2σ ≤ X ≤ µ + 2σ) = 0.9544,
.
P(µ − 3σ ≤ X ≤ µ + 3σ) = 0.9974.
Detta gäller för alla värden på µ och σ.
Beräkning av sannolikheter, integrering av tätheter som tidigare
nämnts? För normalfördelningsberäkningar används tabeller eller
dator.
Speciellt viktigt är fallet med µ = 0 och σ = 1, den s.k.
standardiserade normalfördelningen.