Differentiera eller derivera

Differentiera eller derivera - det är frågan!
Anders Källén
September 27, 2013
1
Introduktion
Differentialen av en funktion diskuteras vanligtvis bara ytligt i kurser i endimensionell analys. Motiveringen är (troligen) att skillnaden mellan differential och derivata är så liten, och eftersom differentialen
“är mer komplicerad” (en funktion av två variabler) är det bättre att koncentrera sig på derivatan. Jag
vill argumentera för att detta förhållningssätt är kortsiktigt och dumt. Det är sant att differentialen
är umbärlig i envariabelanalys, men den är oumbärlig i flerdimensionell analys, och jag tror att rätt
framställd förstår man den flerdimensionella analysen bättre om man tidigt vänjer sig vid differentialer,
och tänker på dem på ett för tillämpningarna lämpligt sätt.
I en-variabel analysen är skillnaden mellan differentialen och derivatan densamma som skillnaden mellan
ekvationen för en linje genom origo och dess beskrivning genom dess riktningskoefficient. I två-variabel
analysen är det skillnaden mellan ekvationen för ett tangentplan (genom origo) och dess beskrivning i
form av riktningsvektorer, alltså planet givet på parameterform. Här ser man tydligt skillnaden mellan
en- och två-variabelanalysen: i en-variabelanalysen finns bara en riktningskoefficient, men för ett plan i
rummet finns många olika riktningar. Generellt sett har båda framställningarna sin plats, men det är
inte självklart att parameterformen är det naturliga startskottet – eftersom det är så lite unikt.
2
Derivata contra differential
Betrakta en funktion f (x) av en variabel x och rita ut dess graf
y = f (x) i en omgivning av en punkt. Vi ska då titta närmare
på hur funktionen ser ut i en liten omgivning av punkten, och vi
gör det genom att titta på området i dess omedelbara närhet i
större och större förstoring (som genom ett mikroskop). Hur det
kan se ut illustreras i animationen till höger. Vi ser där på lite
längre håll (lägre förstoring) ser kurvan ganska “krånglig” ut, men
ju mer vi ökar förstoringen, desto mer liknar den en rät linje. Som
vi snart ska se gäller detta för alla våra vanliga funktioner, och i
många sammanhang är det nästan ett krav på användbarheten av
en funktion att den är sådan. Vi inför därför ett speciellt namn
på fenomenet att grafen till funktionen i närheten av en punkt i
tilltagande förstoring mer och mer antar formen av en rät linje.
Vi säger att funktionen är differentierbar i punkten. Men för att
göra detta mer formellt, behöver vi vara lite mer specifika.
Lägg märke till att vi i animationen inte hade lagt in något koordinatsystem, utan bara ritat kurvan.
För att analysera vad vi ser matematiskt är det nämligen bekvämt att lägga sitt koordinatsystem så
att punkten ligger i origo (och därmed speciellt att f (0) = 0). Eftersom vi inte gjort några direkta
antaganden om funktionen än så länge borde detta inte vara en inskränkning, och vi ska se att analysen
1
kring en allmän punkt följer direkt ur detta. Den räta linjen som vi närmar oss i mikroskopet kommer
då att ha formen y = kx eftersom den går genom origo. Skriv nu
f (x) = k(x)x.
Egentligen betyder detta bara att vi skrivit k(x) = f (x)/x.
Geometriskt ser vi att den räta linje som går genom (0, 0) och
(h, f (h)) har riktningskoefficient k(h). Vi kan nu matematiskt
beskriva fenomenet vi ser i mikroskopet som att k(h) → k då
h → 0. Funktionen g(x) = kx som ger upphov till den räta
linjen kallas för differentialen av funktionen f i punkten 0. Vi
ska snart ge den en speciellt beteckning. Låt oss bara först konstatera att dess riktningskoefficient k är lika med gränsvärdet
y
(h, f (h))
y = k(h)x
y = kx
f (h)
,
f (0) = lim
h→0 h
0
x
som kallas derivatan av funktionen f i punkten 0. Notera också
att grafen för differentialen av f i punkten 0 är det vi kallar
tangenten till grafen y = f (x) i origo.
Exempel 1 För att illustrera vad vi gjort i ett enkelt exempel, betrakta funktionen sin x i en omgivning
av origo. Vad vi ska göra enligt ovan är att “bryta ut” x ur denna, vilket innebär att vi skriver
sin x =
sin x
x.
x
Uttrycket framför x är k(x), alltså k(x) = (sin x)/x. Vi vill se att denna är kontinuerlig i x = 0 vilket är
detsamma som att visa att gränsvärdet limx→0 (sin x)/x finns. Vi vet att det är så, och att gränsvärdet
är 1. Eftersom gränsvärdet finns drar vi slutsatsen att sin x är differentierbar i origo, och eftersom
gränsvärdet är ett drar vi slutsatsen att derivatan i origo är 1.
Anmärkning 1 Låt oss också titta närmare på “förstoringsprocessen” som beskrevs ovan. Om vi tittar
på kurvan y = f (x) då −1 ≤ x ≤ 1 i lägsta förstoring, så tittar vi på kurvan y = bf (x/b), −1 ≤ x ≤ 1
när vi tittar i förstoring en faktor b. Om vi skriver h = 1/b så kan vi skriva om detta som y = f (hx)
hx x
och om b → ∞, alltså h → 0, så övergår denna funktion i den räta linjen y = f 0 (0)x.
Anmärkning 2 För att förstå hur en funktion som inte är deriverbar någonstans kan se ut kan vi använda följande exempel
från Weierstrass. Det är funktionen
f (x) =
∞
X
ai sin(bi x)
i=1
där konstanterna a, b är sådana att ab > 1 + 3π/2. Att rita en
sådan är i princip omöjligt, animationen till höger är ett försök.
Men den kan ju bara göras med ändligt många termer. Vi ser
hur, när vi zoomar in, svängningarna blir kraftigare, och eftersom
den oändliga summan innehåller “oändligt” snabba svängningar
blir det omöjligt att rita den riktiga grafen. Men att rita en
tangent i en utmärkta punkten går uppenbarligen inte. (Punkten
är godtyckligt vald.)
2
För att analysera vad som händer när vi zoomar in i en annan punkt (a, f (a)) på kurvan (vi antar nu inte
längre att f (0) = 0) kan vi återföra det på vad vi redan gjort genom att lägga ett nytt origo i punkten
(a, f (a)). Vi inför alltså nya koordinataxlar dx, dy genom dx = x − a och dy = y − f (a). Den räta linjen
vi ser i mikroskopet kommer då att ha formen dy = k(a)dx (linjen kommer att bero på vilken punkt a
vi väljer, så vi vill ha med det i beteckningen), alltså y − f (a) = k(a)(x − a) eller y = f (a) + k(a)(x − a).
Vilken form vi nu föredrar. Att kalla koordinaterna i det nya koordinatsystemet dx och dy kommer snart
att visa sig vettigt, då dessa uttryck får mer betydelse än de har just nu. Just nu är de bara koordinater.
Anmärkning 3 Notera att k(a) här inte betyder samma sak som i föregående paragraf. Där var den
riktningskoefficienten för en korda mellan origo och punkten (a, f (a)) på grafen, här är den riktningskoefficenten för tangenten till grafen i punkten (a, f (a)). Det vi tidigare kallade k(h) kommer nu att betecknas
k(a, h). Lite förvirrande beteckningar, men alternativet är inte bättre.
Förändringen i f när vi gör en ändring i h kan vi nu skriva
∆f (a)[h] = f (a + h) − f (a).
Det är en lite komplicerad beteckning, men vi behöver argumentet a för att tala om att det är i punkten
a vi beräknar differentialen, och vi behöver argumentet h för att tala om att det är en funktion av h1 .
Komplikationen med två variabler är en övergående huvudvärk – så ha lite tålamod. Liksom vi gjorde
ovan skriver vi nu
∆f (a)[h] = k(a, h)h.
Vi säger nu att f är differentierbar i punkten a om riktningskoefficienten k(a, h) → k(a) då h → 0. Detta
kan vi också uttrycka som att funktionen k(a, h) som funktion av a (fixt a) är kontinuerlig i h = 0.
Definition 1 En funktion f som är definierad i en omgivning till en punkt a sägs vara differentierbar i
a om vi kan skriva
f (a + h) − f (a) = k(a, h)h
där funktionen h → k(a, h) (för fixt a) är kontinuerlig i h = 0. Värdet k(a, 0) betecknas f 0 (a) och kallas
derivatan av f i punkten a. Funktionen
df (a)[h] = f 0 (a)h
(som är en funktion av h) kallas differentialen till funktionen f i punkten a.
Exempel 2 Vi ska nu räkna igenom det vi gjort ovan i ett enkelt exempel, bara för att illustrera
räkningarna med ett konkret fall. Tag funktionen f (x) = x2 . Om a är en godtycklig punkt har vi då att
f (a + h) − f (a) = (a + h)2 − a2 = 2ah + h2 = (2a + h)h.
Här är alltså k(a, h) = 2a + h kontinuerlig i h = 0 med värdet k(a, 0) = 2a. Det följer att df (a)[h] = 2ah
och alltså att f 0 (a) = 2a..
Följande sats är nu en enkel observation
Sats 1 Att en funktion f av en variabel är differentierbar i en punkt a är ekvivalent med att gränsvärdet
f (a + h) − f (a)
h→0
h
f 0 (a) = lim
existerar.
1 Vi
kunde här ha kallat h för dx, vilket vi snart kommer att göra via en liten omväg där vi också kommer att ge dx en
mening som differentialen av x.
3
Bevis. Vi behöver bara notera att
k(a, h) =
f (a + h) − f (a)
,
h
så följer satsen direkt.
Vi ser alltså att för funktionen f (x) = x2 har vi derivatan f 0 (a) = 2a i punkten x = a. Detta skriver vi
kortare som att f 0 (x) = 2x och betyder att funktionen f 0 som är derivatan av funktionen f har värdet
f 0 (x) = 2x i punkten x.
Anmärkning 4 Att en funktion som är differentierbar i en punkt också är kontinuerlig där är självklart
från definitionen. Varför?
Vi ska nu göra en observation som överför beteckningen för en differential i en speciell form. Funktionen
x har derivatan 1 överallt, vilket betyder att dx(a) är oberonde av a och om vi därför utelämnar den från
beteckningen, så ser vi att dx[h] = h. Differentialen för en allmän funktion f av en variabel x i en punkt
a kan därför skrivas df (a)[h] = f 0 (a)dx[h]. Om vi utelämnar h får vi den mer kompakta beteckningen
df (a) = f 0 (a)dx. Liksom för derivatan skriver man gärna df (x) = f 0 (x)dx, men här gäller det att komma
ihåg att df (x) är en funktion av en annan variabel, h, och beräknas genom df (x)[h] = f 0 (x)h. Det kan
verka komplicerat, men är egentligen helt naturligt.
Exempel 3 Hur mycket ändras f (x) = x2 om vi ökar x från 2 till 2.01? Approximativt ges detta av
df (2)[0.01] = f 0 (2) · 0.01 = 0.04. På samma sätt, om vi minskar x från 2 till 1.99 så ges ändringen
approximativt av df (2)[−0.01] = −0.04. I det här fallet är det naturligtvis enkelt att räkna ut den
exakta förändringen – men det är för att vi valt en extremt enkel illustration.
När man tänker på relationen df (x) = f 0 (x)dx, så ska man tänka på den som att en liten ändring dx
av värdet x leder till ändringen df (x) i x. Strikt matematiskt är detta inte korrekt, eftersom likhet bara
gäller när dx = 0, och då står där bara 0 = 0. Men det är ändå så man ska tänka, och om man behöver
matematisk stringens så kan man använda sig av följande sats.
Sats 2 (Medelvärdessatsen) Låt I = [a, b] vara ett slutet intervall och f en funktion som är kontinuerlig
på I. Antag dessutom att den är deriverbar i det öppna intervallet ]a, b[. Då finns ett ξ ∈]a, b[ sådant att
∆f = f 0 (ξ)∆x,
där ∆f = f (b) − f (a), ∆x = b − a.
Som avslutning kan vi notera att inbakat i diskussionen ovan ligger att ekvationen för tangenten till
grafen y = f (x) i punkten (a, f (a)) ges av ekvationen y − f (a) = f 0 (a)(x − a), en ekvation vi också skulle
kunna skriva y − f (a) = df (a)[x − a] om vi vill (men det gör vi sällan, men vi ska komma ihåg skrivsättet
när vi börjar arbeta med funktioner av flera variabler). Detta är lätt att komma ihåg: dy = f 0 (a)dx och
dy = y − f (a), dx = x − a.
Anmärkning 5 Att hitta kontinuerliga funktioner som inte är differentierabara i en viss punkt är enkelt.
Man kan utgå ifrån f (x) = |x| som inte är differentierbar i origo (kontrollera). Men finns det funktioner
som är kontinuerliga men inte differentierbara någonstans? Svaret är ja, och uppenbarligen är dessa
funktioner väldigt “hackiga” i alla punkter. Vi tittar inte närmare på detta här.
3
Grundläggande räkneregler
Vi ska nu titta på de grundläggande räknereglerna för differentialen, och därmed motsvarande för derivator. De är alla direkta konsekvenser av motsvarande räkneregler för kontinuerliga funktioner. I bevisen
handlar det helt och hållet om att “bryta ut h” och konstatera att faktorn som står framför måste vara
en kontinuerlig funktion.
4
Sats 3 För differentialen har vi följande formler
(i) d(f + g) = df + dg,
(ii) d(f g) = f dg + gdf .
Här antas funktionerna vara differentierbara i en punkt och då gäller att även summan och produkten av
dem är differentierbara i den punkten och formlerna ovan gäller.
Bevis. Vi lämnar (i) som övning och gör (ii). Fixera en punkt a och skriv f (a + h) − f (a) = k1 (a, h)h
och g(a + h) − g(a) = k2 (a, h)h. Då har vi
(f g)(a + h) − (f g)(a) = f (a + h)g(a + h) − f (a)g(a) =
f (a + h)(g(a + h) − g(a)) + g(a)(f (a + h) − f (a)) = (f (a + h)k2 (a, h) + g(a)k1 (a, h))h.
Men k(a, h) = f (a + h)k2 (a, h) + g(a)k1 (a, h) är enligt antagandena en kontinuerlig funktion i h = 0 med
värdet f (a)g 0 (a) + g(a)f 0 (a) där. Detta betyder att produkten f g är differentierbar i a med differentialen
d(f g)(a)[h] = (f (a)g 0 (a) + g(a)f 0 (a))h = f (a)dg(a)[h] + g(a)df (a)[h].
Detta är precis vad vi skulle visa.
Naturligtvis följer ur detta räknereglerna
(i) (f + g)0 (x) = f 0 (x) + g 0 (x),
(ii) (f g)0 (x) = f (x)g 0 (x) + g(x)f 0 (x).
för derivatan. (Liksom räknereglerna för differentialen följer ur dessa räkneregler för derivatan.)
Exempel 4 Som illustration beräknar vi differentialen av ex sin x:
d(ex sin x) = ex d sin x + sin x dex = ex cos x dx + sin x ex dx = ex (cos x + sin x)dx,
vilket betyder att
(ex sin x)0 = ex (cos x + sin x).
Exempel 5 Sidorna på en rektangel har längderna x respektive y. Antag att dessa ändras med tiden
så att x ökar med 1 mm/s och y med 2 mm/s. Hur snabbt ändrar sig rektangelns area?
Det omedelbara sättet att lösa denna uppgift är att införa en tid t och notera att x = a + t, y = b + 2t.
Arean är då (a + t)(b + 2t) = ab + (2a + b)t + 2t2 och hastigheten för arean blir 2a + b + 4t = 2a + b då
t = 0.
Samma resonemang blir naturligare om vi arbetar med differentialer. Arean är xy och vi har
d(xy) = xdy + ydx.
Sedan noterar vi att vi vet att dx = dt och dy = 2dt. Stoppar vi in det får vi att
d(xy) = x 2dt + ydt = (2x + y)dt.
Detta betyder att ändringen per tidsenhet i arean är 2x + y vid det tillfälle då sidorna är x och y.
Sats 4 (Kedjeregeln) Om g är differentierbar i a och f i punkten g(a), så är differentialen i punkten a
av den sammansatta funktione h(x) = f (g(x)) lika med
dh(a) = f 0 (g(a))dg(a) = f 0 (g(a))g 0 (a)dx.
Frågan är om denna sats behöver ett bevis. Den första likheten i satsen säger nämligen att dh = f 0 (g)dg
och innebär precis att df (g) = f 0 (g)dg, vilket är vad differentialen av f är. Sedan fortsätter vi bara
att skriva ut vad differentialen av g är. Det som är oklart är om vi har bevisat att den sammansatta
funktionen verkligen är differentierbar. Så därför gör vi ett formellt bevis.
5
Bevis. Tag k1 , k2 som i föregående sats. Då gäller at
f (g(a + h)) − f (g(a)) = f (g(a) + k2 (a, h)h) − f (g(a)) = k1 (g(a), k2 (a, h)h)k2 (a, h)h.
(Det tar en stund att identifiera vad här står!) Men k(a, h) = k1 (g(a), k2 (a, h)h)k2 (a, h) är enligt antagandena en kontinuerlig funktion i h = 0 med värdet k1 (g(a), 0)k2 (a, 0) = f 0 (g(a))g 0 (a)där. Det visar
att den sammansatta funktionen är differentierbar, samt anger funktionens derivata/differential.
Exempel 6 När vi använder kedjeregeln för att beräkna differentialen av en sammansatt funktion är
det bra att inte fixera sig på vad som är en funktion och vad som är en variabel. Betrakta följande
räkning, där vi infört variabeln y = x2 i några mellanled:
d(cos x2 ) = d cos y = − sin y dy = − sin x2 d(x2 ) = − sin x2 2xdx = −2x sin x dx.
Räkningen illustrerar att när vi använder kedjeregeln så ser vi funktioner som variabler och jobbar
rekursivt.
Exempel 7 Betrakta funktionen f (x, y) = (x2 + 3y 2 )e−(x
Följande räkning möter inget hinder:
df (x, y) = d(x2 +3y 2 ))e−(x
2
+y 2 )
+(x2 +3y 2 )d(e−(x
2
+y 2 )
2
+y 2 )
som är en funktion av två variabler.
) = (2xdx+6ydy−(x2 +3y 2 )(2xdx+2ydy)e−(x
2
+y 2 )
,
vilket vi kan sammanfatta som
2
df (x, y) = 2x(1 − (x2 + 3y 2 ))e−(x
+y 2 )
dx + 2y(3 − (x2 + 3y 2 ))e−(x
2
+y 2 )
dy.
Frågan är vad detta betyder. Vad det borde betyda är att om vi gör en liten ändring dx i x och en liten
ändring dy i y, så får vi ändringen df i f . Vilket är precis vad det betyder. Teorin för detta skjuter vi
på, men själva räknandet finns det inget hinder för. Har vi en funktion i x och y och räknar ut dess
differential får vi ett uttryck i dx och dy. Så vi kan utan vidare beräkna differentialen av funktioner av
flera variabler, och tillåta oss denna tolkning av resultatet.
Sats 5 Om f, g är funktioner som är differentierbara i punkten a och g(a) 6= 0, så gäller att
gdf − f dg
f
.
d( ) =
g
g2
Speciellt gäller att d(1/g) = −dg/g 2 .
Bevis. Det räcker med att visa den andra formeln (varför?). Med k2 som ovan har vi då
1
1
g(a) − g(a + h)
−k2 (a, h)
−
=
=
h,
g(a + h) g(a)
g(a + h)g(a)
g(a + h)g(a)
där koefficienten framför h är en kontinuerlig funktion av h vars värde för h = 0 är −g 0 (a)/g(a)2 .
6
En formel till behöver vi. Med hjälp av den kan vi derivera
inversen till en deriverbar funktion. Hur man gör detta är
egentligen självklart om man bara ritar upp vad saker betyder.
Betrakta figuren till höger. Den blå kurvan är grafen för funktionen f , alltså kurvan y = f (x). Den röda kurvan är grafen för
inversen, y = f −1 (x), vilken vi som bekant får genom att spegla
den blå kurvan i linjen y = x. Den blå heldragna räta linjen är
tangenten till y = f (x) i punkten (a, b), där b = f (a), och den
röda tangenten till inversen i punkten (b, a). Den är naturligtvis
erhållen ur den blå genom en spegling i linjen y = x. De sträckade linjerna är linjer med samma riktning som de heldragna,
men som går genom origo. Det betyder att de blå streckade
linjen är grafen till differentialen för f i a, alltså y = f 0 (a)x,
medan den streckade linjen är grafen för differentialen för den
inversa funktionen: y = (f −1 )0 (b)x. Men denna är erhållen ur
den blå genom spegling i linjen y = x. Om vi tar linjen y = kx
och speglar i linjen y = x, får vi linjen x = ky, alltså y = x/k.
Vi har därför följande sats.
y
2
1
−1
0
0
1
2
x
−1
Sats 6 Om f är differentierbar i en punkt a och har en invers f −1 definierad i en omgivning av b = f (a),
så gäller att även inversen är differentierbar och att
df −1 (b) =
dx
.
f 0 (a)
Denna sats har sin motsvarighet i högre dimensioner, men måste då formuleras lite annorlunda. Viktigare
är att det geometriska bevis vi gett ovan (som också visar att inversen är differentierbar) inte går att
generalisera. Vi ger därför ett kort bevis som inte är geometriskt också.
Bevis. Vi har en funktion f som är differentierbar i punkten a som har en invers g = f −1 i en omgivning
av punkten b = f (a). Det betyder att f (g(x)) = x nära x = b och g(f (x)) = x nära x = a. Vi har då att
f (g(b + h)) − f (g(b)) = h, vilket vi kan skriva (eftersom f är differentierbar) k(g(b), g(b + h) − g(b))(g(b +
h) − g(b)) = h. Men g(b) = a och vi får
g(b + h) − g(b) =
h
k(a, g(b + h) − g(b))
där vi har att nämnaren är kontinuerlig nära h = 0 med värdet k(a, g(b + 0) − g(b)) = k(a, 0) = f 0 (a)
där. Alltså är g differentierbar i b (man kan notera hur denna slutsats beror av att vi från början vet att
g är en kontinuerlig funktion) med derivatan 1/f 0 (a).
4
4.1
Användning av differentialen
Analys av funktioner
Att df (a) = f 0 (a)dx betyder att när vi gör en väldigt liten ändring dx i ett x-värde nära en punkt a,
så ändrar sig f i storleksordningen f 0 (a)dx. Om vi ökar x, alltså tar dx > 0, betyder det att f ökar
om f 0 (a) > 0 och minskar om f 0 (a) < 0. Det följer att funktionen måste vara växande där derivatan är
positiv och avtagande där den är negativ. Ur detta kan vi dra följande slutsats.
Sats 7 Om f har en lokal extrempunkt i en punkt a och är definierad i en omgivning av denna, så gäller
att antingen är f inte differentierbar i den punkten, eller så är df (a) = 0.
7
De punkter a för vilka det gäller att df (a) = 0 kallas stationära punkter till f . Det är därför bland dessa
vi kan hitta alla lokala extrempunkter i vilka funktionen är differentierbar. Villkoret är uppenbarligen
ekvivalent med att f 0 (a) = 0, vilket ger en ekvation att lösa. Om man tycker beviset är något “luddigt”
kan man modifiera det genom att använda medelvärdessatsen som nämndes ovan. Hur kan vi illustrera
genom att visa följande viktiga sats.
Sats 8 Om f är differentierbar i ett intervall I och df (x) = 0 för alla x ∈ I så gäller att f är konstant
i intervallet.
Bevis. Tag två punkter x1 < x2 i intervallet. Då gäller att f (x2 ) − f (x1 ) = f 0 (ξ)(x2 − x1 ), x1 < ξ < x2
enligt medelvärdessatsen. Eftersom vi antog att f 0 (ξ) = 0 följer att f (x2 ) = f (x1 ). Då detta är sant för
alla val av punkter i intervallet måste de alla anta ett gemensamt värde. (Notera att det är viktigt att I
är ett intervall!)
Samma resonemang leder till att om f 00 (a) > 0 och a är en stationär punkt, så gäller att f 0 (x) < 0 då
x < a (och nära a) och f 0 (x) > 0 då x > a (och nära a), dvs om vi börjar strax till vänster om a så avtar
funktionen tills den vänder i just a för att därefter växa. Det betyder att vi har ett lokalt minimum i
punkten a. På samma sätt ser vi att om f 00 (a) < 0 och a är en stationär punkt, så gäller att a är ett
lokalt maximum. Om emellertid f 00 (a) = 0 så måste man studera om derivatan växlar tecken eller inte,
och hur, i a på annat sätt.
4.2
Primitiva funktioner och differentialens invarians
Ett viktigt problem inom analysen är att till en given kontinuerlig funktion f (x) hitta en differentierbar
funktion F (x) sådan att dF (x) = f (x)dx. Att så alltid går är det kanske viktigaste resultatet inom
analysen, men det behöver inte gå i den meningen att vi kan skriva ner ett uttryck för F (x) i de
elementära funktionerna även om f (x) är ett uttryck i elementära funktioner. När man letar sådana
uttryck så finns det diverse trick man kan använda. I princip innebär de alla att man går baklänges i
räknereglerna för differentialen. Nedan kommer några illustrationer som enbart utnyttjar kedjeregeln.
Metoden brukar kallas variabelbyte i integraler, men vi avhåller oss från att här diskutera vad som menas
med integral (det kommer senare).
Exempel 8 Vi vill hitta en primitiv funktion till f (x) = 1/(x2 + 2x + 26). Då kan vi räkna så här:
1 dy
dx
1
dx
1
1
x+1
dx
=
=
=
= d arctan y = d arctan(
).
2
2
x2 + 2x + 26
(x + 1)2 + 25
25 ( x+1
5
y
+
1
5
5
5
5 ) +1
och då noterat att dy = dx/5. Slutsatsen är att funktionen
I denna räkning har vi låtit y = x+1
5
)
är
en
primitiv
funktion
till f .
F (x) = 15 arctan( x+1
5
Exempel 9 Vi vill hitta en primitiv funktion till f (x) = sin2 x cos x. Då kan vi räkna såhär
sin2 x cos x dx = sin2 x d(sin x) = y 2 dy =
1
1
d(y 3 ) = d(sin3 x).
3
3
Här har vi istället låtit y = sin x och då noterat att dy = cos x dx. Slutsatsen är att funktionen F (x) =
sin3 x/3 är en primitiv funktion till f .
Notera att man kontrollerar svaret genom att läsa från höger till vänster och se att differentieringarna
stämmer.
8
4.3
Analysens huvudsats och insättningsformeln
Analysens huvudsats illustrerar det ovanstående ganska bra. Antag att vi kan beräkna arean under en
kurva (med tecken) över ett godtyckligt intervall. Mer precist, antag att det finns en väldefinierad area
att beräkna. I integrationskalkylen visar man att om funktionen när kontinuerlig finns en sådan – det
är t.o.m. så att diskussionen som leder fram till det definierar vad som menas med att en funktion är
Riemannintegrerbar, och sedan visar man att en kontinuerlig funktion är Riemannintegrerbar. Antag
att vi vet detta.
Låt nu f vara en kontinuerlig funktion på ett intervall I = [a, b]. Definiera funktionen S därigenom att
S(x) är arean över intervallet [a, x]. Analysens huvudsats säger då att S(x) är differentierbar och att
dS(x) = f (x)dx. Beviset är som följer.
Håll x fixt. Rent geometriskt gäller att S(x + h) − S(x) = H(x, h)h där vänsterledet är arean under
grafen till f över intervallet [x, x + h] Här gäller att h 6= 0 är ett litet tal. I högerledet har vi tagit
en rektangel med basen h, alltså längden av intervallet, och höjden H(x, h) så avpassad att det blir
precis samma area som i vänsterledet. Denna beror naturligtvis både på x och hur brett intervall vi har.
Men det är geometriskt självklart att då h → 0 så gäller att H(x, h) → f (x) (när h < 0 är intervallet
egentligen [x + h, x]). Det betyder att vi kan definiera H(x, h) så att den blir en kontinuerlig funktion
i en omgivning av h = 0, vilket visar att S är differentierbar i x. Tycker man inte att kontinuiteten är
geometriskt självklar, så får man använda integralkalkylens huvudsats – men det är bara meningsfullt
om man bevisar den ordentligt.
Vad gäller insättningsformeln kan man nu resonera lite olika, beroende av vad man vill uppnå. Ett
resonemang är följande. Om F är en primitiv funktion till f över intervallet [a, b] så gäller att
F (b) − F (a) =
n
n
n
X
X
X
(F (xi ) − F (xi−1 )) ≈
dF (xi )[xi − xi−1 ] =
f (xi )(xi − xi−1 )
i=1
i=1
i=1
där högerledet antingen är en Riemannsumma för en integral eller en approximation av arean under
grafen för f över intervallet [a, b].
5
Differentialen av funktioner av två variabler
Funktioner f av två variabler är definierade i ett område D i
xy-planet och åskådliggörs grafiskt i form av sin graf, vilket är
ytan som ges av ekvationen z = f (x, y) när (x, y) ∈ D. Om
vi tar en punkt p på den ytan och zoomar in som vi gjorde
tidigare, så kommer ofta ytan att mer och mer anta formen av
ett plan. När så sker säger vi att funktionen är differentierbar i p och planet ifråga kallas tangentplanet till ytan i den
punkten. För att beskriva planet kan vi som vi gjorde i den
en-dimensionella analysen ovan införa ett koordinatsystem centrerat kring p: dx = x − p1 , dy = y − p2 , dz = z − f (p). Då får
tangentplanet en ekvation på formen
dz = adx + bdy.
Funktionen i högerledet kallas differentialen av f i p och vi
betecknar den funktionen (i analogi hur vi gjorde tidigare) df (p).
Den är nu en funktion av dx och dy.
Liksom för envariabelfallet inför vi nu beteckningen
∆f (p)[h, k] = f (p1 + h, p2 + k) − f (p1 , p2 )
9
för förändringen i f när vi ändrar p1 till p1 + h och p2 till p2 + k. Om vi då kan skriva
∆f (p)[h, k] = k1 (p, h, k)h + k2 (p, h, k)k
för några funktioner ki (p, h, k), i = 1, 2 som är kontinuerliga i (h, k) = (0, 0) säger vi att f är differentierbar i punkten p. Problemet är att om vi fortsätter med detta kommer vi snart att drunkna i beteckningar
och vårt mål är att visa att flervariabelanalysen egentligen inte är svårare än envariabelanalysen.
Så därför måste vi välja våra beteckningar med omdöme, och ta ett kortsiktigt investeringspris för en stor
framtida vinst – som till dels kommer ganska snabbt. Vi kallar koordinaterna i kartan inte för x, y utan
för x1 , x2 och skriver kort x = (x1 , x2 ). På samma sätt ersätter vi (h, k) med (h1 , h2 ) som analogt skrivs
h. Vidare inför vi radvektorn k(p, h) som kort beteckning för det som ovan skrevs (k1 (p, h, k), k2 (p, h, k)).
Vi upprepar nu våra definitioner i dessa beteckningar:
∆f (p)[h] = f (p + h) − f (p)
och
∆f (p)[h] = k(p, h)h.
I det allra sista uttrycket har
vihär en matrismultiplikation mellan en radvektor k(p, h) = (k1 (p, h), k2 (p, h))
h1
och en kolonnvektor h =
. Vi har alltså samma form som i envariabelanalysen, men måste komma
h2
ihåg vad saker står för.
Definitionen ovan innebär nu att f är differentierbar i punkten p om k(p, h) är kontinuerlig som funktion
av h i h = 0. Dess värde i origo, som alltså är en radvektor, betecknar vi med f 0 (p). Differentialen df (p)
definieras nu som
df (p)[h] = f 0 (p)h.
Men här gäller att dxi [h] = hi , så vi kan skriva detta som
df (p)[h] = f 0 (p)dx[h] = f10 (p)dx1 [h] + f20 (p)dx2 [h],
eller, om vi utelämnar h,
df (p) = f 0 (p)dx = f10 (p)dx1 + f20 (p)dx2 .
Notera att har här vi infört ytterligare en beteckning. Vad vi har gjort är att vi skrivit f 0 (p) =
(f10 (p), f20 (p)). Komponenterna här betecknas på diverse olika sätt: för den i:te komponenten gäller
att
∂f
f (p)
fi0 (p) = ∂i f (p) =
∂xi
kallas den partiella derivatan av f m.a.p. xi (den i:te variabeln).
Vi kan nu bara kort konstatera att räknereglerna som vi diskuterade för differentialen av en envariabelfunktion utom den som handlar om inversen till en funktion gäller precis som innan, och bevisen är
desamma. Enda skillnaden är att tal har blivit matriser och multiplikation har blivit matrismultiplikation. Så vi behöver inte orda mer om detta. (Fundera gärna ut varför vi gjorde undantag för satsen om
den inversa funktionen.)
Exempel 10 Vi har sett att för funktionen f (x, y) = (x2 + 3y 2 )e−(x
df (x, y) = 2x(1 − (x2 + 3y 2 ))e−(x
2
+y 2 )
2
+y 2 )
gäller att dess differential är
dx + 2y(3 − (x2 + 3y 2 ))e−(x
2
+y 2 )
dy.
Det betyder att de partiella derivatorna m.a.p. x och y ges av
∂1 f (x, y) = 2x(1 − (x2 + 3y 2 ))e−(x
2
+y 2 )
respektive ∂2 f (x, y) = 2y(3 − (x2 + 3y 2 ))e−(x
En illustration av vad detta handlar om är feluppskattningar:
10
2
+y 2 )
.
Exempel 11 Om vi beräknar talet eπ genom att använda närmevärdena e = 2.718 och π = 3.142 så får
vi att eπ ≈ 23.142580. Frågan är hur många av dessa decimaler som är korrekta om vi vet att felet i e
är mindre än 0.0003 och felet i π är mindre än 0.00041. Nedanstående räkning ger inte ett 100% säkert
exakt svar, men en god uppfattning av det.
Inför funktionen f (x, y) = xy = ey ln x . Då gäller att
df (x, y) = yxy−1 dx + xy ln x dy
⇒
df (2.718, 3.142) = 26.752755 dx + 23.140181 dy.
Om vi här sätter in dx = 0.0003 och dy = 0.00041 så ser vi att df (2.718, 3.142) = 0.0175, så felet kan
vara så stort som ungefär 0.02. Vi sammanfatter det som
eπ = 23.14 ± 0.02.
Det korrekta värdet på eπ med fyra decimaler är 23.1407. Vi ser att feluppskattningen är lite pessimistisk,
vilket i sin tur beror på att felet i närmevärdena för e och π bär åt olika håll: för e är det en underskattning,
för π är det en överskattning.
En av konsekvenserna av diskussionen ovan är att tangentplanet till ytan z = f (x, y) i punkten p =
(x0 , y0 ) ges av ekvationen z − f (p) = df (p)[(x − x0 , y − y0 )], vilket många vill skriva
z = f (x0 , y0 ) + ∂1 f (x0 , y0 )(x − x0 ) + ∂2 f (x0 , y0 )(y − y0 ).
Detta är inte en formel att lära sig. Istället räknar med differentialer och tolkar dem rätt:
Exempel 12 Vi ska bestämma en ekvation för tangentplanet till ytan z =
p = (2, 1). Vi börjar med att differentiera:
p
9 − (x2 + y 2 ) i punkten
d(9 − (x2 + y 2 ))
−xdx − ydy
dz = p
=p
.
2
2
2 9 − (x + y )
9 − (x2 + y 2 )
I punkten (2, 1) får vi
−2dx − dy
1
dz = p
= −dx − dy.
2
2
2
9 − (2 + 1 )
För att få tangentplanet ersätter vi dx med x − 2, dy med y − 1 och dz med z − 2, vilket ger
1
z − 2 = −(x − 2) − (y − 1)
2
6
⇔
2x + y + 2z − 9 = 0.
Den geometriska förståelsen av differentialen
Vi har sett att differentialen är den funktion som definierar tangentplanet till en funktion i en punkt,
efter att planet flyttats så att punkten blir origo. Innebörden av df (p)[v], där v är en vektor v = (x, y)
är då att den mäter höjdskillnaden mellan origo och punkten (x, y) på planet. Om vi kräver att v är
en enhetsvektor så betyder det precis att df (p)[v] blir riktningskoefficienten för planet i riktningen av v.
Vi kallar detta uttryck för riktningsderivatan av f i riktningen v, och den skrivs ofta fv0 (p). Notera att
detta kräver att |v| = 1.
2
2
Exempel 13 Vi ska beräkna riktningsderivatan i riktningen (−1, 1) av funktionen f (x, √
y) = ex +y i
punkten (0, 1). För det beräknar vi först en riktningsvektor av längden 1: e = (−1, 1)/ 2 och sedan
differentialen av funktionen:
df (x, y) = 2ex
2
+y 2
(xdx + ydy)
11
⇒
df (0, 1) = 2edy.
Riktningsderivatan får nu som
√
1
df (0, 1)[v] = 2e √ = e 2.
2
Ett alternativt sätt att beräkna en riktningsderivata är att reducera det till ett problem i en variabel. I
detta fall gör man på följande sätt. Betrakta den räta linjen r(t) = (0, 1) + tv och beräkna funktionen
längs den:
√
2
2
t
−t
g(t) = f ( √ , 1 + √ ) = e(t +( 2+t) )/2 .
2
2
Riktningsderivatan är nu derivatan av denna funktion i t = 0, vilket man lätt ser ger samma resultat
som ovan.
Om funktionen f har ett lokalt maximum eller minimum i en punkt p, och är differentierbar i den, så
måste uppenbarligen tangentplanet till den yta som är dess graf vara parallellt med xy-planet. Det
betyder att dess ekvation är på formen z = f (p) och alltså att df (p) = 0. Mer explicit, df (p)[v] = 0 för
alla riktningar v, d.vs. alla riktningsderivator är noll. Punkter p sådana att df (p) = 0 kallas även här
stationära punkter, men för funktioner av två variabler måste vi lösa två ekvationer för att hitta dem.
Exempel 14 Vi har sett att för funktionen f (x, y) = (x2 + 3y 2 )e−(x
df (x, y) = 2x(1 − (x2 + 3y 2 ))e−(x
2
+y 2 )
2
+y 2 )
gäller att dess differential är
dx + 2y(3 − (x2 + 3y 2 ))e−(x
2
+y 2 )
dy.
De stationära punkterna till funktionen får vi genom att sätta differentialen till noll, och eftersom exponentialfunktionen aldrig är noll betyder det att:
(
x(1 − (x2 + 3y 2 )) = 0
x(1 − (x2 + 3y 2 ))dx + y(3 − (x2 + 3y 2 ))dy = 0 ⇔
.
y(3 − (x2 + 3y 2 )) = 0
De stationära punkterna är de som löser detta system. Varje ekvation består av en produkt av två
faktorer, vilket ger oss totalt fyra fall. Men ett är omöjligt: vi kan inte både ha att x2 + 3y 2 är 1 och 3.
Vi har alltså följande fall


x = 0 och y = 0
x = 0 och x2 + 3y 2 = 3 .

 2
x + 3y 2 = 1 och y = 0
Totalt får vi fem stationära punkter: (0, 0), (0, ±1), (±1, 0).
Vektorn f 0 (p) kallas gradienten för f i p. Den har en speciell betydelse som framgår ur ovanstående. Vi
har ju att df (p)[v] = f 0 (p) · v (skalärprodukt av vektorer), och alltså att
df (p)[v] = |f 0 (p)| · |v| cos θ,
där θ är vinkeln mellan enhetsvektorn v och gradienten. Det betyder att df (p) blir som störst när θ = 0,
dvs i den riktning som gradienten har. Detta resultat är så viktigt att vi formulera det som en sats.
Sats 9 För differentialen gäller att
|df (p)[v]| ≤ |f 0 (p)| · |v|
med likhet precis då v har samma eller motsatt riktning som gradienten f 0 (p).
Den praktiska innebörden av detta är att vill vi klättra så snabbt som möjligt upp för ett berg, så ska
vi hela tiden gå i riktning av gradienten. Vill vi i stället gå ner så snabbt som möjligt ska vi följa den
motsatta riktningen. Denna observation är motsvarigheten i två dimensioner till envariabelsobservationen
att en funktion är växande om derivatan är positiv och avtagande om den är negativ.
12
Exempel 15 Paul klättrar i ett berg som beskrivs av funktionen f (x, y) = 5 − x2 − 2y 2 . Det betyder att
på platsen (x, y) i kartan är höjden av berget givet av f (x, y). Han befinner sig nu i den punkt som på
kartan anges av (− 23 , −1) och vill klättra i den riktning i vilken stigningen är maximal. Vilken riktning
väljer han då?
För att se det beräknar vi först differentialen: df (x, y) = −2xdx − 4ydy, vilket betyder att gradienten
i punkten p = (x, y) ges av f 0 (p) = (−2x, −4y) och speciellt alltså för punkten (− 23 , −1) av vektorn
f 0 (− 23 , −1) = (3, 4). Det är därför den riktning Paul ska ta ut, och den maximala stigningen ges av
p
3
|f 0 (− , −1) = 32 + 42 = 5.
2
En annan och mycket närbesläktad observation handlar om nivåkurvor. Om vi har en parameterframställning av en nivåkurva som r(t) = (x(t), y(t)), t ∈ [a, b], så innebär det att den är nivåkurva att
f (r(t)) = C, där C är nivån, för alla t. Om vi deriverar m.a.p. t får vi ekvationen df (r(t))[r0 (t)] = 0,
vilket betyder att riktningsderivatan i tangentens riktning är noll alltid. Översatt till vektorspråk betyder
detta att f 0 (r(t)) · r0 (t) = 0, vilket betyder att gradienten f 0 (r(t)) alltid är vinkelrät mot nivåkurvan.
Denna observation stämmer bra med den ovan att gradienten pekar ut den riktning f växer snabbast i;
i riktning av tangenten till en nivåkurva växer den ju inte alls! Vi illustrerar med ett exempel.
Exempel 16 Vi ska bestämma ekvationen för tangenten i punkten (1, 5) till kurvan y 2 = x2 + 4x3 . För
att göra det observerar vi att kurvan kan skrivas som en nivåkurva till funktionen f (x, y) = y 2 − x2 − 4x3 ,
nämligen nivån noll. Vi kan därför beräkna tangenten med hjälp av diskussionen ovan.
För detta beräknar vi först differentialen:
df (x, y) = 2ydy − 2xdx − 12x2 dx = −2(x + 6x2 )dx − 2ydy
⇒
df (1, 5) = −14dx + 10dy.
Vad diskussionen ovan säger är att vi får tangenten i punkten (1, 5) genom att sätta df lika med noll och
samtidigt ersätta dx med x − 1 och dy med y − 5:
−14(x − 1) + 10(y − 5) = 0
⇔
7x − 5y = 18.
Det diskuterade illustreras i nedanstående figur. Vi har här satt ∆f = f − f (p) så att nivårkurvan som
går genom p har värdet noll. Tangenten i punkten p får ekvationen df (p) = 0, fast i koordinatsystemet
dx = x − p1 , dy = y − p2 (se exemplet). Normalvektorn, alltså gradienten, är vinkelrät mot tangenten.
f 0 (p)
p
0
∆f =
df
(
p)
=
0
Anmärkning 6 Av figuren ovan framgår att skillnaden mellan klassisk differentialkalkyl och en baserad
på differentialer i två dimensioner mycket handlar om skillnaden mellan en tangent och dess beskrivning
i form av en normalvektor. I många sammanhang är skillnaden liten, men det finns en avgörande
skillnad som egentligen är det yttersta skälet till varför differentialer är mer naturliga att räkna med. I
13
en klassiskt ON-system ges gradienten av vektorn (∂1 f, ∂2 f ), men om vi vill gå över till (t.ex.) polära
koordinater måste vi separat härleda det uttryck som då gäller för gradienten, som är (∂r f, r−1 ∂θ f ). När
vi räknar med differentialer är räkningen densamma oberoende av koordinatsystem: för ON-systemet
df = ∂1 f dx+∂2 f dy och för polära koordinater df = ∂r f dr+∂θ f dθ. Detta är betydelsen av differentialens
invarians (kedjeregeln) och den blir mer betydelsefull när vi tittar närmare på just variabelbyten.
7
Optimering med bivillkor
Vi har sett ovan att om vi vill optimera en differentierbar funktion, så gäller att vi ska leta bland de
punkter där differentialen är noll. Vi ska nu titta på ett närbesläktat problem, där vi vill hitta det största
(eller minsta) värdet av en funktion f av två variabler, samtidigt som ett villkor g(x, y) = 0 gäller. Detta
villkor kallas ett bivillkor, och vi ska alltså optimera funktionen f under bivillkoret att g = 0. Låt oss först
försöka förstå problemet geometriskt genom att betrakta figuren nedan, som föreställer en nivåkurveplot
av en viss funktion.
Det kan vara lämpligt att ha en konkret bild av vad den
analys vi ska göra, så vi föreställer oss att bilden föreställer
en karta över ett område med höjdkonturer. Det finns en
funktion f (x, y) sådan att landskapet ges av ytan z =
f (x, y) i den meningen att z är höjden över havet i den
punkt som på kartan har koordinaterna (x, y). Figuren
föreställer kartan och inritat i den är diverse nivårkurvor
f (x, y) = c för att ge en bild av hur landskapet ser ut.
Q
I figuren finns också en grön kurva. Denna betecknar en
löprunda i landskapet och ges av en ekvation g(x, y) = 0.
Vårt mål är nu att förstå hur jobbig denna runda är att
P
jogga längs – mer pecist att identifiera var det är uppförsbacke och var det är nedförsbacke. För det ska vi analysera hur kurvan skär nivåkurvorna. När den skär betyder
det att vi antingen springer uppåt eller nedåt (beroende
på i vilken riktning vi joggar). Om vi springer moturs, så
ser vi t.ex. att i punkten Q är det uppförsbacke.
När är vi då i en punkt där det varken går upp eller ner, d.v.s. i lokal extrempunkt? Detta sker i en
punkt som den i P där joggingbanan tangerar en nivåkurva! Studerar vi kartan kring punkten P så inser
vi att i just detta fall är det frågan om ett lokalt maximum, men just nu är vi mer intresserade av den
enkla observationen
En lokal extrempunkt på joggingrundan äger rum där tangenten till rundan och tangenten
till motsvarande nivåkurva sammanfaller.
Kan vi bestämma alla punkter där så sker, så har vi vad som svarar mot de stationära punkterna för
detta problem. Det handlar om att se efter när df (p) och dg(p) definierar samma tangent, och kanske
inser vi att det sker omm de är proportionella, vilket vi kan analysera direkt (se vidare kommentarer
längre ner). Men vi ska hitta ett annat sätt som är beräkningsmässigt enklare att använda för att avgöra
när så sker.
Den observation vi gör då är att villkoret df = λdg betyder att df [u] = λdg[u] för alla vektorer u. Tag ett
v sådant att dg[v] 6= 0. Då ser vi att λ = df [v]/dg[v] och villkoret kan skrivas att df [u]dg[v] = df [v]dg[u]
för alla u. Detta motiverar följande definition och bevisar den sats som följer.
Definition 2 Vi definierar kilprodukten av två differentialer på följande sätt
(df ∧ dg)(p)[u, v] = df (p)[u]dg(p)[v] − df (p)[v]dg(p)[u].
14
Sats 10 Att df och dg definierar samma tangent i en punkt är ekvivalent med att df ∧ dg = 0.
För fixt p är detta en skevsymmetrisk bilinjärform i vektorerna u, v, vilket betyder bl.a. att
df ∧ dg = −(dg ∧ df ).
Speciellt följer att df ∧ df = 0, vilket är en viktig observation för framtiden. Liksom att df ∧ dg[u, u] = 0.
Båda dessa observationer används när man räknar med kilprodukten som exemplet nedan illustrerar.
Exempel 17 Vi ska bestämma maximum av funktionen f (x, y) = xy under bivillkoret att x2 + y 2 = 2.
Vi formulerar bivillkoret som g(x, y) = 0 där g(x, y) = x2 + y 2 − 2.
Enligt diskussionen ovan ges de stationära punkterna av de punkter på g(x, y) = 0 där df ∧ dg = 0. Vi
beräknar därför kilprodukten först:
df ∧ dg = (ydx + xdy) ∧ (2xdx + 2ydy) = 2x2 dy ∧ dx + 2y 2 dx ∧ dy = 2(y 2 − x2 )dx ∧ dy.
De stationära punkterna ges alltså av de två ekvationerna
(
(
y 2 − x2 = 0
y = ±x
⇔
x2 + y 2 − 2 = 0
x2 = 1
⇔
(±1, ±1).
Insättning visar att av dessa fyra stationära punkter är de som ger maximum ±(1, 1) och det maximala
värdet är 1.
Att detta är rätt ser vi lätt genom att skriva om funktionerna
i polära koordinater. Vi ska då maximera
√
funktionen f (r, θ) = r2 sin θ cos θ under bivillkoret r = 2. Men detta ger oss en funktion av en variabel:
h(θ) = sin 2θ, som ska maximeras då 0 ≤ θ ≤ 2π, vilket blir 1 då 2θ = π/2 + k2π, k = 0, 1. Om vi inte
såg denna genväg men fick funktionerna på denna form istället hade vi fått enkla räkningar:
df ∧ dg = (r sin 2θ)dr + 2r2 cos 2θ dθ) ∧ dr = 2r2 cos 2θ dθ ∧ dr = 0,
√
vilket ger de stationära punkterna (eftersom bivillkoret är att r = 2) som lösningar till cos 2θ = 0 ⇔
2θ = ±π/2 + 2πk, vilket ger de giltiga lösningarna θ = π/4 + kπ/2, k = 0, 1, 2, 3, vilka därför definierar
de stationära punkterna.
Allt detta har en omedelbar generalisering till situationen då vi har funktioner av fler variabler och
möjligen fler bivillkor. Vi lämnar dock det till en annan gång, och en annan plats. Här ska vi koncentrera
oss på funktioner av två variabler för att se på fler exempel av differentialräkning. Vi avslutar detta
avsnitt med att belysa vad kilprodukten betyder mer konkret.
Exempel 18 Låt e1 e2 vara en ON-bas. Då gäller att
(dx ∧ dy)[e1 , e2 ] = dx[e1 ]dy[e2 ] − dx[e2 ]dy[e1 ] = 1 · 1 − 0 · 0 = 1.
Om vi därför skriver u = ae1 + be2 , v = ce1 + de2 , så ser man att
(dx ∧ dy)[u, v] = a(dx ∧ dy)[e1 , v] + b(dx ∧ dy)[e2 , v] = ad(dx ∧ dy)[e1 , e2 ] + bc(dx ∧ dy)[e2 , e1 ] = ad − bc.
a c
Detta är det A där A =
, som vi vet mäter arean av det parallellogram som spånns upp av
b d
vektorerna u och v med tecken (arean är positiv om rotationen som överför u i riktning av v är moturs,
annars negativ).
15
8
Lokala extrempunkter
När man i flervariabelanalys ska undersöka om en stationär punkt är en lokal extrempunkt, och vilken
typ, får man oftast använda sig av andra-derivator. Men eftersom vi har många riktningar att ta hänsyn
till är situationen mer komplicerad än i en variabel. För att illustrera det, låt p vara en stationär punkt
till funktionen f och betrakta funktionen φ(t) = f (p + tv). När vi varierar t beskriver t → p + tv en rät
linje i kartan och funktionen φ(t) höjden längs denna väg. Från envariabelanalysen vet vi då att
1
φ(t) = φ(0) + φ0 (0)t + φ00 (θt)t2 ,
2
0 ≤ θ ≤ 1.
Här är φ(0) = f (p), φ0 (0) = df (p)[v] = 0, men för att beräkna φ00 (t) ska vi derivera funktionen df (p+tv)[v]
m.a.p. t. Om vi skriver g(x) = df (x)[v] blir då φ00 (0) lika med differentialen dg(p)[v]. Så det går att
beräkna utan vidare.
Men det är bara i en riktning, men diskussionen motiverar oss att betrakta
B(p)[v, w] = d(df [v])(p)[w].
Vad vi gör här är följande: tag först en vektor v och beräkna df (x)[v]. Det är en funktion av x och vi kan
beräkna dess differential i en ev. annan riktning w. Slutberäkningen görs i punkten p som vi undertrycker
från beteckningen för stunden. Vi illustrerar räkningarna i ett enkelt exempel, men i praktiken görs de
efter ett lite annorlunda recept som vi återkommer till.
Exempel 19 Vi ska räkna ut B(p)[v, w] för funktionen f (x, y) = xy. Vi har att df = ydx + xdy, så
g(x, y) = df (x, y)[v] = yv1 + xv2 . Dess differential blir dg(x, y) = v1 dy + v2 dx, vilket ger att dg(x, y)[w] =
v1 w2 + v2 w1 . Men detta är precis B(p)[v, w] (som alltså inte beror på punkt p den här gången).
Notera att ordningen av v och w här förefaller väsentlig. Men det visar sig att så inte är fallet:
Sats 11 Om funktionen x → B(x)[v, w] är kontinuerlig i punkten p, så gäller att B(p) är en symmetrisk
bilinjärform, d.v.s.
B(p)[v, w] = B(p)[w, v].
Vi ska tänka på B(p)[v, w] som en andraderivata där vi först deriverat i riktning v och sedan i riktning
w. Satsen säger alltså att det inte spelar någon roll i vilken riktning vi deriverar först. Att detta bör
spela roll för att avgöra om en stationär punkt är en lokal extrempunkt är nog intuitivt klart, men hur är
mindre självklart. Ytterst beror detta på att vi har många riktningar att hålla reda på, och vi kan ha ett
lokalt maximum i en riktning, men går vi i en annan är där ett lokalt minimum. För fullständighetens
skulle vill vi bevisa satsen innan vi diskuterar hur vi använder det hela.
Bevis. Betrakta uttrycket
∆2 f (p)[v, w] = f (p + v + w) − f (p + v) − f (p + w) + f (p)
som är helt symmetriskt i de två riktningarna. Enligt förutsättningarna kan vi nu skriva
Z 1
Z 1
f (p + v + w) − f (p + v) =
df (p + v + tw)[w]dt, f (p + w) − f (p) =
df (p + tw)[w]dt,
0
0
varför skillanden blir
Z
∆2 f (p)[v, w] =
0
1
(df (p + v + tw)[w] − df (p + tw)[w])dt.
Men enligt förutsättningarna är g(x) = df (x)[w] differentierbar, och vi kan därför skriva
df (p + v + tw)[w] − df (p + tw)[w] = g(p + v + tw) − g(p + tw) = A(p + tw, v)[v]
16
där vi har att A(p, 0)[v] = dg(p)[v] och A(x, v) är kontinuerlig i x. Stoppar vi in detta i uttrycket ovan
får vi
Z 1
∆2 f (p)[v, w] =
A(p + tw, v)[v]dt.
0
Om vi nu ersätter v med hv och w med kw, så kommer g(x) att ersättas av kg(x), och detsamma gäller
för A. Det betyder att
Z 1
∆2 (p)f [hv, kw] = hk
A(p + tkw, hv)[v]dt.
0
där integralen i högerledet konvergerar mot
Z 1
A(p, 0)[v] = d(df [w])[v].
0
Men eftersom den ursprungliga dubbeldifferensen är symmetrisk i v, w konvergerar integralen också mot
uttrycket d(df [v])[w], vilket visar att de två uttrycken måste vara lika
Om vi använder linjariteten i v och w så har vi nu följande sats:
Sats 12 Vi kan skriva
∂2f
∂2f 2
∂2f 2
v
+
2
v
v
+
v = (v1 , v2 )
B(p)[v, v] =
1
2
1
∂x2
∂x∂y
∂y 2 2
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y 2
! v1
.
v2
Vi kallar matrisen i högerledet för andraderivatan av f och betecknar den f 00 (p).
Bevis. Om vi skriver v = v1 e1 + v2 e2 så får vi att
B(p)[v, v] = B(p)[e1 , e1 ]v12 + B(p)[e1 , e2 ]v1 v2 + B(p)[e2 , e1 ]v1 v2 + B(p)[e2 , e2 ]v22 .
Men B(p) var symmetrisk, vilket betyder att B(p)[e1 , e2 ] = B(p)[e2 , e1 ]! Men här gäller att
B(p)[e1 , e1 ] =
∂2f
(p),
∂x2
B(p)[e1 , e2 ] =
∂2f
(p),
∂x∂y
B(p)[e2 , e2 ] =
∂2f
(p).
∂y 2
T.ex. ser vi att för att beräkna B(p)[e1 , e1 ] ska vi först beräkna df (x)[e1 ] = ∂1 f (x). Sedan ska vi
differentiera den: d(∂1 f ) = ∂1 (∂1 f )dx + ∂2 (∂1 f )dy som uträknat i e1 blir d(∂1 f )[e1 ] = ∂1 (∂1 f ) = ∂12 f . Enligt vad vi sett ovan så gäller nu att kring en punkt p kan vi skriva
1
f (p + v) = f (p) + df (p)[v] + B(p + θv)[v, v],
2
0 ≤ θ ≤ 1.
Antag därför att vi befinner oss i en stationär punkt. Då gäller att df (p)[v] = 0 för alla riktningar v,
och vi ser att för att det ska vara ett lokalt maximum måste f (p + v) ≤ f (p) för små v (till längden).
Om vi har att B(p)[v, v] < 0 för alla riktningar v och B är en kontinuerlig funktion (av p) så följer då
att om v bara är liten så måste även B(p + θv)[v, v] < 0 och alltså att f (p + v) < f (p) Vi har alltså ett
lokalt maximum i den punkten. Vänder vi tecknet får vi ett lokalt minimum och i två dimensioner dyker
ett ytterligare alternativ upp: olika riktningar kan ha olika tecken, vilket ger en sorts punkt som kallas
sadelpunkt. Liksom i endim har man problem om någon riktning är sådan att B(p)[v, v] = 0, för då vet
vi inte vilket tecken vi får av B(p + θv)[v, v].
Innan vi diskuterar vad allt detta betyder uttryckt i partiella derivator, låt oss räkna igenom ett exempel
utifrån hur diskussionen varit så här långt.
17
Exempel 20 Vi har sett att för funktionen f (x, y) = (x2 + 3y 2 )e−(x
df (x, y) = 2x(1 − (x2 + 3y 2 ))e−(x
2
+y 2 )
2
+y 2 )
gäller att dess differential är
dx + 2y(3 − (x2 + 3y 2 ))e−(x
2
+y 2 )
dy.
och att den har följande fem stationära punkter: (0, 0), (0, ±1), (±1, 0). Vi ska nu räkna ut den
symmetriska bilinjärformen B ovan i dessa punkter. För det beräknar vi först andraderivatan:
!
2
2
2
2
2e−(x +y ) (1 − 5x2 + 2x4 − 3y 2 + 6x2 y 2 )
4e−(x +y ) (x3 y + 3xy 3 − 4xy)
00
.
f (p) =
2
2
2
2
4e−(x +y ) (x3 y + 3xy 3 − 4xy)
2e−(x +y ) (3 − x2 − 15y 2 + 2x2 y 2 + 6y 2 )
Vi beräknar nu vad detta blir i de stationära punkterna.
(0, 0): I origo har vi B(0, 0)[v, v] = 2(v12 + v22 ) som uppenbarligen är positiv då v 6= 0. Det följer att origo
är ett lokalt minimum.
(0, ±1): I dessa punkter gäller att B(0, ±1)[v, v] = −4v22 − 6v22 , som uppenbarligen är negativ då v 6= 0.
Dessa punkter är därför båda lokala maxima.
(±1, 0): I dessa punkter gäller att B(±1, 0)[v, v] = −4v12 + 4v22 som uppenbarligen kan anta både positiva
och negativa värden. Det innbär att dessa punkter är s.k. sadelpunkter.
Därmed har vi bestämt typen av alla de stationära punkterna.
Hur gör vi då för att avgöra om en stationär punkt när vi optimerar under bivillkor är en extrempunkt?
Svaret borde vara uppenbart från diskussionen ovan, och vi illustrerar bara med ett exempel.
Exempel 21 Erik ska handla godis. Han har att välja mellan geléhallon a 10 kr/hg och laktritsblanding
a 5 kr/hg. Om han köper x hg geléhallon och y hg lakrits, har han en njutningskänsla som beskrivs av
funktionen
f (x, y) = 10(x + y) − x2 − y 2 .
Han ska spendera 25 kr. Hur ska han fördela godiset?
Det gäller alltså att maximera f (x, y) under bivillkoret g(x, y) = 10x + 5y − 25 = 0. Vi börjar med att
beräkna
df ∧ dg = ((10 − 2x)dx + (10 − 2y)dy) ∧ (10dx + 5dy) = −10(5 − x − 2y)dx ∧ dy.
Vi ska därför lösa ekvationssystemet
(
x + 2y = 5
10x + 5y − 25
(
⇔
x=1
y=3
.
För att se om detta är en maximipunkt beräknar vi först
−2 0
00
f (x, y) =
= −2I.
0 −2
Om v nu är en tangentvektor till nivåkurvan till f i punkten (1, 3), så ska vi beräkna v t f 00 (1, 3)v. I detta
fall blir detta av nödvändighet negativt:
v t f 00 (1, 3)v = −2v t v = −2|v|2 ,
vilket betyder att punkten är ett lokalt maximum. I allmänhet är problemet lite besvärligare i det att vi
behöver bestämma tangentvektorn, men för det kan vi använda att gradienten till f är en normalvektor
till nivåkurvan.
18
9
Vektorvärda funktioner
Vi ska avsluta detta dokument med några enkla kommentarer om vektorvärda funktioner. Eftersom vi
håller oss till en och två dimensioner handlar det om de två fallen r : I → R2 och φ : D → R2 , där
I ⊂ R och D ⊂ R2 . Sådana funktioner dyker upp i en rad olika samband; r beskriver ofta kurvor i
planet på sin parameterform, t.ex. r(t) = (cos t, sin t), t ∈ [0, 2π] som beskriver enhetscirkeln. φ i sin
tur beskriver ofta koordinatbyten, såsom φ(r, θ) = (r cos θ, r sin θ), D = [0, ∞[×[0, 2π[ som beskriver
sambandet mellan Cartesiska och polära koordinater. Det finns mycket att säga om sådana funktioner,
men vi ska bara kort diskutera deras differentialer.
r1 (t)
När vi tänker på funktionen r ska vi tänka på den som att dess värde är en kolonnvektor
, där
r2 (t)
varje element är en vanlig funktion av en variabel. Dess differential definieras då som
0 dr1 (t)
r (t)
dr(t) =
= 10
dt.
dr2 (t)
r2 (t)
Vi ser alltså att dr(t) = r0 (t)dt, där r0 (t) är en 2 × 1-matris.
När
funktionen φ är situationen snarlik. Vi ska tänka på dess värden som kolonnvektorer
det gäller
φ1 (x, y)
, där varje element är en reellvärd funktion av två variabler. Dess differential i punkten p blir
φ2 (x, y)
då
dφ1 (p)
∂1 φ1 (p)dx + ∂2 φ1 (p)dy
∂1 φ1 (p) ∂2 φ1 (p)
dx
dφ(p) =
=
=
.
dφ2 (p)
∂1 φ2 (p)dx + ∂2 φ2 (p)dy
∂1 φ2 (p) ∂2 φ2 (p)
dy
Matrisen i högerledet kallar vi här φ0 (p) och om vi byter x, y mot x1 , x2 , så kan vi skriva detta mer
kompakt som dφ(p) = φ0 (p)dx. Precis som tidigare, med den skillnaden att φ0 (p) är en matris, som
kallas funktionalmatrisen för avbildningen.
Exempel 22 Om vi sätter x = r cos θ, y = r sin θ, så gäller att
dx = dr cos θ + rd cos θ = dr cos θ − r sin θdθ,
varför funktionalmatrisen blir
cos θ
sin θ
dy = dr sin θ + r cos θdθ
−r sin θ
.
r cos θ
Vi kan i detta exempel också notera följande, som är ett generellt fenomen. Beräkna kilprodukten mellan
dx och dy:
dx ∧ dy = (dr cos θ − r sin θdθ) ∧ (dr sin θ + r cos θdθ) = r cos2 θdr ∧ dθ − r sin2 θdθ ∧ dr = rdr ∧ dθ.
Detta är precis det uttryck som dyker upp när man byter från Cartesiska till polära koordinater i en
dubbelintegral. För att härleda detta måste man naturligtvis föra en diskussion om dubbelintegraler,
vilket ligger utanför detta dokuments ambitioner. Men det är ett generellt faktum värt att notera.
Exempel 23 Vi kan också notera hur andraderivatorna från föregående avsnitt dyker upp. Låt f vara
en reellvärd funktion av två variabler. Då vet vi att df (p) = f 0 (p)dx där f 0 (p) är en radvektor. Betrakta
nu denna som en kolonnvektor istället (alltså f 0 (p)t ). Vi får då en vektorvärd funktion som vi kan
ta differentialen av: d(f 0t )(p). Dess funktionalmatris blir då precis matrisen f 00 (p) vi diskuterade i
föregående avsnitt.
10
Avslutning
Målet med detta dokument har bara varit att visa att vi kan framställa den flerdimensionella analysen
helt analogt med den endimensionella på ett sätt som fokuserar helt på det konceptuella innehållet.
19
Föreståelsen blir på något sätt separerad ifrån det praktiska räknandet, som blir väldigt rutinmässigt.
Målet med dokumentet har bara varit att diskutera möjliga infallsvinklar till hur man lägger upp teorin
– en praktisk implementering ska naturligtvis innehålla mycket annat som ytterligare belyser teorin.
Men den stora vinsten kommer i vektoranalysen! Men den diskussionen lämnar vi till en annan plats
skild från denna i både rum och tid!
20