LTH, 25 september 2007
Ekonometrisk analys av
fastighetsmarknader
(tillämpad regressionsanalys)
1
Mål
Efter dagens övningar ska du kunna
• Bygga, skatta och tolka hedoniska prismodeller
för småhus i Excel.
• Tolka och läsa olika ekonometriska analyser, med
betoning på fastighetsekonomiska tillämpningar.
2
Vad är ekonometri (econometrics)?
Ekonometri handlar om samband mellan olika ekonomiska
variabler. Några citat:
• “Econometrics is concerned with the systematic study of
economic phenomena using observed data.”
3
Vad är ekonometri (econometrics)?
Ekonometri handlar om samband mellan olika ekonomiska
variabler. Några citat:
• “Econometrics is concerned with the systematic study of
economic phenomena using observed data.”
• “Econometrics is concerned with the empirical
determination of economic laws.”
4
Vad är ekonometri (econometrics)?
Ekonometri handlar om samband mellan olika ekonomiska
variabler. Några citat:
• “Econometrics is concerned with the systematic study of
economic phenomena using observed data.”
• “Econometrics is concerned with the empirical
determination of economic laws.”
• “Econometrics is based upon the development of statistical
methods for estimating economic relationships, testing
economic theories, and evaluating and implementing
government and business policy.
5
Matematik
Statistik
Ekonomi
Ekonometri
• En ekonometriker ska i allmänhet vara en kompetent
matematiker och statistiker med en i grund och botten
ekonomisk skolning.
De tre ingredienserna i ekonometri är
- ekonomisk teori
- ekonomiska data och
- statistiska metoder (främst multipel regressionsanalys).
6
Kategorier
Ekonometri
Teoretisk
Klassisk
Bayesiansk
Tillämpad
Klassisk
Bayesiansk
7
Linjär regressionsanalys
Beskrivning och analys av linjära samband mellan
en beroende variabel (y) och en eller flera
förklarande (oberoende) variabler (x1, x2,…,xk):
y = f (x1, x2,…,xk)
• Enkel linjär regressionsanalys: en förklarande variabel, t ex
Pris = b0 + b1Boyta + u
• Multipel linjär regressionsanalys: flera förklarande
variabler, t ex
Pris = b0 + b1Boyta + b2Standardpoäng + u
8
Linjär regressionsanalys
Vi vill bygga och skatta en modell som kan förklara
verkligheten – ”what’s going on out there?”
•Vilka variabler ska ingå i modellen?
•Hur ska det matematiska sambandet mellan den
oberoende variabeln och de förklarande
variablerna se
ut?
•Vi är intresserade av Kasualitet: Beror BNPökningen
på ökat byggande, eller ökat byggande på ökad
BNP?
9
Jämför korrelation: skilj på statistiska samband
Varför ekonometri i
fastighetsekonomi?
10
Fastighetsvärdering/taxering
Scatterplott, price and size of house in square feet.
Price
800
700
y = 0,1402x + 11,204
600
2
R = 0,6208
500
400
300
200
100
0
0
500
1000
Source: HPRICE1, Wooldrige.
1500
2000
2500
3000
3500
4000
4500
Square feet
11
Makroanalyser
Procent
y =-1,8+0,8x+u
40
dBNP
dPrice
30
20
10
0
66
19
-10
Y=förändring
Pris
X=förändring
BNP
År
68
19
70
19
72
19
74
19
76
19
78
19
80
19
82
19
84
19
86
19
88
19
90
19
92
19
-20
12
Marknadsanalyser
• log(Bostadsyta) = b0 + b1log(Pris)
+b1log(Inkomst) + b1log(Familjestorlek) + u
Exempel:
- Priselasticitet: -0,10
- Inkomstelasticitet: 0,05.
- Ökar familjestorleken med 1
person så ökar efterfrågad
kvantitet med drygt 5 procent.
13
-3
2005-01-03
-1
-2
Market
Real Estate
2005-08-15
2005-08-08
2005-08-01
2005-07-25
2005-07-18
2005-07-11
2005-07-04
2005-06-27
2005-06-20
2005-06-13
2005-06-06
2005-05-30
2005-05-23
2005-05-16
2005-05-09
2005-05-02
2005-04-25
2005-04-18
2005-04-11
2005-04-04
2005-03-28
2005-03-21
2005-03-14
2005-03-07
2005-02-28
2005-02-21
2005-02-14
2005-02-07
2005-01-31
2005-01-24
2005-01-17
2005-01-10
Finansiella analyser
3
y =-0,11+0,41x+u
2
1
0
Y=avkastning
fastigheter
X=avkastning alla
aktier
14
y
Beroende variabel
x1, x2,…,xk
Oberoende variabler
Undersökningsvariabel Förklaringsvariabler
Responsvariabel
Prediktorer
Resultatvariabler
Bakgrundsvariabler
15
y
x1, x2,…,xk
Dependent variable
Independent variables
Explained variable
Explanatory variables
Response variable
Control variables
Predicted variable
Predicted Variables
Regressand
Regressors
16
Klassisk ekonometrisk metod
1.
2.
3.
4.
5.
6.
7.
8.
Framställning av teori eller hypotes.
Specificering av den matematiska modellen för teorin.
Specificering av den ekonometriska modellen.
Erhålla data.
Estimering (skattning) av parametrarna som ingår i den
ekonometriska modellen.
Hypotesprövningar.
Prediktioner
Använd modellen för policysyften eller kontroller.
17
Illustration av de åtta stegen
Vi använder oss av ett klassiskt makroekonomiskt exempel:
Keynes konsumptionsteori och MPC (Marginal
propensity to consume; den marginella
konsumtionsbenägenheten).
-
Steg 1: Framställning av teori eller hypotes: ”Hushåll
ökar sin konsumtion när den disponibla inkomsten stiger,
dock inte med hela inkomstökningen.”
(Jmf ”Priset på bostadsrätter ökar med y% när den
disponibla inkomsten stiger med x%”)
18
Illustration av de åtta stegen
•
Steg 2: Specificering av den matematiska modellen för
Keynes teori. :
Låt C beteckna konsumtion och I disponibel inkomst. En
matematisk modell för teorin kan då vara:
C = b0 + b1 I
-
b0 och b1 är modellens parametrar: intercept- respektive
-
lutningskoefficienterna.
b0 anger hur stor konsumtionen är då inkomsten är 0 kr.
b1 mäter den marginella konsumtionsbenägenheten.
19
Illustration av de åtta stegen
Steg 2 fortsättning:
C = b0 + b1 I
•
Linjär konsumtionsfunktion.
•
K är en funktion av I, därför säger vi att C är den
beroende variabeln, medan I är den oberoende
(förklarande) variabeln.
•
Antagande om kausalitet (orsakssamband) mellan C och
I: kausaliteten går in en riktning, dvs I antas orsaka C och
inte tvärtom.
20
Illustration av de åtta stegen
Steg 3: Specificering av den ekonometriska modellen.
•
Notera följande i den matematiska modellen i steg 2:
C = b0 + b1I antar att det finns ett exakt eller
deterministiskt samband mellan konsumtion och inkomst.
Men relationer eller samband mellan ekonomiska
variabler är vanligtvis inexakta: kan vi förvänta oss att
alla datapunkter (C, I) ligger på en rät linje om vi samlar
in data från säg 100 hushåll? Nej! Varför?
Andra variabler påverkar konsumtion (ålder, storlek på
hushållet, religion, etc etc).
21
Illustration av de åtta stegen
•
Steg 3 fortsättning: Specificering av den ekonometriska
modellen.
•
Den ekonometriska modellen tar hänsyn till att ekonomisk
teori inte kan exakt kan förklara hushållens beteenden.
•
För att tillåta inexakta relationer eller samband mellan
ekonomiska variabler specificerar vi följande
ekonometriska modell: C = b0 + b1I + u, där u är
feltermen (error term, disturbance).
•
Feltermen u representerar alla de variabler som påverkar
konsumtionen, men som inte ingår i modellen explicit:
våra ”unobserved”.
22
Illustration av de åtta stegen
•
Steg 3 fortsättning: Specificering av den ekonometriska
modellen.
•
C = b0 + b1 I + u
•
Exempel på en enkel linjär regressionsmodell.
•
Den ekonometriska modellen för konsumtion består av
två komponenter: en del som beror linjärt på inkomsten I
och en del som är slumpmässig.
23
Illustration av de åtta stegen
•
Steg 4: Erhålla data.
•
Data är observerbara värden på en variabel.
year consumption
1984
3081,5
1985
3240,6
1986
3407,6
1987
3566,5
1988
3708,7
1989
3822,3
1990
3972,7
1991
4064,6
1992
4132,2
1993
4105,8
1994
4219,8
1995
4343,6
1996
4486,0
1997
4595,3
1998
4714,1
1999
4801,2
2000
4920,5
2001
5011,3
2002
5140,5
2003
5230,2
2004
5330,7
2005
5390,6
2006
5500,0
income
4620,3
4803,7
5140,1
5323,5
5497,7
5649,5
5865,2
6062,0
6136,3
6079,4
6244,4
6389,6
6610,7
6742,1
6928,4
7100,6
7220,3
7350,3
7499,2
7600,0
7722,2
7832,4
7945,2
24
Illustration av de åtta stegen
•
Steg 4 fortsättning: Erhålla data.
•
Tvärsnittsdata består av urval av individer, hushåll,
företag, regioner, städer, länder etc tagna vid en given
tidpunkt (ignorerar små skillnader i timing).
Exempel: huspriser 2006. BNP för alla länder 2006.
Även för givna veckor, månader, kvartal,…
•
Tidsseriedata består av observationer på en eller flera
variabler över tiden.
Exempel: årliga huspriser 1980 till 2006. Svensk BNP för
perioden 1980 till 2006. KPI. FPI. Vårt
konsumtionsexempel.
Datafrekvens: dagar, veckor, månader, kvartal, år,…
25
Illustration av de åtta stegen
•
Steg 4 fortsättning: Erhålla data.
•
Vissa data har både tvärsnitts- och tidsseriedimension.
•
Exempel: Paneldata (longitudinell data) består av
observationer på en eller flera variabler på samma
objekt/individer över tiden.
Exempel:
- BNP för alla världens länder för perioden 1970 till 2004.
- Alla ni och era inkomster fr o m i år och 30 år framåt.
- Repeated Sales Price Index (vad är objektet?)
26
Illustration av de åtta stegen
•
Steg 5: Estimering av den ekonometriska modellen.
•
Med vår data kan vi estimera (skatta) parametrarna i
konsumtionsfunktionen. De numeriska värdena vi erhåller
ger konsumtionsfunktionen empiriskt innehåll.
•
Vi estimerar parametrarna med den statistiska teknik som
kallas regressionsanalys. Vi erhåller följande skattningar
av b0 och b1: –268,07 och 0,72.
•
Sålunda har vi följande estimerade (skattade)
konsumtionsfunktion:
Ibland b0
resp b1
Cˆ  bˆ0  bˆ1I  268,07  0,72I
27
Illustration av de åtta stegen
•
•
•
Steg 5: Estimering av den ekonometriska modellen.
Cˆ  bˆ0  bˆ1I  268,02  0,72I
Tolkning: För perioden 1984 – 2006 är
lutningskoefficienten (dvs MPC) 0,72.
Med andra ord, en ökning av den reala inkomsten med 1
dollar ledde, i genomsnitt, till en ökning av real
konsumtion med 72 cents.
28
Illustration av de åtta stegen
•
Steg 6: Hypotesprövning
•
Statistisk hypotesprövning innebär att man med hjälp av
slumpmässiga urval bedömer trovärdigheten i hypoteser –
antaganden – angående populationen.
•
Vi vill med hypotesprövning fastställa hur mycket bevis
för att en viss hypotes är sann som finns i vårt urval.
•
I vårt fall är nollhypotesen att MPC < 1.
- Kan vi förkasta den eller inte?
•
Begrepp: nollhypotes, alternativhypotes, teststatistika,
kritisk region.
29
Illustration av de åtta stegen
•
Steg 7: Prediktion
•
Givet att vår modell inte har motbevisat vår teori eller
hypotes, kan vi använda den för att göra prognoser
(forecasts, predictions).
•
Med hjälp av kända eller förväntade framtida värde(n) på
den oberoende (förklarande) variabeln, kan vi erhålla
prediktion av den beroende variabeln.
•
Antag att vi vill göra en prediktion av den genomsnittliga
konsumtionen för år 2008. Antag att vi förväntar oss att
inkomsten (GDP) för 2008 kommer att bli 8050. Vi
erhåller då prediktionen
Cˆ  268,02  0,72(8050)  5535.
30
Illustration av de åtta stegen
•
Steg 8: Använd modellen för policysyften eller kontroller
•
Antag att regeringen tror att om konsumtionen uppgår till
5600 (miljarder dollar) kommer arbetslösheten hamna på
4,5%.
•
Hur stor måste inkomsten vara för att konsumtionen ska
uppnå 5600?
5600  268,02  0,72 I

I  7414.
•
Med finans- (och ev. penningpolitiska medel) kan
regeringen manipulera kontrollvariablen I för att uppnå
den önskvärda nivån på målvariabeln C.
31
Statistikprogram ett måste
•
•
•
•
•
•
•
Excel
SPSS
Eviews
Stata
Matlab
R
SAS
32
Övningar på att tolka skattade regressionslinjer
y = b0 + b1* x1
Modell
Beroende
variabel
Oberoende
variabel
Tolkning
av b1
y
x1
y = b1 x
Log-log
log(y)
log(x1)
%y = b1 %x
Log-level
log(y)
x1
%y = (100b1) x
Level-level
33
Övningar på att tolka skattade regressionslinjer
pris = b0 + b1*Boyta = 10 + 50 000*Boyta
Tolkning:
b1 anger hur mycket pris ändras i genomsnitt när
boyta ökar med en kvm.
ln(pris) = b0 + b1*ln(Boyta) = 10 + 0,80*Boyta
Tolkning: elasticiteter
(här priselasticitet m.a.p. Boyta).
b1 anger hur många procent pris ändras i
genomsnitt när boyta ökar med 1 procent.
(1 procents ökning av boytan leder till att pris ökar
med i genomsnitt 0.80%)
34
Övningar på att tolka skattade regressionslinjer
ln(pris) = b0 + b1*rum = 10 + 0.50*rum
Tolkning: semi-elasticiteter
b1 anger hur många procent pris ändras i
genomsnitt när rum ökar med 1 enhet.
(För varje rum så ökar pris ökar med i
genomsnitt 50%)
35
Övningar på att tolka skattade regressionslinjer
pris = b0 + b1*Boyta + b2*standardpoäng
= 10 + 40 000*Boyta + 10 000*standardpoäng
Tolkning:
b1 anger hur mycket pris ändras i
genomsnitt när boyta ökar med en kvm, och
standardpoäng är konstant (ceteris paribus
tolkning).
b2…
36
Övningar på att tolka skattade regressionslinjer
(US-English)
log(price) = 10 + 0.65*log(sqrft) – 0.066*bedrooms + 0.15*baths
- The price elasticity with respect to square footage is 0.65.
Holding bedrooms and baths fixed, a 1 percentage
increase in square footage is predicted to increase housing
price (price) by about 0.65% (on average).
- Given size (sqrft) and number of bedrooms, one more
bathroom (baths) is predicted to increase housing price
(price) by 15% (on average).
- Varför negativt tecken på koefficienten för bedrooms?
37
Övningar på att tolka skattade regressionslinjer
med dummyvariabler (binär variabel)
log(pris) = b0 + b1*log(Boyta) + b2*strandtomt
= 10 + 0.70*log(Boyta) + 0.65* strandtomt
- strandtomt är en dummyvariabel som är lika med 1 om
huset är byggt på en strandtomt, annars 0.
- Hus på strandtomter är i genomsnitt 65% dyrare än andra
hus, allt annat lika.
38
Sammanfattning 1
Vi vill försöka fastställa kasualt samband mellan
variabler. Vad har variabel x för kasual effekt på
variabeln y? Att ”fånga in” verkligheten i en modell.
Teoretiska modellen (enkel linjär regression):
y = b0 + b1*x + u
y: beroende variabel, undersökningsvariabel
x: oberoende variabel, förklarande variabel
u: felterm, slumpterm: fångar in de variabler som ej är observerade.
b0 och b1: regressionskoefficienter, okända parametrar som ska skattas.
b0: intercept med y-axeln: värdet på y när x = 0. Ofta av lite intresse.
b1: anger lutningen på regressionslinjen.
Man kan säga att ett viktigt mål med regressionsanalys
är att erhålla skattningar av de okända parametrarna (bparametrarna).

39
Sammanfattning 1
Den multipla linjära regressionsmodellen
k oberoende variabler och ett intercept => finns k + 1
stycken (okända) parametrar att skatt (vilka?).
Oavsett hur många oberoende variabler vi har inkluderat
i vår modell kommer det alltid att finnas faktorer som vi
inte kan inkludera. Än en gång är det feltermen u som
samlar in alla ”icke observerade” faktorer.
Pris = f(x1, x2, x3,…).


Problem med multikollinearitet.
Ceteris paribus tolkning.
40
Några datorövningar
Gör övningar i Excel! Var kreativ, prova, experimentera!
•Rent rates.xls
•Huspriser Norra Ängby 1.xls
•Huspriser_1.xls
•Norra och Södra Ängby.xls
•Glöm
Huspriser_2.xls
ej deskriptiv statistik, korrelation etc.
41
Del II: Statistisk inferensteori &
hypotesprövning
•Statistisk slutledning eller statistisk inferens
är konsten att göra intelligenta gissningar med
hjälp av slumpmässiga urval.
•Med ett slumpmässigt urval (exv. fastighetsförsäljningar ett visst år) kan vi skatta okända
parametrar – till exempel medelvärden och
varianser – för populationen.
•Dessutom kan vi pröva hypoteser –
antaganden – om populationen.
42
Statistikteori
• Population - parametrar
• Urval - skattningar
• Statistiska slutsatser
Population
Samtliga fastigheter
– Skatta parametrar
– Testa hypoteser
Urval
Vi vill med hjälp av vårt
urval dra slutsatser
om populationen!
Sålda fastigheter
43
Varför urval (stickprov eller sampel)?
För dyrt och/eller omöjligt med
totalundersökning.
Omöjligt fall: ”Sample” = blodprov.
Småhusförsäljningar: Hur skulle en
”Drömsituation” för fastställande av
taxeringsvärden se ut?
44
Skatta parametrar: Från population till
skattningar
Punktskattningar av medelvärdet  (exempel på lägesmått)
och variansen 2 (exempel på spridningsmått) i en
population.
Populationsparameter
Medelvärde
Varians
Skattningsfunktion
1 n
x   xi
n i 1

2
Våra Regressionskoefficienter…:
1 n
s 
( xi  x ) 2

n  1 i 1
2
Om tidsbrist: gå till
wordfil: LTH 2007!
45
Skattningarna kallas stickprovsmedelvärde
(aritmetiskt medelvärde) och stickprovsvarians.
Ofta används som spridningsmått
standardavvikelsen s:
s
1 n
2
(
x

x
)

i
n  1 i1
I vårt enkla linjära regressionsexempel
ovan, vilka är
- populationsparametrarna?
- skattningsfunktionerna?
46
Stickprovets regressionslinje (vid enkel
linjär regression)
• Med hjälp av minsta-kvadratmetoden (Ordinary Least Square) kan
man anpassa en rät linje, en regressionslinje, till ett datamaterial
bestående av n stycken observationspar (xi, yi).
• Dvs, för att skatta de okända regressionsparametrarna b0 och b1
använder vi oss av OLS (MK-metoden). Hur?
• Välj estimatorerna (skattningsfunktionerna)
så att summan av de kvadrerade avstånden från den anpassade räta
linjen (regressionslinjen) och de observerade talparen (xi, yi)
minimeras.
47
Stickprovets regressionslinje (vid enkel
linjär regression)
• Regressionslinjen skriver vi som
yˆ  bˆ0  bˆ1 xˆ
• För en enskild observation har vi det anpassade värdet
(i = 1,…,n).
yˆi  bˆ0  bˆ1 xˆi
• Residualen ei för observation i, är skillnaden mellan det faktiska yi och
dess anpassade värde yˆ i :
ei  yi  yˆi  yi  bˆ0  bˆ1 xˆi
• Det finns n stycken residualer.
48
Stickprovets regressionslinje (vid enkel
linjär regression)
• Välj bˆ0 och bˆ1 så att summan av de kvadrerade residualerna
N
N
N
ˆ  bˆ xˆ ) 2
ˆ
e

(
y

y
)

(
y

b
  i i  i 0 1i
I 1
2
i
2
I 1
I 1
Blir så liten som möjligt. Lösningen till minimeringsproblemet ger oss
skattningsfunktionerna
n
bˆ0  y  bˆ0 x och bˆ1 
 ( x  x )( y
i
i 1
i
 y)
n
2
(
x

x
)
 i
i 1
49
Stickprovets regressionslinje
• Ovanstående formler gäller om vi har en oberoende variabel (dvs enkel
linjär regressionsanalys).
• Om multipel linjär regressionsanalys, då är det matrisalgebra som
gäller (mer om multipel regressionsanalys senare).
• Under vissa förutsättningar är OLS-skattningarna väntevärdesriktiga
och effektivaste av alla möjliga skattningar.
• Nu när vi vet principen för hur vi finner våra OLS-skattningar
fortsätter vi med statistisk inferens och speciellt hypotesprövningar.
• SE WORDFIL LTH2007!
50
Två Fallgropar
• Heteroskedasticitet - ej konstant varians
• Multikollinearitet - hög inbördes korrelation
mellan olika oberoende variabler
51