LTH, 25 september 2007 Ekonometrisk analys av fastighetsmarknader (tillämpad regressionsanalys) 1 Mål Efter dagens övningar ska du kunna • Bygga, skatta och tolka hedoniska prismodeller för småhus i Excel. • Tolka och läsa olika ekonometriska analyser, med betoning på fastighetsekonomiska tillämpningar. 2 Vad är ekonometri (econometrics)? Ekonometri handlar om samband mellan olika ekonomiska variabler. Några citat: • “Econometrics is concerned with the systematic study of economic phenomena using observed data.” 3 Vad är ekonometri (econometrics)? Ekonometri handlar om samband mellan olika ekonomiska variabler. Några citat: • “Econometrics is concerned with the systematic study of economic phenomena using observed data.” • “Econometrics is concerned with the empirical determination of economic laws.” 4 Vad är ekonometri (econometrics)? Ekonometri handlar om samband mellan olika ekonomiska variabler. Några citat: • “Econometrics is concerned with the systematic study of economic phenomena using observed data.” • “Econometrics is concerned with the empirical determination of economic laws.” • “Econometrics is based upon the development of statistical methods for estimating economic relationships, testing economic theories, and evaluating and implementing government and business policy. 5 Matematik Statistik Ekonomi Ekonometri • En ekonometriker ska i allmänhet vara en kompetent matematiker och statistiker med en i grund och botten ekonomisk skolning. De tre ingredienserna i ekonometri är - ekonomisk teori - ekonomiska data och - statistiska metoder (främst multipel regressionsanalys). 6 Kategorier Ekonometri Teoretisk Klassisk Bayesiansk Tillämpad Klassisk Bayesiansk 7 Linjär regressionsanalys Beskrivning och analys av linjära samband mellan en beroende variabel (y) och en eller flera förklarande (oberoende) variabler (x1, x2,…,xk): y = f (x1, x2,…,xk) • Enkel linjär regressionsanalys: en förklarande variabel, t ex Pris = b0 + b1Boyta + u • Multipel linjär regressionsanalys: flera förklarande variabler, t ex Pris = b0 + b1Boyta + b2Standardpoäng + u 8 Linjär regressionsanalys Vi vill bygga och skatta en modell som kan förklara verkligheten – ”what’s going on out there?” •Vilka variabler ska ingå i modellen? •Hur ska det matematiska sambandet mellan den oberoende variabeln och de förklarande variablerna se ut? •Vi är intresserade av Kasualitet: Beror BNPökningen på ökat byggande, eller ökat byggande på ökad BNP? 9 Jämför korrelation: skilj på statistiska samband Varför ekonometri i fastighetsekonomi? 10 Fastighetsvärdering/taxering Scatterplott, price and size of house in square feet. Price 800 700 y = 0,1402x + 11,204 600 2 R = 0,6208 500 400 300 200 100 0 0 500 1000 Source: HPRICE1, Wooldrige. 1500 2000 2500 3000 3500 4000 4500 Square feet 11 Makroanalyser Procent y =-1,8+0,8x+u 40 dBNP dPrice 30 20 10 0 66 19 -10 Y=förändring Pris X=förändring BNP År 68 19 70 19 72 19 74 19 76 19 78 19 80 19 82 19 84 19 86 19 88 19 90 19 92 19 -20 12 Marknadsanalyser • log(Bostadsyta) = b0 + b1log(Pris) +b1log(Inkomst) + b1log(Familjestorlek) + u Exempel: - Priselasticitet: -0,10 - Inkomstelasticitet: 0,05. - Ökar familjestorleken med 1 person så ökar efterfrågad kvantitet med drygt 5 procent. 13 -3 2005-01-03 -1 -2 Market Real Estate 2005-08-15 2005-08-08 2005-08-01 2005-07-25 2005-07-18 2005-07-11 2005-07-04 2005-06-27 2005-06-20 2005-06-13 2005-06-06 2005-05-30 2005-05-23 2005-05-16 2005-05-09 2005-05-02 2005-04-25 2005-04-18 2005-04-11 2005-04-04 2005-03-28 2005-03-21 2005-03-14 2005-03-07 2005-02-28 2005-02-21 2005-02-14 2005-02-07 2005-01-31 2005-01-24 2005-01-17 2005-01-10 Finansiella analyser 3 y =-0,11+0,41x+u 2 1 0 Y=avkastning fastigheter X=avkastning alla aktier 14 y Beroende variabel x1, x2,…,xk Oberoende variabler Undersökningsvariabel Förklaringsvariabler Responsvariabel Prediktorer Resultatvariabler Bakgrundsvariabler 15 y x1, x2,…,xk Dependent variable Independent variables Explained variable Explanatory variables Response variable Control variables Predicted variable Predicted Variables Regressand Regressors 16 Klassisk ekonometrisk metod 1. 2. 3. 4. 5. 6. 7. 8. Framställning av teori eller hypotes. Specificering av den matematiska modellen för teorin. Specificering av den ekonometriska modellen. Erhålla data. Estimering (skattning) av parametrarna som ingår i den ekonometriska modellen. Hypotesprövningar. Prediktioner Använd modellen för policysyften eller kontroller. 17 Illustration av de åtta stegen Vi använder oss av ett klassiskt makroekonomiskt exempel: Keynes konsumptionsteori och MPC (Marginal propensity to consume; den marginella konsumtionsbenägenheten). - Steg 1: Framställning av teori eller hypotes: ”Hushåll ökar sin konsumtion när den disponibla inkomsten stiger, dock inte med hela inkomstökningen.” (Jmf ”Priset på bostadsrätter ökar med y% när den disponibla inkomsten stiger med x%”) 18 Illustration av de åtta stegen • Steg 2: Specificering av den matematiska modellen för Keynes teori. : Låt C beteckna konsumtion och I disponibel inkomst. En matematisk modell för teorin kan då vara: C = b0 + b1 I - b0 och b1 är modellens parametrar: intercept- respektive - lutningskoefficienterna. b0 anger hur stor konsumtionen är då inkomsten är 0 kr. b1 mäter den marginella konsumtionsbenägenheten. 19 Illustration av de åtta stegen Steg 2 fortsättning: C = b0 + b1 I • Linjär konsumtionsfunktion. • K är en funktion av I, därför säger vi att C är den beroende variabeln, medan I är den oberoende (förklarande) variabeln. • Antagande om kausalitet (orsakssamband) mellan C och I: kausaliteten går in en riktning, dvs I antas orsaka C och inte tvärtom. 20 Illustration av de åtta stegen Steg 3: Specificering av den ekonometriska modellen. • Notera följande i den matematiska modellen i steg 2: C = b0 + b1I antar att det finns ett exakt eller deterministiskt samband mellan konsumtion och inkomst. Men relationer eller samband mellan ekonomiska variabler är vanligtvis inexakta: kan vi förvänta oss att alla datapunkter (C, I) ligger på en rät linje om vi samlar in data från säg 100 hushåll? Nej! Varför? Andra variabler påverkar konsumtion (ålder, storlek på hushållet, religion, etc etc). 21 Illustration av de åtta stegen • Steg 3 fortsättning: Specificering av den ekonometriska modellen. • Den ekonometriska modellen tar hänsyn till att ekonomisk teori inte kan exakt kan förklara hushållens beteenden. • För att tillåta inexakta relationer eller samband mellan ekonomiska variabler specificerar vi följande ekonometriska modell: C = b0 + b1I + u, där u är feltermen (error term, disturbance). • Feltermen u representerar alla de variabler som påverkar konsumtionen, men som inte ingår i modellen explicit: våra ”unobserved”. 22 Illustration av de åtta stegen • Steg 3 fortsättning: Specificering av den ekonometriska modellen. • C = b0 + b1 I + u • Exempel på en enkel linjär regressionsmodell. • Den ekonometriska modellen för konsumtion består av två komponenter: en del som beror linjärt på inkomsten I och en del som är slumpmässig. 23 Illustration av de åtta stegen • Steg 4: Erhålla data. • Data är observerbara värden på en variabel. year consumption 1984 3081,5 1985 3240,6 1986 3407,6 1987 3566,5 1988 3708,7 1989 3822,3 1990 3972,7 1991 4064,6 1992 4132,2 1993 4105,8 1994 4219,8 1995 4343,6 1996 4486,0 1997 4595,3 1998 4714,1 1999 4801,2 2000 4920,5 2001 5011,3 2002 5140,5 2003 5230,2 2004 5330,7 2005 5390,6 2006 5500,0 income 4620,3 4803,7 5140,1 5323,5 5497,7 5649,5 5865,2 6062,0 6136,3 6079,4 6244,4 6389,6 6610,7 6742,1 6928,4 7100,6 7220,3 7350,3 7499,2 7600,0 7722,2 7832,4 7945,2 24 Illustration av de åtta stegen • Steg 4 fortsättning: Erhålla data. • Tvärsnittsdata består av urval av individer, hushåll, företag, regioner, städer, länder etc tagna vid en given tidpunkt (ignorerar små skillnader i timing). Exempel: huspriser 2006. BNP för alla länder 2006. Även för givna veckor, månader, kvartal,… • Tidsseriedata består av observationer på en eller flera variabler över tiden. Exempel: årliga huspriser 1980 till 2006. Svensk BNP för perioden 1980 till 2006. KPI. FPI. Vårt konsumtionsexempel. Datafrekvens: dagar, veckor, månader, kvartal, år,… 25 Illustration av de åtta stegen • Steg 4 fortsättning: Erhålla data. • Vissa data har både tvärsnitts- och tidsseriedimension. • Exempel: Paneldata (longitudinell data) består av observationer på en eller flera variabler på samma objekt/individer över tiden. Exempel: - BNP för alla världens länder för perioden 1970 till 2004. - Alla ni och era inkomster fr o m i år och 30 år framåt. - Repeated Sales Price Index (vad är objektet?) 26 Illustration av de åtta stegen • Steg 5: Estimering av den ekonometriska modellen. • Med vår data kan vi estimera (skatta) parametrarna i konsumtionsfunktionen. De numeriska värdena vi erhåller ger konsumtionsfunktionen empiriskt innehåll. • Vi estimerar parametrarna med den statistiska teknik som kallas regressionsanalys. Vi erhåller följande skattningar av b0 och b1: –268,07 och 0,72. • Sålunda har vi följande estimerade (skattade) konsumtionsfunktion: Ibland b0 resp b1 Cˆ bˆ0 bˆ1I 268,07 0,72I 27 Illustration av de åtta stegen • • • Steg 5: Estimering av den ekonometriska modellen. Cˆ bˆ0 bˆ1I 268,02 0,72I Tolkning: För perioden 1984 – 2006 är lutningskoefficienten (dvs MPC) 0,72. Med andra ord, en ökning av den reala inkomsten med 1 dollar ledde, i genomsnitt, till en ökning av real konsumtion med 72 cents. 28 Illustration av de åtta stegen • Steg 6: Hypotesprövning • Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga urval bedömer trovärdigheten i hypoteser – antaganden – angående populationen. • Vi vill med hypotesprövning fastställa hur mycket bevis för att en viss hypotes är sann som finns i vårt urval. • I vårt fall är nollhypotesen att MPC < 1. - Kan vi förkasta den eller inte? • Begrepp: nollhypotes, alternativhypotes, teststatistika, kritisk region. 29 Illustration av de åtta stegen • Steg 7: Prediktion • Givet att vår modell inte har motbevisat vår teori eller hypotes, kan vi använda den för att göra prognoser (forecasts, predictions). • Med hjälp av kända eller förväntade framtida värde(n) på den oberoende (förklarande) variabeln, kan vi erhålla prediktion av den beroende variabeln. • Antag att vi vill göra en prediktion av den genomsnittliga konsumtionen för år 2008. Antag att vi förväntar oss att inkomsten (GDP) för 2008 kommer att bli 8050. Vi erhåller då prediktionen Cˆ 268,02 0,72(8050) 5535. 30 Illustration av de åtta stegen • Steg 8: Använd modellen för policysyften eller kontroller • Antag att regeringen tror att om konsumtionen uppgår till 5600 (miljarder dollar) kommer arbetslösheten hamna på 4,5%. • Hur stor måste inkomsten vara för att konsumtionen ska uppnå 5600? 5600 268,02 0,72 I I 7414. • Med finans- (och ev. penningpolitiska medel) kan regeringen manipulera kontrollvariablen I för att uppnå den önskvärda nivån på målvariabeln C. 31 Statistikprogram ett måste • • • • • • • Excel SPSS Eviews Stata Matlab R SAS 32 Övningar på att tolka skattade regressionslinjer y = b0 + b1* x1 Modell Beroende variabel Oberoende variabel Tolkning av b1 y x1 y = b1 x Log-log log(y) log(x1) %y = b1 %x Log-level log(y) x1 %y = (100b1) x Level-level 33 Övningar på att tolka skattade regressionslinjer pris = b0 + b1*Boyta = 10 + 50 000*Boyta Tolkning: b1 anger hur mycket pris ändras i genomsnitt när boyta ökar med en kvm. ln(pris) = b0 + b1*ln(Boyta) = 10 + 0,80*Boyta Tolkning: elasticiteter (här priselasticitet m.a.p. Boyta). b1 anger hur många procent pris ändras i genomsnitt när boyta ökar med 1 procent. (1 procents ökning av boytan leder till att pris ökar med i genomsnitt 0.80%) 34 Övningar på att tolka skattade regressionslinjer ln(pris) = b0 + b1*rum = 10 + 0.50*rum Tolkning: semi-elasticiteter b1 anger hur många procent pris ändras i genomsnitt när rum ökar med 1 enhet. (För varje rum så ökar pris ökar med i genomsnitt 50%) 35 Övningar på att tolka skattade regressionslinjer pris = b0 + b1*Boyta + b2*standardpoäng = 10 + 40 000*Boyta + 10 000*standardpoäng Tolkning: b1 anger hur mycket pris ändras i genomsnitt när boyta ökar med en kvm, och standardpoäng är konstant (ceteris paribus tolkning). b2… 36 Övningar på att tolka skattade regressionslinjer (US-English) log(price) = 10 + 0.65*log(sqrft) – 0.066*bedrooms + 0.15*baths - The price elasticity with respect to square footage is 0.65. Holding bedrooms and baths fixed, a 1 percentage increase in square footage is predicted to increase housing price (price) by about 0.65% (on average). - Given size (sqrft) and number of bedrooms, one more bathroom (baths) is predicted to increase housing price (price) by 15% (on average). - Varför negativt tecken på koefficienten för bedrooms? 37 Övningar på att tolka skattade regressionslinjer med dummyvariabler (binär variabel) log(pris) = b0 + b1*log(Boyta) + b2*strandtomt = 10 + 0.70*log(Boyta) + 0.65* strandtomt - strandtomt är en dummyvariabel som är lika med 1 om huset är byggt på en strandtomt, annars 0. - Hus på strandtomter är i genomsnitt 65% dyrare än andra hus, allt annat lika. 38 Sammanfattning 1 Vi vill försöka fastställa kasualt samband mellan variabler. Vad har variabel x för kasual effekt på variabeln y? Att ”fånga in” verkligheten i en modell. Teoretiska modellen (enkel linjär regression): y = b0 + b1*x + u y: beroende variabel, undersökningsvariabel x: oberoende variabel, förklarande variabel u: felterm, slumpterm: fångar in de variabler som ej är observerade. b0 och b1: regressionskoefficienter, okända parametrar som ska skattas. b0: intercept med y-axeln: värdet på y när x = 0. Ofta av lite intresse. b1: anger lutningen på regressionslinjen. Man kan säga att ett viktigt mål med regressionsanalys är att erhålla skattningar av de okända parametrarna (bparametrarna). 39 Sammanfattning 1 Den multipla linjära regressionsmodellen k oberoende variabler och ett intercept => finns k + 1 stycken (okända) parametrar att skatt (vilka?). Oavsett hur många oberoende variabler vi har inkluderat i vår modell kommer det alltid att finnas faktorer som vi inte kan inkludera. Än en gång är det feltermen u som samlar in alla ”icke observerade” faktorer. Pris = f(x1, x2, x3,…). Problem med multikollinearitet. Ceteris paribus tolkning. 40 Några datorövningar Gör övningar i Excel! Var kreativ, prova, experimentera! •Rent rates.xls •Huspriser Norra Ängby 1.xls •Huspriser_1.xls •Norra och Södra Ängby.xls •Glöm Huspriser_2.xls ej deskriptiv statistik, korrelation etc. 41 Del II: Statistisk inferensteori & hypotesprövning •Statistisk slutledning eller statistisk inferens är konsten att göra intelligenta gissningar med hjälp av slumpmässiga urval. •Med ett slumpmässigt urval (exv. fastighetsförsäljningar ett visst år) kan vi skatta okända parametrar – till exempel medelvärden och varianser – för populationen. •Dessutom kan vi pröva hypoteser – antaganden – om populationen. 42 Statistikteori • Population - parametrar • Urval - skattningar • Statistiska slutsatser Population Samtliga fastigheter – Skatta parametrar – Testa hypoteser Urval Vi vill med hjälp av vårt urval dra slutsatser om populationen! Sålda fastigheter 43 Varför urval (stickprov eller sampel)? För dyrt och/eller omöjligt med totalundersökning. Omöjligt fall: ”Sample” = blodprov. Småhusförsäljningar: Hur skulle en ”Drömsituation” för fastställande av taxeringsvärden se ut? 44 Skatta parametrar: Från population till skattningar Punktskattningar av medelvärdet (exempel på lägesmått) och variansen 2 (exempel på spridningsmått) i en population. Populationsparameter Medelvärde Varians Skattningsfunktion 1 n x xi n i 1 2 Våra Regressionskoefficienter…: 1 n s ( xi x ) 2 n 1 i 1 2 Om tidsbrist: gå till wordfil: LTH 2007! 45 Skattningarna kallas stickprovsmedelvärde (aritmetiskt medelvärde) och stickprovsvarians. Ofta används som spridningsmått standardavvikelsen s: s 1 n 2 ( x x ) i n 1 i1 I vårt enkla linjära regressionsexempel ovan, vilka är - populationsparametrarna? - skattningsfunktionerna? 46 Stickprovets regressionslinje (vid enkel linjär regression) • Med hjälp av minsta-kvadratmetoden (Ordinary Least Square) kan man anpassa en rät linje, en regressionslinje, till ett datamaterial bestående av n stycken observationspar (xi, yi). • Dvs, för att skatta de okända regressionsparametrarna b0 och b1 använder vi oss av OLS (MK-metoden). Hur? • Välj estimatorerna (skattningsfunktionerna) så att summan av de kvadrerade avstånden från den anpassade räta linjen (regressionslinjen) och de observerade talparen (xi, yi) minimeras. 47 Stickprovets regressionslinje (vid enkel linjär regression) • Regressionslinjen skriver vi som yˆ bˆ0 bˆ1 xˆ • För en enskild observation har vi det anpassade värdet (i = 1,…,n). yˆi bˆ0 bˆ1 xˆi • Residualen ei för observation i, är skillnaden mellan det faktiska yi och dess anpassade värde yˆ i : ei yi yˆi yi bˆ0 bˆ1 xˆi • Det finns n stycken residualer. 48 Stickprovets regressionslinje (vid enkel linjär regression) • Välj bˆ0 och bˆ1 så att summan av de kvadrerade residualerna N N N ˆ bˆ xˆ ) 2 ˆ e ( y y ) ( y b i i i 0 1i I 1 2 i 2 I 1 I 1 Blir så liten som möjligt. Lösningen till minimeringsproblemet ger oss skattningsfunktionerna n bˆ0 y bˆ0 x och bˆ1 ( x x )( y i i 1 i y) n 2 ( x x ) i i 1 49 Stickprovets regressionslinje • Ovanstående formler gäller om vi har en oberoende variabel (dvs enkel linjär regressionsanalys). • Om multipel linjär regressionsanalys, då är det matrisalgebra som gäller (mer om multipel regressionsanalys senare). • Under vissa förutsättningar är OLS-skattningarna väntevärdesriktiga och effektivaste av alla möjliga skattningar. • Nu när vi vet principen för hur vi finner våra OLS-skattningar fortsätter vi med statistisk inferens och speciellt hypotesprövningar. • SE WORDFIL LTH2007! 50 Två Fallgropar • Heteroskedasticitet - ej konstant varians • Multikollinearitet - hög inbördes korrelation mellan olika oberoende variabler 51