Hur bra behöver vi mäta? (Vad är det att mäta ”bra”?) Karin Brundell Freij WSP Analys och strategi Nya möjligheter att mäta i kollektivtrafiken 2016-­11-­17 Mitt budskap à Fritt efter Georges Box: All measurements are wrong, but some are useful à à à à På vilka sätt kan mätningar vara fel? Hur fel får data vara utan att bli ”oanvändbara”? Hur beror det på sammanhanget? Hur kan vi minska skadeverkningarna av oundvikliga mätfel? à Tes: det är lika vanligt med överkrav som underkrav Brister kan bli problem – men inte nödvändigtvis àValiditet proxies inte så dumt àReliabilitet volym kan kompensera –𝟏/ 𝑵 àSkevhet – Bias Differenser ändå OK? àPrecision Stora effekter kan identifieras ändå IBLAND KAN KVANTITET ERSÄTTA KVALITET Men inte alltid… Sambandet mellan datamängd och kvalitet à Representation och representativitet Population Data Big data: Mer! Men kanske mindre representativt? à Om materialet är ”representativt” spelar täckningsgraden ingen roll (t ex svarsfrekvensen) § Men… dålig svarsfrekvens -­> större risk för skevhet à Mängden data alltid betydelsefull: - Precision - Möjlig upplösning - Ofta orimliga önskemål om geografisk upplösning Nyckelfrågan: vad ska vi ha data till? à En, genomsnittlig, andel: (exempel marknadsandelen) § Urvalet och täckningen kan få vara mycket små § Representativiteten däremot avgörande § Storskalig RVU är fel verktyg! (”Small data”) à Förändringar i resbeteende över tid § Många förändringar går långsamt § Osäkerheten i olika undersökningar adderas § Behövs därför hög precision: - Större volymer, men jämförbarhet viktigast! ( t ex årstidsvariation) à Geografisk fördelning, resrelationer – t ex resmatriser § Ofta väldigt många celler § Men tydliga mönster § Extrema krav på volym – men mindre krav på generell representativitet à Absoluta resandevolymer (tex incitamentsavtal) § Svårt med urvalsundersökningar! Mycket höga krav på representativitet och precision När kan man överväga traditionell mass-­RVU? à När vi vill skapa underlag för t ex linjenätsplanering För att upplösningen behövs – men får vi den? § Resrelationer § Stabil bild som står sig över många år à När vi vill förstå och förklara För att informationen behövs – men får vi den? § Modellering § Ärendeuppdelning § (De flesta) socioekonomiska data à Vad kan vi göra annars (medan vi väntar på nya datakällor)? § Syntetiska data – utnyttja smarta antaganden och kända samband för att spä på information Finns både över-­ och underskattade problem à Överskattat problem: § ”Vi kan inte fokusera på de nuvarande kunderna – det är ju icke-­kunderna vi vill locka” - Data om de nuvarande resenärerna är väldigt mycket enklare att skaffa – dumt att inte utnyttja det - Kommande resenärer finns i utkanten av de nuvarande. Inte någon helt annanstans. à Underskattade problem: § Skevheter i ”det interna bortfallet” mm - Reslängden känd för 80% av RVUns arbetsresor, men bara 60% av serviceresorna. (Påverkar hur man bör beräkna genomsnittlig reslängd) - Hälften av gångresandet är ”resor längre än 20 km” !!?? - Geografisk princip för rapporteringen av antalet påstigande – olika för olika linjer § ”Överförklaring” av förändringar – okända omvärldsfaktorers betydelse Beakta kvalitet och representativitet! Gör medvetna avvägningar!