2. Brundell Freij Hur bra behöver vi mäta

Hur bra behöver vi mäta?
(Vad är det att mäta ”bra”?)
Karin Brundell Freij WSP Analys och strategi
Nya möjligheter att mäta i kollektivtrafiken
2016-­11-­17
Mitt budskap
à Fritt efter Georges Box:
All measurements are wrong, but some are useful
à
à
à
à
På vilka sätt kan mätningar vara fel?
Hur fel får data vara utan att bli ”oanvändbara”?
Hur beror det på sammanhanget?
Hur kan vi minska skadeverkningarna av oundvikliga mätfel? à Tes: det är lika vanligt med överkrav som underkrav
Brister kan bli problem – men inte nödvändigtvis àValiditet
proxies inte så dumt
àReliabilitet volym kan kompensera –𝟏/ 𝑵
àSkevhet – Bias
Differenser ändå OK?
àPrecision
Stora effekter kan identifieras ändå
IBLAND KAN KVANTITET ERSÄTTA KVALITET
Men inte alltid…
Sambandet mellan datamängd och kvalitet
à Representation och representativitet
Population
Data
Big data: Mer! Men kanske mindre representativt? à Om materialet är ”representativt” spelar täckningsgraden
ingen roll (t ex svarsfrekvensen)
§ Men… dålig svarsfrekvens -­> större risk för skevhet
à Mängden data alltid betydelsefull:
- Precision
- Möjlig upplösning - Ofta orimliga önskemål om geografisk upplösning
Nyckelfrågan: vad ska vi ha data till?
à En, genomsnittlig, andel: (exempel marknadsandelen)
§ Urvalet och täckningen kan få vara mycket små
§ Representativiteten däremot avgörande
§ Storskalig RVU är fel verktyg! (”Small data”)
à Förändringar i resbeteende över tid
§ Många förändringar går långsamt
§ Osäkerheten i olika undersökningar adderas § Behövs därför hög precision:
- Större volymer, men jämförbarhet viktigast! ( t ex årstidsvariation)
à Geografisk fördelning, resrelationer – t ex resmatriser
§ Ofta väldigt många celler
§ Men tydliga mönster
§ Extrema krav på volym – men mindre krav på generell representativitet
à Absoluta resandevolymer (tex incitamentsavtal)
§ Svårt med urvalsundersökningar! Mycket höga krav på representativitet och precision
När kan man överväga traditionell mass-­RVU?
à När vi vill skapa underlag för t ex linjenätsplanering
För att upplösningen behövs – men får vi den?
§ Resrelationer
§ Stabil bild som står sig över många år
à När vi vill förstå och förklara
För att informationen behövs – men får vi den?
§ Modellering
§ Ärendeuppdelning
§ (De flesta) socioekonomiska data
à Vad kan vi göra annars (medan vi väntar på nya datakällor)?
§ Syntetiska data – utnyttja smarta antaganden och kända samband för att spä på information
Finns både över-­ och underskattade problem
à Överskattat problem:
§ ”Vi kan inte fokusera på de nuvarande kunderna – det är ju icke-­kunderna vi vill locka”
- Data om de nuvarande resenärerna är väldigt mycket enklare att skaffa – dumt att inte utnyttja det
- Kommande resenärer finns i utkanten av de nuvarande. Inte någon helt annanstans.
à Underskattade problem:
§ Skevheter i ”det interna bortfallet” mm
- Reslängden känd för 80% av RVUns arbetsresor, men bara 60% av serviceresorna. (Påverkar hur man bör beräkna genomsnittlig reslängd)
- Hälften av gångresandet är ”resor längre än 20 km” !!??
- Geografisk princip för rapporteringen av antalet påstigande – olika för olika linjer
§ ”Överförklaring” av förändringar – okända omvärldsfaktorers betydelse Beakta kvalitet och representativitet!
Gör medvetna avvägningar!