学术青椒们往往在找数据环节感觉无比苦恼。想做成一个长面板,确实不是容易的事情。博主本人在找数据中就常常碰到,wind数据库与统计年鉴不一致,市级统计年鉴、省级统计年鉴、城市统计年鉴、中国统计年鉴以及统计公报相互之间数据掐架的情况。数据的清洗非常重要。一个小小的体会是,当遭遇多个来源的同一数据不一致时,需要根据趋势来加以选择。明显的偏大或者偏小都是值得警惕的,很多时候是把”单位“搞错了,或者小数点位搞错了,当然也存在统计口径不一致的问题。特别忌讳的是,"拿来主义",因为如此则数据质量根本无法把控。网上的现成的数据可以用于做比对分析,仅此而已。