先不说清洗工业企业数据库,光是在处理好之后的工业企业数据库基础上获得企业经纬度数据来来回回、重复多次修正花费了一年多的时间(侧面保证了该数据的可信度和准确度),并且每次都是同时使用十几台电脑批量爬取。
我已尽全力清洗工业企业数据库相关信息,包括企业的名字、地址、省份、城市、县、乡镇、街道、居委会、乡镇街道级别行政代码等等信息,尽最大可能确保用于爬取企业经纬度信息的相关变量的准确性。
在清理完数据之后,我总共使用了四套方式获取2000-2013年工业企业的经纬度。每种方式获得的企业经纬度输出信息包括:企业的经纬度信息、该经纬度信息是否精确(1代表精确)、该经纬度信息可信度 (如80%、75%、70%...)、该经纬度所代表地址类型 (如:企业门址、商场、政府单位...)。
数据的精确性:肯定的是企业经纬度信息存在误差,但是我尽全力降低了误差。总体来讲,这个数据可信度和准确度都是前无古人后无来者(可提高的空间非常小)。在这四种方式下,从2000 到 2013年,只有不到7000的观测值没有任何的经纬度信息;经纬度信息精确度为1的观测值占68.63%;经纬度信息精确度为1 或 经纬度信息可信度大于70%的观测值占95.42%。
用途:我并没有根据自己的判断去最终选取企业-年度的经纬度信息,而是提供所有的原始经纬度数据主要有两个考虑。其一:每个人对怎么选取更精确的企业经纬度的品味和判断不同,企业经纬度的选取根据课题不同而也有所不同。其二:单从数据出发,可以有好几个非常有趣也很有潜力的项目可以做。
售后服务:可以提供更详尽数据解释,以及必要讨论。志同道合,也可以一起合作。
其它:数据为STATA格式,其中一些变量后面的数字尾缀与上面四个方式先后顺序一致。
附件列表