审核辛苦!
本人普通双非院校硕士在读,上半年因科研内容需要,整理了高铁相关的城市级数据。(
说明:由于数据均为本人手动整理,故可能存在部分错误)
数据内容如下:
(1)高铁线路开通相关数据(不同于常见的使用全国列车时刻表收集的方法)——使用爬虫软件,从中国动车组网(首页-记录动车组列车发展历程——慧伊创新科技(北京)有限公司 (china-emu.cn))爬取我国高速客运专线线路相关信息。包括已开通线路属性信息+站点及站点开通时间(站点数据中已手动剔除未开通站点)。
(2)2003年-2016年282个城市(不含港澳台和西藏)19个经济指标
平衡面板数据。具体指标如下图:
(3)从CEADs下载中国城市
CO2排放数据,之后与(2)中数据进行匹配后的
平衡面板数据,包含人均碳排放和单位GDP碳排放。
(4)从中经网下载中国城市
PM2.5排放数据,之后与(2)中数据进行匹配后的
平衡面板数据。
(5)在高铁研究中常用作工具变量——
地形起伏度。包括①省②城市③县。
(6)
一周成稿***将(1)中高铁线路信息整理为①表示高铁开通的虚拟变量②表示高铁开通强度的连续变量后,与(5)中的地形起伏度和(3)中数据进行匹配后的平衡面板数据。
可直接用于研究高铁开通对城市CO2排放的影响(直接导入Stata即可跑模型,然后导出回归结果,一周内成稿没问题)。
注:关于高铁线路开通代理变量的赋值——首先按照国家铁路局定义对高铁线路数据进行筛选。本数据以2008年京津城际高速客运专线为始。
①表示高铁开通的虚拟变量分为两类。第一类,若城市在当年6月30日及之前开通高铁则赋值为1,在当年7月1日及之后开通高铁则赋值为0;第二类,若城市当年(无论什么月份)开通高铁,则赋值为1,否则为0。 ②表示高铁开通强度的连续变量分为两类。第一类,若城市在当年6月30日及之前开通高铁则赋值为1,在当年7月1日及之后开通高铁则赋值为0,并累加开通数量;第二类,若城市当年(无论什么月份)开通高铁,则赋值为1,否则为0,并累加开通数量。(下同)
(7)
一周成稿***将(1)中高铁线路信息整理为①表示高铁开通的虚拟变量②表示高铁开通强度的连续变量后,与(5)中的地形起伏度和(4)中数据进行匹配后的平衡面板数据。
可直接用于研究高铁开通对城市PM2.5排放的影响(直接导入Stata即可跑模型,然后导出回归结果,一周内成稿没问题)。
(8)引流数据(来源网络):①CEADs上下载的1997-2019年290个中国城市碳排放清单 ②各地级市之间-公路交通距离数据 ③空间相邻矩阵-市(若两城市相邻则取值为1,反之为0) ④网上售卖最多的中国高铁线路开通数据(截至2021年10月14日) ⑤2003-2018年284个地级市面板数据(
非平衡面板),包含116个指标(数据来源:中国城市统计年鉴)。 ⑥CEADs上下载的1997-2017年中国县级尺度二氧化碳排放清单 ⑦2001-2019年建设高铁时刻表
①
②
③
④
⑥
⑦
(9)①有关高铁的空间溢出研究通常使用空间计量方法,需要用到空间权重矩阵。②高铁实证研究
stata全程操作(TWFE、平行趋势检验、安慰剂检验、稳健性检验、Group-time、GB分解、异质性讨论等)这部分内容有需要的请评论留言或私信。
以上(1)-(7)&(9)数据均为本人手动整理,故可能会存在部分错误,上述关于数据的说明若有表达不清的地方,请大家在评论区指出,我会尽快更正。
若购买后需要相关变量的文献支撑可以联系我;有高铁实证研究方面的问题可在评论区留言或私信,大家一起讨论。
这是本人第一次通过这种方式分享自己整理的数据,由于本人学疏才浅,在对上述数据的整理过程中可能存在一定的纰漏,希望各位能够理解。同时在整理方法上可能不够完善,希望各位不吝赐教。最后关于数据的定价问题,因为本人并不精通数据处理,因此数据整理过程自认为比较耗时耗力,因此价格可能有不合理的地方,请各位在评论区留言,帮助我对我的数据进行合理定价。