数据来源:全球法律与监管网(http://policy.mofcom.gov.cn/)、中国法律资源数据库(http://www.lawyee.org)、万方数据库(http://c.g.wanfangdata.com.cn)、中国知网(CNKI,https://www.cnki.net/)、PKULaw.com数据库(https://pkulaw.com/)和中国及其部委的官方网站等。
数据收集:该数据集提供了从改革开放(1978年)到2019年中国环境政策强度40年来的结果。具体而言,数据集包括中国政府每年发布的所有环境政策相应的政策强度。通过检索“节能”、“减排”、“减少污染物排放”、“污染物”、“低碳”、“能源”等关键词,搜索到总计1912项环境监管政策。
文本预处理:在处理文本数据的过程中构建了一个适用于环境政策的特定词典。构建的术语-文档矩阵包含了政策文档中出现的所有词,但是很多词对环境政策强度的重要性不大,因此在形成特定词典之前对这些词进行筛选。筛选后的词语分为政策目标和政策措施两个方面,代表目标和措施的词语不重复,并统计筛选后词语的词频。
构建模型:通过手动阅读并评估每项政策的措施和目标的强度。每项政策都由多个评估者独立评估,每项政策的强度等级为1到5,反映了政策对某些措施或目标的重视程度。环境政策强度计算公式如下:

其中t代表年份,i代表政策,Mtik是某年k个政策措施强度之和,Otin是某年n个政策目标强度之和。
接下来使用随机森林来构建政策强度与词汇的模型,并衡量每个词汇的重要性、给出政策强度的关键指标,以不对模型进行任何假设的方式衡量词汇的重要性,其中Xi的重要性公式计算方式如下:

其中L表示由所有变量X计算的损失函数值,L*i表示由除Xi以外的变量计算的损失函数值。
数据包括:
(1)Key variables importance.xlsx
包括政策措施(PolicyMeasures)和政策目标(Policy Objectives)的相应词汇。政策措施包括人事措施、行政措施、财税措施、金融措施、引导措施和其他经济措施等。政策目标包括防治污染、提高节能减排成效、树立节能减排意识、促进产业升级、提高能源利用效率、优化能源消费结构、推动节能技术改造和减排。
(2)Key variablesimportance.xlsx
其中Dropout-loss是以损失函数计算的词汇重要性和重要性前20的词汇;IncMSE和IncNodePurity分别是以均方误差(INCMSE)和节点纯度(INCnodePuri
ty)计算的重要性和重要性前20的词汇。
(3)1978-2019年中国环境政策强度.zip
包括了1978年到2019年的环境政策及其强度,字段含义如下:
Year:年份
PolicyNumber:每年的环境政策的编号
PolicyName:环境政策中文名
EnvironmentalPolicy in English:环境政策英文名
PolicyIntensity (machine quantification):基于学习的模型估计的政策强度得分
PolicyIntensity (manual quantification):专家人工评分的政策强度得分
PolicyType:一共三类,分别是命令控制型环境政策(CCEP)、市场主导型环境政策(MBEP)和公众参与型环境政策(PPEP)。该数据集包括1391个CCEP政策、292个MBEP政策和229个PPEP政策
参考文献:Zhang G,Gao Y, Li J, et al. China’s environmental policyintensity for 1978–2019[J]. Scientific data, 2022,9(1): 1-10.