全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
13 0
2026-01-23
一、数据简介
--------------------------------------------------------------------------------
    本数据集用于衡量各城市政府对污染转移问题的重视程度,并将市级指标匹配到
    A股上市公司层面。通过分析各地级市政府工作报告中污染转移相关关键词的出现
    情况,构建了"污染转移重视度"指标。


    数据来源:
    1. 各地级市政府工作报告词频统计数据
    2. 上市公司行业与地区信息数据
    3. 上市公司基本信息数据(含公司详细信息、多级行业分类等)


    时间范围:2003年 - 2024年
    空间范围:中国各地级市


8.jpg




二、核心指标说明
--------------------------------------------------------------------------------
    【指标1】污染转移重视度attention(虚拟变量)
   
    【计算公式】
    污染转移重视度attention = 1  如果 污染转移关键词总词频 > 0
    污染转移重视度attention = 0  如果 污染转移关键词总词频 = 0
   
    【指标含义】
    该指标为0-1虚拟变量,取值为1表示该城市当年政府工作报告中出现了污染转移
    相关关键词,说明地方政府对污染转移问题有所关注;取值为0则表示未提及。


    --------------------------------------------------------------------------
   
    【指标2】污染转移关键词总词频(连续变量)
   
    【计算公式】
    污染转移关键词总词频 = 污染转移相关关键词出现次数的总和
   
    【关键词范围】
    包括从"污染转移"到"异地排放"之间的所有污染转移相关关键词。
   
    【指标含义】
    该指标为连续变量,数值越大表明该城市政府对污染转移问题的关注程度越高。


6.jpg


5.jpg


三、数据描述性统计
--------------------------------------------------------------------------------
    根据数据质量评估报告,上市公司层面数据的描述性统计如下:


    【污染转移关键词总词频】
    - 样本量(Obs):58,706
    - 均值(Mean):0.0392
    - 标准差(Std. Dev.):0.2325
    - 最小值(Min):0
    - 最大值(Max):3
    - 中位数(P50):0
    - 25%分位数(P25):0
    - 75%分位数(P75):0
    - 99%分位数(P99):1
    - 偏度(Skewness):6.59
    - 峰度(Kurtosis):49.87


    【污染转移重视度attention】
    - 样本量(Obs):58,706
    - 均值(Mean):0.0312(即约3.12%的观测值为1)
    - 标准差(Std. Dev.):0.1739
    - 最小值(Min):0
    - 最大值(Max):1


    【数据特征说明】
    - 大部分城市的政府工作报告中未提及污染转移相关关键词
    - 指标呈现明显的右偏分布
    - 约96.88%的观测值污染转移重视度为0




四、数据文件说明
--------------------------------------------------------------------------------
    本数据包包含以下文件:


    【原始数据文件】
    1. 污染转移词频原始数据.dta
       - 内容:各地级市历年政府工作报告中污染转移相关关键词的词频统计
       - 变量:文件名(含城市和年份信息)、各污染转移关键词词频


    2. 城市编码.dta
       - 内容:城市名称与标准城市代码的对照表
       - 用途:用于城市名称标准化和匹配


    3. 上市公司行业与地区信息数据.dta
       - 内容:A股上市公司的基本信息和所属地区
       - 变量:证券代码、证券简称、所属城市、所属城市代码、行业代码等


    4. 行业代码/上市公司基本信息数据.dta
       - 内容:上市公司的详细基本信息
       - 变量:公司名称、上市日期、多级行业分类、经营范围、注册资本等


    【计算结果文件】
    1. 计算结果未剔除未缩尾版本(市级).dta / .xlsx
       - 内容:市级污染转移重视度数据
       - 观测单位:城市-年份
       - 主要变量:
         · 城市:城市名称
         · 城市编码:标准城市代码
         · 年份:数据年份(2003-2024)
         · 污染转移重视度attention:虚拟变量(0/1)
         · 污染转移关键词总词频:关键词出现次数合计


    2. 计算结果未剔除未缩尾版本(匹配上市公司).dta / .xlsx
       - 内容:上市公司层面的污染转移重视度数据
       - 观测单位:公司-年份
       - 样本量:58,706条记录
       - 主要变量:
         · 证券代码:上市公司证券代码
         · 证券简称:上市公司证券简称
         · 公司名称:上市公司全称
         · 公司中文简称:公司中文简称
         · 公司英文名称:公司英文全称
         · 所属城市:公司注册所在城市
         · 所属城市代码:城市标准代码
         · 年份:数据年份(2003-2024)
         · 污染转移重视度attention:虚拟变量(0/1)
         · 污染转移关键词总词频:关键词出现次数合计
         · 行业代码/行业名称:证监会行业分类代码及名称
         · 行业代码A-D/行业名称A-D:多级行业分类
         · 上市日期:公司上市日期
         · 股票类型:A股/B股等
         · ABH股交叉码:交叉上市代码
         · 成立日期:公司成立日期
         · 退市日期:退市日期(如适用)
         · 注册资本:公司注册资本
         · 经营范围:公司经营范围描述
         · 公司沿革:公司发展历史沿革


    【代码文件】
    1. 上市公司污染转移重视度计算代码.do
       - Stata版本计算代码


    2. 上市公司污染转移重视度计算代码.py
       - Python版本计算代码


    3. 上市公司污染转移重视度评估代码.do
       - Stata版本数据质量评估代码


    4. 上市公司污染转移重视度评估代码.py
       - Python版本数据质量评估代码


    【评估报告】
    数据质量评估报告_YYYYMMDD/
       - 数据分布分析/:描述性统计、频率分布、缺失值统计
       - 分布图/:直方图、箱线图、核密度图、时间趋势图
       - 异常值检验/:IQR法、Z-score法异常值检测结果
       - 逻辑合理性验证/:时间序列连续性、指标范围检验
       - 稳健性测试/:不同样本期、不同处理方式对比


9.jpg




五、变量详细说明(上市公司版本)
--------------------------------------------------------------------------------
    变量名称                    变量类型    变量说明
    --------------------------------------------------------------------------
    证券代码                    字符串      6位数字的股票代码
    证券简称                    字符串      上市公司股票简称
    公司名称                    字符串      上市公司注册全称
    公司中文简称                字符串      公司中文简称
    公司英文名称                字符串      公司英文注册名称
    所属城市                    字符串      公司注册所在城市
    所属城市代码                数值        城市标准代码
    年份                        数值        数据年份(2003-2024)
    污染转移重视度attention     数值        虚拟变量,0或1
    污染转移关键词总词频        数值        污染转移关键词出现次数合计
    行业代码                    字符串      证监会行业分类代码
    行业名称                    字符串      证监会行业分类名称
    行业代码A/行业名称A         字符串      一级行业分类
    行业代码B/行业名称B         字符串      二级行业分类
    行业代码C/行业名称C         字符串      三级行业分类
    行业代码D/行业名称D         字符串      四级行业分类
    上市日期                    日期        股票上市日期
    股票类型                    字符串      A股/B股等类型标识
    ABH股交叉码                 字符串      交叉上市股票代码
    成立日期                    日期        公司成立日期
    退市日期                    日期        退市日期(如适用)
    注册资本                    数值        公司注册资本(万元)
    经营范围                    字符串      公司经营范围描述
    公司沿革                    字符串      公司发展历史沿革


7.jpg




六、数据处理说明
--------------------------------------------------------------------------------
    【数据生成流程】
    1. 从原始词频数据中提取城市和年份信息
       - 文件名格式:"YYYY城市名,..."
       - 提取年份:文件名最后4位数字
       - 提取城市:文件名除年份外的部分
   
    2. 计算市级污染转移指标
       - 汇总各污染转移关键词词频
       - 生成虚拟变量(词频>0则为1)
   
    3. 匹配城市编码
       - 将城市名称与标准城市代码进行匹配
   
    4. 匹配上市公司数据
       - 根据上市公司所属城市代码和年份进行匹配
       - 匹配条件:年份 + 所属城市代码
   
    5. 完善上市公司基本信息
       - 进一步匹配上市公司基本信息数据


    【数据筛选标准】
    1. 保留2003年及以后的数据
    2. 剔除未能成功匹配市级数据的公司记录
    3. 保留所有A股上市公司


    【特别说明】
    - 数据文件名标注"未剔除未缩尾版本",表示该数据未经过异常值剔除和缩尾处理
    - 研究者可根据需要自行进行数据清洗和缩尾处理






二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群