立即打开
一、数据概述
本数据基于上市公司年报管理层讨论与分析(MD&A)文本,运用文本分析方法
计算企业层面的政策不确定性指标。政策不确定性是衡量企业对宏观政策环境
感知的重要指标,在公司金融、宏观经济等领域具有广泛应用。
二、核心指标及计算方法
【核心逻辑】
当一个句子中同时包含"政策类词汇"和"不确定类词汇"时,
判定该句子表达了政策不确定性。
【计算步骤】
步骤1:加载自定义词典和停用词表
步骤2:读取MD&A文本,按句号分句
步骤3:使用jieba进行中文分词
步骤4:判断每个句子是否同时包含政策词和不确定词
步骤5:统计政策不确定性句子数和不确定词数
步骤6:汇总输出结果
【政策类词汇(共44个)】
市政、政策、货币政策、政策鼓励、国家、扩内需、保增长、促发展、
产业发展、法律、法规、行业政策、产业政策、宏观政策、国民经济、
有关部门、产业结构调整、产业结构、当地政府、政府、经济政策、
政策走势、所得税、增值税、税收减免、税收优惠、刺激政策、限贷令、
限购令、保障房、宏观调控、证监会、国家政策、政治、军事、政策环境、
宏观、政府补助政策、调控政策、政府补助、税收政策、政策扶持
【不确定类词汇(共50个)】
风险、经营风险、市场风险、信用风险、不确定性、不确定、波动、变化、
改变、徘徊、不稳、不稳定性、不稳定、不寻常、错综复杂、非常复杂、
纷繁复杂、纷纭复杂、十分复杂、结构复杂、变得复杂、风云变幻、
风云突变、矛盾突出、突变、复杂、复杂多变、诡谲多变、阵痛、过渡、
问责、整顿、危险、动荡、动荡不安、动荡不定、多变性、振荡下行、
震荡、震荡不安、政治波动、难以确定、难以预测、难以预料、难以捉摸、
接受考验、混乱、混乱状态、有时、时而、随机
三、数据范围
【数据范围】A股上市公司
【时间跨度】2000年 - 2024年
【文本来源】上市公司年报MD&A(管理层讨论与分析)部分
【文本格式】txt格式
四、输出变量说明
序号 变量名称 变量类型 说明
1 文件名 字符型 MD&A文本文件名(含股票代码和年份)
2 总词数 数值型 去除停用词后的总词数
3 总字数 数值型 文本总字符数
4 不确定句数 数值型 同时包含政策词和不确定词的句子数
5 总句数 数值型 文本总句数(按句号分割)
6 不确定词数 数值型 不确定词汇在政策不确定句中出现的总次数
五、衍生指标构建建议
【政策不确定性比例指标】
政策不确定性_句子比例 = 不确定句数 / 总句数
政策不确定性_词汇比例 = 不确定词数 / 总词数
【对数化处理】
政策不确定性_对数 = ln(1 + 不确定句数)
六、数据来源
【原始文本来源】巨潮资讯网上市公司年报
【分词工具】jieba中文分词
七、文件清单
文件名称 说明
原始数据/ 原始MD&A文本数据文件夹
上市公司-不确定性感知数据.xlsx 计算结果(Excel格式)
上市公司-不确定性感知数据.dta 计算结果(Stata格式)
政策不确定性计算.py Python计算代码
企业不确定性感知、投资...pdf 参考文献
分词词典.txt 自定义分词词典
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群