▪ 数据名称:上市公司气候风险词频统计(参考Lin和Wu(2023)词集)
▪ 数据范围:公司层面
▪ 数据年份:2016-2023年
▪ 样本数量:32,289条
▪ 数据维度:年度数据
▪ 数据来源:根据上市公司年报爬取
▪ 数据说明:上市公司气候风险词频统计数据包括统计年度、上市公司代码、参考lin和wu(2023) 统计的气候风险词频、年报总词频等变量,数据提供.dta和.xlsx两种格式,可用STATA或EXCEL打开。
▪ 综合评价: 上市公司气候风险词频统计数据为学术研究提供了独特的量化工具,其学术价值体现在三个维度:首先,该数据通过文本挖掘技术将定性气候风险信息转化为词频比值指标,弥补了传统风险研究中非财务信息披露不足的缺陷,为检验企业气候风险披露的动机、质量及经济后果提供了微观证据;其次,结合股票代码与会计年度信息,研究者可构建面板数据,分析气候风险披露的行业异质性、时间趋势及政策响应机制,例如可探究碳中和目标对企业风险沟通策略的塑造作用;最后,该指标与财务数据(如碳资产损益、绿色债券利率)的交互分析,能揭示气候风险的市场定价机制及投资者认知偏差。在研究方向上,研究者既可沿纵深化路径,验证气候风险披露与股票收益率波动、融资成本、分析师预测偏差等资本市场指标的关联机制;亦可采取横向拓展策略,通过机器学习方法优化词集构建(如区分”风险”与”机遇”表述),或结合卫星遥感数据构建多源风险指标体系。此外,跨境比较研究(如对比中欧企业披露差异)、制度环境调节效应(环境诉讼压力与披露意愿)以及管理层特征(高管环保经历与风险叙事)等视角,均具备理论创新潜力。
数据处理过程
从处理种子词的来源开始。种子词的来源包括以下两部分。一是对2016年至2020年政府工作报告中环境、能源、气候等领域出现频率最高的词语进行人工编码筛选。二是根据Krueger等(2020),增加了全球机构投资者青睐的具有未来发展潜力的问卷数据、技术和行业词汇。经过整理,最终获得47个种子词
为什么要选择一些关键词在中国上市公司年报和季报中的出现频率,而不是这些词在企业社会责任报告报告中的出现频率来反映微观企业对气候风险的披露程度?这是因为这些公告,尤其是年度报告,都是公司主动发布的。这些公司发布年报的初衷是希望这些公告能引起市场的一些反应。特别是年度报告,它包含大量的财务信息,比其他公告更受关注。因此,年报的信息质量得到了保证。相比之下,政府规定一些高污染企业必须提交企业社会责任报告。一是企业社会责任报告不能覆盖中国所有上市公司,二是国家层面缺乏统一的信息披露标准,信息披露质量参差不齐。举个简单的例子,核心指标是用词频来衡量的。在不保证信息质量的情况下,企业社会责任中某个特定词语的出现频率,并不能反映企业对某一方面的重视程度。然而,这种不信任可以通过标准化的年度报告在一定程度上减轻。
将上述关键词在每家公司每年的公告中出现的频率定义为气候风险披露。每家公司气候风险指数=气上述关键词出现的次数 / 总词数
参考文献
Krueger, P., Sautner, Z., & Starks, L. T. (2020). The Importance of Climate Risks for Institutional Investors. The Review of Financial Studies, 33(3), 1067–1111.Li, S., et al. (2020). Analogical Reasoning on Chinese Morphological and Semantic RelationsLi, Y., & Wan, T. (2025). How does corporate climate risk exposure affect cash holdings? Applied Economics.Lin, B., & Wu, N. (2023). Climate risk disclosure and stock price crash risk: The case of China. International Review of Economics & Finance, 83, 21-34.