碳信息披露质量数据-文本分析法含代码
年份:2013-2021
提供构建方法、stata命令、行业碳信息、质量数据
赠送python代码过程
赠送stata操作
碳信息披露质量数据---基于文本分析方法得到
单纯从文本分析技术来看,目前有三种经管类运用方案,
一是符号法-字典(通过统计词频完成,大部分文章);
二是符号法-词袋(BOW;one-hot;TF-IDF等,将词转化为词向量,可以计算两个句子的相似度)
三是词嵌入(Word2vec;glove等,可以结合上下文计算词语相似度,识别语义、态度、偏见等)
评价指标有:情感、可读性(信息披露部分文章)、客观性、相似性(稳定性)
本数据统计方法如下:
碳信息披露质量评价==>碳信息含量==>词袋法(词频统计)
1.构建碳信息含量指标
2.构建财经领域或年报词典(或运用文构、RESSET等财经文本数据平台)
3.将指标和公司的年报或ESG报告联系起来(构建反映碳信息的词典)
4.进行每种指标的词频统计
5.通过熵值法构建碳信息披露综合指标