1、资料名称:2024-2001年上市公司企业MD&A叙述性信息披露数据、MD&A文本相似度数据
2、测算方式:参考顶刊《南开管理评论》于李胜老师的做法, V S M 模 型与 T F-IDF 算法相结合,把上市公司 M D&A 文本与同一年度其他 上市公司分别进行比较,并计 算出文本之间的向量夹角余弦值,即文本相似度。具体步骤如下 :① 利用 VS M 模型将每份文本向量化,即转换为欧氏空间 n 维向量,其中 n 是所有文本中非重复词的数量。每 个向量 元 素是文 本 j 中特定词 i 出现的频率, 同时用文本 j 的总词数 进行加权以防止其偏向长文本, 得到词频 T F i , j = n i , j /( ∑ k n k , j ),其中分 子为特定词 i 在文本 j 中出现的次数,分 母为文本 j 中所有词 {k} 出现的次数之和。② 通 过特定词的逆 文 档 频率赋 予不同的权 重, 即I DFi =log D/({ j;t i ∈ dj}+1),其中,D 为样本中文本数量,{ j;ti ∈ dj} 为包含特定词 i 的文本数。采用公司与同一年度其他公司的文本相似度的均值来衡量,具体做法及公式如下方图片所示
3、资料范围:6.5万个样本,5600多家企业,包括原始数据、计算代码及最终结果,大家可以验证一下确保准确性!
4、参考文献:
于李胜,王泽豪,王艳艳,等.创新对企业MD&A叙述性信息披露策略的影响[J].南开管理评论,2024,27(03):150-162.