全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
2338 0
2022-05-01
中英文会计金融情绪词汇整理

金融领域中文情绪词典的构建方法及其词典数据,具体说明如下:

一、姚加权,冯绪,王赞钧,纪荣嵘,张维. 语调、情绪及市场影响:基于金融情绪词典

通过文本分析和机器学习方式构建了金融领域中文情绪词典。词典构建方法具有尽可能避免人工判断,来源于大样本,且适用于中文文本表达等优势。词典针对正式金融文本和社交媒体金融文本的用词差异,分为正式用语情绪词典和非正式用语情绪词典。其中,正式用语情绪词典适用于公司年报等正式文本语调分析,而非正式用语情绪词典则适用于社交媒体等非正式文本情绪分析。

二、Bian S , Jia D , Li F , et al. A New Chinese Financial Sentiment Dictionary for Textual Analysis in Accounting and Finance[J]. Social Science Electronic Publishing.

使用HOWNETDLUTSDNTUSD三种词典作为初始词典,并搜集了在线路演纪要(online roadshow transcripts)、业绩说明电话会议纪要(earnings conference call transcripts)、IPO招股报告(IPO prospectus)及公司年报构建了基础语料库。基于算法和人工判断, 使用多阶段剔除法来构建 “中文金融情感词典CFSD”。

具体步骤:

1)合并HOWNETDLUTSDNTUSD三个情感词典,去除重复词

2)收集了1411篇在线路演纪要、7138篇业绩说明电话会议纪要、2043IPO招股报告和29737公司年报。jieba被用于分割文档,构建 “基础语料”

3)计算步骤1所有的词在“基础语料”中的词频,词频数为0的词语不予考虑,剔除掉。与金融不相关的词语也剔除掉,最终构建了“CFSD0.0”版本中文金融情感词典。

4)所有的CFSD0.0版本的词语都来自与三个通用情感词典(HOWNETDLUTSDNTUSD),但这三个词典并不包含金融领域常出现的正面词和负面词。我们人工向“CFSD0.0”版情感词典加入了金融领域最常用的100个正面词100个负面词,构建出“CFSD0.1”版中文金融情感词典.

5Gensimpython中的一个文本分析库,在本步骤主要用来通过大量的语料训练处词向量。词向量可以使用余弦cos计算出相似性。在本步骤,计算出CFSD0.1版中每个词的词向量,进而从“基础语料”中发现每个词(CFSD0.1中的词)最相似的50个词。剔除掉与金融不关的词(包括相似词、同义词),构建出“CFSD0.2版的中文金融情感词典”

6)合并“CFSD0.0CFSD0.1CFSD0.2,剔除掉重复词,最终构建出 “CFSD中文金融情感词典”构件好的CFSD词典有1489个负面词,1108个正面词。

使用时请引用原文,可用于关注上市公司年报、新闻媒体报道和投资者社交媒体发帖等文本中所蕴含的语调与情绪,并藉此展开相关分析。

参考文献在压缩包内

1651403075(1).png 论文附录.png 论文附录2.png

会计金融情绪词典.rar
大小:(2.96 MB)

只需: RMB 15元  马上下载




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群