全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
656 0
2023-06-14

在大数据时代,越来越多金融研究者开始关注上市公司年报、新闻媒体报道和投资者社交媒体发帖等文本中所蕴含的语调与情绪,并藉此展开相关分析。


本文分享两篇有代表性的金融领域中文情绪词典的构建方法及其词典数据:


一、. 语调、情绪及市场影响:基于金融情绪词典. 管理科学学报,2021. 24(5), 26-46.


通过文本分析和机器学习方式构建了金融领域中文情绪词典。词典构建方法具有尽可能避免人工判断,来源于大样本,且适用于中文文本表达等优势。词典针对正式金融文本和社交媒体金融文本的用词差异,分为正式用语情绪词典和非正式用语情绪词典。其中,正式用语情绪词典适用于公司年报等正式文本语调分析,而非正式用语情绪词典则适用于社交媒体等非正式文本情绪分析。


11111.png


二、Bian S , Jia D , Li F , et al. A New Chinese Financial Sentiment Dictionary for Textual Analysis in Accounting and Finance[J]. Social Science Electronic Publishing.


使用HOWNET、DLUTSD、NTUSD三种词典作为初始词典,并搜集了在线路演纪要(online roadshow transcripts)、业绩说明电话会议纪要(earnings conference call transcripts)、IPO招股报告(IPO prospectus)及公司年报构建了基础语料库。基于算法和人工判断, 使用多阶段剔除法来构建 “中文金融情感词典CFSD”。


具体步骤:

(1)合并HOWNET、DLUTSD、NTUSD三个情感词典,去除重复词

(2)收集了1411篇在线路演纪要、7138篇业绩说明电话会议纪要、2043IPO招股报告和29737公司年报。jieba被用于分割文档,构建 “基础语料”

(3)计算步骤1所有的词在“基础语料”中的词频,词频数为0的词语不予考虑,剔除掉。与金融不相关的词语也剔除掉,最终构建了中文金融情感词典。

(4)所有的CFSD0.0版本的词语都来自与三个通用情感词典(HOWNET、DLUTSD、NTUSD),但这三个词典并不包含金融领域常出现的正面词和负面词。我们人工向“CFSD0.0”版情感词典加入了金融领域最常用的100个正面词100个负面词,构建出“CFSD0.1”版中文金融情感词典.

(5)Gensim是python中的一个文本分析库,在本步骤主要用来通过大量的语料训练处词向量。词向量可以使用余弦cos计算出相似性。在本步骤,计算出CFSD0.1版中每个词的词向量,进而从“基础语料”中发现每个词(CFSD0.1中的词)最相似的50个词。剔除掉与金融不关的词(包括相似词、同义词),构建出“CFSD0.2版的中文金融情感词典”

(6)合并“CFSD0.0、CFSD0.1、 CFSD0.2”,剔除掉重复词,最终构建出 “CFSD中文金融情感词典”

构件好的CFSD词典有1489个负面词,1108个正面词。


222222.png


会计金融情绪词典.zip
大小:(3.07 MB)

只需: RMB 18元  马上下载


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群