全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
5 0
2026-01-26
数据简介:根据任晓松、孙莎、马茜(2024)提出的方法体系,投资者情绪指标的构建可遵循以下系统化流程:

步骤一数据获取:定向采集2007至2024年间财经网络社区(包括股票主题贴吧及行业论坛)发布的全部股票相关帖子,提取发帖人标识、发布时间、标题文本、阅读量等结构化信息。

步骤二文本预处理:对采集的原始文本实施系列净化操作:首先过滤无效及重复内容,随后采用jieba分词工具进行中文分词处理,剔除通用及领域特定停用词,最终通过TF-IDF算法将文本数据转换为机器可识别的数值向量。

步骤三情感分类与日度情绪计算:采用朴素贝叶斯分类模型将帖子划分为乐观、中性、悲观三类情感倾向。针对上市企业i,依据第n日乐观帖子数(posi,n​)与悲观帖子数(negi,n​)构建情绪因子:

smi,n​​=ln(1+negi,n​1+posi,n​​)

该公式通过加1平滑处理保障数值稳定性,对数变换实现数据分布规范化。

步骤四年度情绪指标构建:以自然年为观测周期,对周期内所有交易日的情绪因子smi,n​​进行算术平均,形成衡量企业i在第t年投资者情绪水平的综合指标senti,t​,有效捕捉市场参与者的中长期情感特征。

该指标体系通过整合网络文本大数据与机器学习技术,为量化分析投资者心理偏差对资本市场的影响提供可操作的测量工具。


数据来源:2007至2024年间财经网络社区(包括股票主题贴吧及行业论坛)

时间范围:2007-2024年

包含指标:股票代码、年份、 s_in、sent_(i,t)

样例数据:
图1.png 图2.png

下载链接:
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群