中国上市公司在主要的行情网络平台进行每日行情发布,并建立起投资者之间互动、交流的平台。来自全国各地的投资者在上市公司的线上股票交流平台进行发帖、回帖等交流互动,形成了超大量级的中国股市投资相关的文本语料数据。研究者足以通过超大量级的投资者互动数据来观察投资者的市场判断、个人情绪等多维度信息。
近年来,国内外研究者们发现:
- 媒体文本情绪可以更准确地衡量我国股市投资者情绪的变化,对我国股票回报有显著的样本内和样本外预测能力。媒体文本情绪对一些重要的宏观经济指标也有显著的预测能力,具有重要的学术和实践应用价值。
- ——姜富伟、孟令超、唐国豪:《媒体文本情绪与股票回报预测》,《经济学(季刊)》,2021年第04期
为便于学者使用,CnOpenData对A股上市公司股吧文本数据的发帖和回帖信息表都进行了数量层面和内容层面(情感分析)的统计处理,包含证券代码、公司名称、发帖时间段、发帖数量、正负面帖占比、正负面帖数量等字段,为相关研究提供高质量的数据支持。
数据特点:
在时间方面,本数据主要覆盖了
2008年以来的股吧发帖、回帖信息,并在统计时
将发帖、回帖时间精确到开盘前、上/下午交易时间、午盘休息、收盘后五个不同的时间段;在统计源方面,本统计数据涉及的帖子主体共计
三亿五千万条,回帖共计六亿五千万条,是超大量级的文本语料数据;在字段丰富度方面,本数据不仅统计了各公司各时间段的发帖回帖信息,还基于
中文金融情感词典数据,对各发帖、回帖信息进行了情感方面的判定分析,展现了各公司各年的正面、负面、中性帖子及回帖的数量及占比情况。
时间区间:
发帖时间:1988-2022年回帖时间:2007-2023年
此样本数据可免费下载。