采用代理IP多线程爬虫技术,历时3个多月爬取各个股票的股吧论坛帖子详细内容,可用于上市公司投资者情绪、公司舆情、公司看涨看跌等方面的情感分析和自然语言处理。
是NLP机器
深度学习、情感分析与预测的较好的原始语料数据
数据来源:东方财富网股吧论坛
数据期间:(见文件名标识)日度数据
数据大小:(每1MB数据文件约6000条数据记录,可以根据数据文件的存储空间按此预估)
数据指标:
用户ID(贴子作者ID) 贴子ID 贴子来源ID(来源于其他贴子的ID) 贴子类型(0股吧评论 1财经资讯 2-6公司信息及相关资讯 7博客吧信息 8-19投资者与公司互动(问董秘等)20投资者经验分享 21-30短期行情预测及资金揭秘 31-50问答吧及其他资讯 51-60公司研报提示及相关解读 61斗股吧信息) 用户名(贴子作者名称) 贴子发布时间 贴子所属的上市公司股吧或其他论坛社区 贴子的所属上市公司股票代码或其他 本贴子点赞数 本贴子评论数 本贴子点击数(阅读数量) 贴子评论标题 贴子链接 贴子评论详细内容