上市公司东财股吧文本数据全
时间更新到2024.10.4,起始时间为论坛上能找到的最早帖子的时间,我的数据绝对是全网能找到的最全的,我的数据绝对是全网能找到的最全的,我的数据绝对是全网能找到的最全的
每一条记录是一个帖子,每个帖子的字段如下,每个字段的意思都很好理解:
基础字段:post_id, post_title, ticker, user_id, user_nickname, user_click_count, post_forward_count, post_comment_count, post_publish_time, post_has_pic, host_has_video
定制字段:user_detail, comments
user_details字段的详细信息:
following, fans, user_select_stk_count, user_select_fund_count, user_select_pe_count, user_post_count, user_reply_count, user_gender, user_reg_time, user_influ_level, user_history_visitor_count, user_today_visitor_count, ip_location, user_click
comments字段是一个列表,每个元素的详细信息:
child_reply_count(是否有二级评论), reply_id, reply_ip_address, reply_like_count, reply_publish_time, reply_text, reply_user(这个字段下又包含6个子字段:user_age, user_id, user_influ_level, user_nickname, user_v), child_reply(这是一个包含所有子评论的list,每条评论的字段:reply_id, reply_ip_address, reply_like_count, reply_publish_time, reply_text, reply_user)
数据格式:json格式,支持导出csv,但是不是很建议,推荐json