上市公司媒体关注度数据2007-2021报刊网络财经新闻量化统计媒体监督情感分析自然语言处理
统计计算的原始数据来源:中国上市公司财经新闻数据库(Financial News Database of Chinese Listed Companies, CFND)
包含
1.报刊财经新闻量化统计
2.网络新闻量化统计
包含原创或全部新闻,中性、负面和正向指标
3.已经按年统计的网络新闻
时间:
报刊是2007-2021年
网络是2007-2021年
沪深上市公司,A股主板、中小企业板、创业板、科创板
基于上市公司相关新闻数据整理
包含的信息项有:
证券代码 年份 股票简称 标题出现总 内容出现总 正面总 中性总 负面总 正面原创 中性原创 负面原创
数据清洗与匹配
基于原始新闻数据,为了匹配得到与上市公司有关的新闻数据,需要进行: ①数据清洗,去除原始新闻中的大量“噪声”新闻。这些清洗操作包括去除图片 视频新闻、公司公告、广告、年报等新闻;②数据匹配,根据上市公司股票代码、 公司简称和全称等关键字从已经清洗的新闻库中匹配得到与上市公司有关的新 闻报道。当然,仅仅只有以上的清洗和匹配步骤还不足以得到非常“干净”的上 市公司新闻数据,在这一过程中,由于上市公司多义词的存在,股票龙虎榜、千 股千评等无效新闻的干扰,需要设置多种规则去除这些新闻。经这些清洗和匹配 步骤,去除了占原始新闻总数 83%的噪声信息,最终得到较为“干净”的与上市 公司有关的新闻报道
参考文献:
[1]杨国超,张李娜.产业政策何以更有效?——基于海量媒体报道数据与研发操纵现象的证据[J].经济学(季刊),2021,21(06):2173-2194.DOI:10.13821/j.cnki.ceq.2021.06.14.
[2]沈艳,王靖一.媒体报道与未成熟金融市场信息透明度——中国网络借贷市场视角[J].管理世界,2021,37(02):35-50+4+17-19.DOI:10.19744/j.cnki.11-1235/f.2021.0018.