上市公司媒体关注度数据2007-2021报刊网络财经新闻量化统计监督情感分析自然语言处理

2076

收藏 2022-12-04

上市公司媒体关注度数据2007-2021报刊网络财经新闻量化统计媒体监督情感分析自然语言处理

统计计算的原始数据来源：中国上市公司财经新闻数据库（Financial News Database of Chinese Listed Companies, CFND）
包含
1.报刊财经新闻量化统计
2.网络新闻量化统计
包含原创或全部新闻，中性、负面和正向指标
3.已经按年统计的网络新闻

时间：
报刊是2007-2021年
网络是2007-2021年
沪深上市公司，A股主板、中小企业板、创业板、科创板
基于上市公司相关新闻数据整理

包含的信息项有：
证券代码年份股票简称标题出现总内容出现总正面总中性总负面总正面原创中性原创负面原创

上市公司媒体关注度数据2007-2021.xls
大小:(9.77 MB)

只需: RMB 39元马上下载

数据清洗与匹配
基于原始新闻数据，为了匹配得到与上市公司有关的新闻数据，需要进行： ①数据清洗，去除原始新闻中的大量“噪声”新闻。这些清洗操作包括去除图片视频新闻、公司公告、广告、年报等新闻；②数据匹配，根据上市公司股票代码、公司简称和全称等关键字从已经清洗的新闻库中匹配得到与上市公司有关的新闻报道。当然，仅仅只有以上的清洗和匹配步骤还不足以得到非常“干净”的上市公司新闻数据，在这一过程中，由于上市公司多义词的存在，股票龙虎榜、千股千评等无效新闻的干扰，需要设置多种规则去除这些新闻。经这些清洗和匹配步骤，去除了占原始新闻总数 83%的噪声信息，最终得到较为“干净”的与上市公司有关的新闻报道
参考文献：
[1]杨国超,张李娜.产业政策何以更有效?——基于海量媒体报道数据与研发操纵现象的证据[J].经济学(季刊),2021,21(06):2173-2194.DOI:10.13821/j.cnki.ceq.2021.06.14.
[2]沈艳,王靖一.媒体报道与未成熟金融市场信息透明度——中国网络借贷市场视角[J].管理世界,2021,37(02):35-50+4+17-19.DOI:10.19744/j.cnki.11-1235/f.2021.0018.