内含两个版本的上市公司数字化文本指标,一个是GTA,另一个是私人用爬虫爬的。2020年数据GTA的有。
数据来源:上市公司年报
时间跨度:2009-2019年
指标说明:
通过文本挖掘的方法爬取上市公式年报中关于数字化转型的关键词,就和词频进行表征。a是红色的那些表头列词频的加总,b是绿色的,c是黄色的,d是棕色的。那个字母是类别的加总。字母列的词频数加总起来就是总词频数。
通过Python爬虫功能归集整理了巨潮网的上交所、深交所全部A股上市企业的年度报告,并通过 Java PDFbox 库提取所有文本内容,并以此作为数据池供后续的特征词筛选。本文根据人工智能技术、区块链技术、云计算技术、大数据技术和数字技术应用特征词进行搜索、匹配和词频计数,进而分类归集关键技术方向的词频并形成最终加总词频,从而构建企业数字化转型的指标体系。