数据介绍:
- 年份:2000-2024
- 范围:A股上市公司
- 三个版本:网络安全治理(未剔除未缩尾)、网络安全治理(已剔除金融STPT未缩尾)、网络安全治理(已剔除金融STPT已缩尾)
- 文件格式:Dta格式(使用Stata打开)、Xlsx格式(使用Excel打开)
- 注:提供了剔除所需数据和剔除代码,若无需做该项剔除处理,自行删除相关代码重新运行即可
- 行业参照证监会2012年行业分类标准,制造业用二级行业分类,其他用一级分类来计算并对连续型变量进行了1%和99%分位数的缩尾处理
- 代码格式:do文件(Stata 14/15/16/17/18)
计算说明:
【网络安全治理总词频&虚拟变量】参考文献将选取上市公司网络安全治理的指标定义为虚拟变量,即当公司年报中出现网络安全治理词典中的关键词次数大于1时为“1”,否则为“0”。大于1表示某上市公司在某年内至少一次对公司网络安全治理情况信息进行披露。具体而言,首先整理了上市公司年报,并通过Python的Java PDFbox库提取所有文本内容,以此作为后续特征词筛选的数据基础。搜集文本后,使用Python中的jieba分词将年报进行分词处理,提取网络安全治理关键词在年报中的词频数,当词频数大于1时,网络安全治理虚拟变量取值为1,否则为0。
网络安全治理关键词包括:网络安全、网络攻击、数据泄露、系统漏洞、计算机病毒、数据安全、拒绝服务、访问控制、黑客攻击、高危漏洞、蠕虫、恶意软件、木马、恶意程序、攻击者、攻击行为、沙箱、数据库安全、篡改、安全漏洞、入侵、恶意代码、宕机、崩溃、后门、劫持信息安全、数据备份、加密技术、加密传输、互联网安全、容灾、灾备、网信,网安、系统安全、敏感数据、安全策略、硬件安全等
注:原始数据为使用Python对上市公司年报进行文本分析后获得(jieba分词,停用词表使用哈工大停用词表),后续使用Stata进行整理,最终形成面板数据形式。
参考文献:
- 王辉,何冬昕,陈旭,等.网络安全治理与股价崩盘风险——基于上市公司年报文本分析的证据[J/OL].金融评论,2024,(01):86-106.
代码:

数据量:
描述性统计:
结果数据