数据简介:数据风险暴露变量作为量化企业数据安全管理水平的核心指标,是衡量上市公司在数字化转型进程中数据治理能力与风险防控实力的关键标尺。随着《中华人民共和国数据安全法》《个人信息保护法》等法规的密集出台,数据风险已成为影响企业持续经营的重要因素,该变量通过文本挖掘技术将企业数据风险相关的定性信息转化为可量化的定量指标,有效填补“数据风险识别—风险程度度量—治理效果评估”分析链条中的数据空白,为监管部门完善数据安全监管政策、高校开展数据治理研究、投资者评估企业运营风险提供权威可靠的数据支撑。
数据构建过程严格遵循“基础关键词界定—语义拓展—精准匹配—清洗校验”的标准化流程:首先参考《工业和信息化领域数据安全风险信息报送与共享工作指引(2021)》(试行)及和国家互联网信息办公室印发的《国家网络安全事件应急预案(2017)》中对数据风险和网络风险的定义和具体分类,考虑到企业应用数字技术类型的差异还包括了各种数字技术的具体风险,界定了数据泄露、数据窜改、数据滥用、违规传输四大类基础关键词;随后基于Word2vec模型对基础关键词进行语义拓展,形成包含基础词与拓展词的完整关键词词典;再通过在MD&A文本中抓取相关内容并统计词频,最终以词频值作为数据风险暴露变量的核心度量,完整呈现2010-2024年各上市公司数据风险暴露的时序特征。
数据来源:核心来源为2010-2024年中国A股上市公司年度报告中“管理层讨论与分析(MD&A)”部分的文本信息
时间范围:2010-2024年
包含指标:
股票代码、年份、kw_sum、总词数
[
['数据安全', '信息安全', '代码安全', '数据丢失', '信息丢失', '信息泄露', '数据破坏', '信息毁损', '数据窃取', '信息窃取', '窃取网络数据', '隐私保护', '信息保护', '数据保护', '非法访问', '未授权访问', '泄露', '外泄', '泄漏', '露风', '窃取', '越权存取', '越权操作', '保密', '窜改网页', '窜改网站', '数据假冒', '信息假冒', '仿冒页面', '虚假页面', '篡改', '欺诈', '信息滥用', '数据非法交易', '流量异常', '流量规模异常', '流量内容异常', '网络安全', '互联网安全', '计算机病毒', '脚本病毒', '勒索病毒', '网络感染', '脚本攻击', '杀毒软件', '僵尸程序', '蠕虫', '木马', '僵木蠕', '勒索软件', '内部威胁', '程序攻击', '恶意程序', '恶意攻击', '恶意网址', '恶意软件', '网络侵入', '权限绕过', '黑客', '非法入侵', '恶意代码', '后门攻击', '入侵', '木马程序', '勒索', '挖矿', '投毒', '拒绝服务攻击', '拒绝服务', '漏洞攻击', '弱口令', '网络扫描窃听', '网络扫描', '网络钓鱼', '钓鱼网站', '网络干扰', '系统安全', '攻击监测', '攻击资源', '攻击流量', '网络威胁', 'DDoS', 'DistributedDenialofService', '安全漏洞', '漏洞', '0Day', '零日', '攻击行为', '网络攻击', '黑客攻击', '攻击', '钓鱼网', '0day', '硬件故障', '防火墙', '外围保障设施故障', '信息基础设施安全', '设备破坏', '设备故障', '设施故障', '系统故障', '崩溃', '断电', '停电', '断网', '短路', '漏电', '跳闸', '损坏', '故障', '中断', '错误', '自然灾害', '水灾', '不可抗力', '数字安全', '人工智能安全', 'AI 安全', '物联网安全', '机器学习安全', '云计算安全', '区块链安全', '5G 安全', '信息技术安全', '自动化安全', '区块链风险', '人工智能风险', 'AI 风险', '5G 风险', '物联网风险', '
机器学习风险', '云计算风险', '自动化风险', '信息技术风险', '数字风险', '系统风险']
]
样例数据:
参考文献:陆瑶,施函青,周欣怡.中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J].经济研究,2025,60(02):73-89.
下载链接: