两方法:10-20年公司数字化：一基于袁淳（200+关键词），wingo分析；二为数字无形资产

雎尘_

3236

收藏 2022-05-03

数据一：2010-2020年上市公司数字化程度指标（基于袁淳等，2021），stata可直接使用的最终数据。

此份数据是比较严格的依据袁淳教授的《数字化转型与企业分工：专业化还是纵向一体化》而作，首先以Python对政策文件进行分析，在加上吴非等的数字化词汇后，得到238个全中文词语的数字化词典（目前数字化数据里，最大的词典量）。

最后通过wingo、Python等工具进行词频统计，确保质量可靠。如需从头到尾自行处理，也可购买完整版获得python代码（虽然我觉得只需要代码的可能没几个人，但如果确实有需要也可下方留言，会编辑单售这一部分）。

1.首先基于python对30余份国家政策进行分析，得到国家政策中出现的、高频数字化相关词语；同时为确保完整性，增加吴非等的数字化词汇（选取中文词汇），构成数字化词典（共238个词语。足够大的词汇量保证全面性）

2.为了最大限度减少误差，避免因python提取不全可能的误差，选择使用wingo进行分析，对数字化词典进行词频统计。wingo数据集提供精确词频、扩展词频、精确句频和扩展句频的分析（扩展就是在检索时，包含词频联想词）；同时提供精确的文本总字数、总词数，其准确性要高于采取python爬虫爬取的结果，因为数据库的算法、复核更严谨，可以保证质量可信。

文件内容见最下方。

数据二：

基于祁怀锦教授《数字经济对公司治理的影响——基于信息不对称和管理者非理性行为视角》，根据数字化相关词频手工识别企业数字化相关无形资产占比。数据范围：2007-2020.

文件内容包括：计算方法、最终stata数据

数据在此出售，包含

一、结果版数据一、二。

数据一：1.包含id、时间、词频、总词数、总词数不含字数、词频/总词数的dta数据，2010-2020年上市公司数据；2.一份238个关键词的数字化词典

数据二：计算代码及最终数据

二、过程版数据一、二。

数据一：结果版全部，以及3.wingo数据库的全部基础数据，其中包括每个具体词汇的词频，有需要的可以按需求对部分词语进行加总，进行稳健性检验等 4.将基础数据转换为dta数据的程序文件do 5.依据4进行处理的词频数据7份

数据二：计算代码及最终数据

三、完整版数据一、二。

数据一：过程版全部，以及6.原版关键词词典 7.Python识别政策文件程序、停用词程序、统计文本长度程序 8.三十份近十年数字经济政策 9.停用词和分词，可以完全实现从头的定制化操作（注：建议有编程相关经验的同学购买！虽然实际计算是我做的。但我个人是不懂python的，关键词分析这一部分的代码和结果是购买得到的，难以提供这方面帮助，抱歉）

数据二：计算代码及最终数据

欢迎购买，如有问题请在此询问，如果我懂的话会尽力解答。