数据一:2010-2020年上市公司数字化程度指标(基于袁淳等,2021),stata可直接使用的最终数据。
此份数据是比较严格的依据袁淳教授的《数字化转型与企业分工:专业化还是纵向一体化》而作,首先以Python对政策文件进行分析,在加上吴非等的数字化词汇后,得到238个全中文词语的数字化词典(目前数字化数据里,最大的词典量)。
最后通过wingo、Python等工具进行词频统计,确保质量可靠。如需从头到尾自行处理,也可购买完整版获得python代码(虽然我觉得只需要代码的可能没几个人,但如果确实有需要也可下方留言,会编辑单售这一部分)。
1.首先基于python对30余份国家政策进行分析,得到国家政策中出现的、高频数字化相关词语;同时为确保完整性,增加吴非等的数字化词汇(选取中文词汇),构成数字化词典(共238个词语。足够大的词汇量保证全面性)
2.为了最大限度减少误差,避免因python提取不全可能的误差,选择使用wingo进行分析,对数字化词典进行词频统计。wingo数据集提供精确词频、扩展词频、精确句频和扩展句频的分析(扩展就是在检索时,包含词频联想词);同时提供精确的文本总字数、总词数,其准确性要高于采取python爬虫爬取的结果,因为数据库的算法、复核更严谨,可以保证质量可信。
文件内容见最下方。
数据二:
基于祁怀锦教授《数字经济对公司治理的影响——基于信息不对称和管理者非理性行为视角》,根据数字化相关词频手工识别企业数字化相关无形资产占比。数据范围:2007-2020.
文件内容包括:计算方法、最终stata数据
数据在此出售,包含
一、结果版 数据一、二。
数据一:1.包含id、时间、词频、总词数、总词数不含字数、词频/总词数的dta数据,2010-2020年上市公司数据;2.一份238个关键词的数字化词典
数据二:计算代码及最终数据
二、过程版 数据一、二。
数据一:结果版全部,以及3.wingo数据库的全部基础数据,其中包括每个具体词汇的词频,有需要的可以按需求对部分词语进行加总,进行稳健性检验等 4.将基础数据转换为dta数据的程序文件do 5.依据4进行处理的词频数据7份
数据二:计算代码及最终数据
三、完整版 数据一、二。
数据一:过程版全部,以及6.原版关键词词典 7.Python识别政策文件程序、停用词程序、统计文本长度程序 8.三十份近十年数字经济政策 9.停用词和分词,可以完全实现从头的定制化操作(注:建议有编程相关经验的同学购买!虽然实际计算是我做的。但我个人是不懂python的,关键词分析这一部分的代码和结果是购买得到的,难以提供这方面帮助,抱歉)
数据二:计算代码及最终数据
欢迎购买,如有问题请在此询问,如果我懂的话会尽力解答。
以下为结果版、过程版、完整版的一览图:
注:最下方
附件栏里的文件是不全的,已经设置高价,
请勿购买。购买请在上方选择进行。