全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
26118 306
2022-10-12
附件为1998—2014共17年间我国工业企业数据库与企业专利数据(数据来源是多方检索的,详见下文)的联合匹配结果,已经按企业代码id精确匹配并手动清洗,近500万个观测值(将近十个G的数据大小,只能用百度网盘分享,谢谢大家理解),经我个人以及两位在职教授(研究方向分别为经济统计和关税理论、政策)多次校对、核实,数据质量较高,稳健且显著,具有较高的科研价值,助力大家多发C刊!变量包括1998—2014年工业企业数据库所有变量,并匹配企业专利数据库(数据来源见下文)的几种专利数据,要点如下:1.现有工业企业数据库与各大数据库的匹配存在几大问题,致使基于这些数据集进行的实证分析显著性有限甚至存在严重偏误。首先,对匹配后的数据清洗不足,极端值、异常值甚至经济指标出现负数的情况屡见不鲜,即使是因为工业企业数据库本身存在登记错误和一些偏差,将这些数据进行进一步的清洗,去除、填补异常部分也是必要的,向您承诺,本面板数据集对工业企业数据库本身进行了详尽、充分的清洗和核查,确保稳健性。其次,匹配方法混乱,匹配后不同数据库之间的企业ID并非一一对应甚至匹配错误(A企业在工企数据库的指标对应了B企业的专利数据),这种低级错误无疑会造成回归结果的不一致甚至伪回归;此外,假数据层出不穷,根本不存在1997年和2015年的工业企业数据库,居然有人大肆分享98-14区间外的数据?猜测是用上市公司等数据库编造一定的指标骗取钱财,严重鄙视。个人承诺,此面板数据尽力避免了上述问题,亲测稳健性和显著性有保证,适合各方向的微观计量研究。
2.该面板数据的指标(变量)包括:
(由于涵盖指标为几百个,此处只能列举部分重要指标,实际指标体系极为丰富,比海关数据库要丰富数倍,能想到的指标都有,做任何方向的微观计量研究均可,既可单独当做清洗好、匹配好的工业企业数据库用(其实一个清洗好的工业企业数据库现在至少100块,并且绝对没我处理的“干净”,可能存在问题),也可以结合专利数据做各种创新模型,方法多多,点子多多!)工业企业典型指标:经营活动产生的现金流入、流出(千元);投资活动产生的现金流入、流出(千元);筹资活动产生的现金流入、流出(千元);研究开发费;是否适用会计准则(虚拟变量,1为执行,0或空值为不适用);营业成本、营业税金(千元);公允价值变动收益(千元);年末从业人员数量合计(男性女性分别为单独变量);该企业人员的学历构成(研究生、本科、大专、高中、初中以上学历男性、女性分别设置变量);技术职称数量构成(初级、中级、高级工和初中高级技术职称人员的数量,均以男性女性区分生成单独的数值变量);国家资本、集体资本、个人资本、法人资本、外商资本(均以千元计);主营业务收入、利润构成、管理费用等(均以千元计);固定资产折旧、工业总产值(分为不变价和当年价格计两种指标)等(单位千元)
企业专利数据相关指标:包括发明专利申请量、发明专利授权量;实用新型的申请和授权量;外观设计的申请和授权量;专利申请和授权总量等企业层面重要专利指标(单位为个数)。
3.数据来源为98-14年的工业企业数据库和专利数据库,部分重要指标的缺失值和极端值是运用Python在国家专利局网站和上市公司数据库内编程手动爬取而得(极个别数据运用的智能填补方法见下文),并与同门师兄师姐以及老师手动进行数据清洗,去除了极端值和异常值,甚至从一定程度上解决了登记错误和上报错误这一无法避免的偏差,工作量巨大,实测进行研究的稳健性极好,适合各个方向的研究,请大家放心使用!
4.个人的研究领域是世经、国贸与应用微观计量,现于某一中游985(也说不定是中下游985...笑)深知一份优质的数据对于学术研究意义重大,因此我对数据质量作背书,承诺“良心”二字,绝不让大家上当受骗,请大家擦亮双眼,get靠谱数据!
5.面板数据形成基本操作思路:
第一步,参照Brandt(2012)的方法处理工企数据和专利数据(这篇文章可以私信我发给大家原版链接PDF,是非常好的一篇应用计量理论操作论文);
第二步,根据企业名称和年份与专利数据进行匹配;
第三步,根据组织代码和年份与专利数据进行匹配;
第四步,合并第二、三步的匹配数据,并去重;
第五步,手动清洗数据(软件是Stata和Python,对数据的填补综合运用了极大似然插值法、多项式插值法、线性插值法,将每种方法的拟合结果与前后数值进行比对,确保最优插值拟合,工作量极大,效果极好)。 反馈.jpg
新鲜出炉的“购买评价”,马赛克部分为这位同学的个人信息,不便公开,数据质量有目共睹,请大家放心购买!

6.诚挚祝大家科研顺利,幸福快乐;也希望经管之家论坛蒸蒸日上,为学术交流搭建温馨友好的平台!

7.除了本数据集外,我在论坛还分享了关于绿色全要素生产率的数据,更是好评如潮!欢迎大家关注:

①2004-2020年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导
https://bbs.pinggu.org/thread-10877683-1-1.html
②2000年-2020年共21年我国所有地级市绿色全要素生产率(GTFP),8799个观测值
https://bbs.pinggu.org/thread-10881416-1-1.html
2000-2020年地级市绿色全要素生产率原始数据,281个城市5901个观测值
https://bbs.pinggu.org/thread-10911114-1-1.html
2004-2019年省际绿色全要素生产率及其分解项、原始数据,附带控制变量和理论推导(比第一个数据少一年,便宜一些,按需购买即可)
https://bbs.pinggu.org/thread-10871021-1-1.html

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-10-12 14:44:26
15年数据部分高校已经买了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-12 16:29:19
电报机6 发表于 2022-10-12 14:44
15年数据部分高校已经买了
您好,我一直有关注过工企数据库的动向,之前看到过一个版本的工业企业数据库(2015),但存在极多错误,从ID到数值错误都存在很大问题,几乎是满篇需要修正;目前,据我了解,南开、对外经贸、上财以及华南理工、吉林大学等名校的校内数据库开放到2013,少有开放到2014的,以及EPS等网络数据库也没有更新到2015,能拿到2015的不知道您是哪个学校,如是清北人这个水平,那我们普通学生、青椒也无法企及,如若可以,还希望您分享一下;可以说,到2014是目前最适合做研究、性价比最高的工企数据库了。谢谢您的回复!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-12 18:52:41
我是论坛常驻用户,每天会经常登录论坛查看消息和回复;因此,我的数据是包售后的,如有任何问题,私信我一定给您解决!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-13 09:39:32
数据由两位教授看过,并且和同门一起仔细核实、清洗、处理,质量有保障,请大家放心购买,购买后若有问题请私信!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-13 10:07:38
花费近一个月时间,和同门师兄弟认真进行匹配、核实工作,然后拿给老师看,数据质量有保障,可以放心做研究!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群