全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
5560 5
2012-12-19

     练习企业数据的年度匹配,匹配变量有企业代码与企业名,有a,b,c三年数据。但企业名与代码可能出现误填,因此不能进行精确匹配(不能直接使用append)。如何构建企业面板数据?

       有些文献建议采用双向匹配,即对企业代码及企业名分别匹配,以增加匹配成功的概率。

      有经验的人们,请提供一些建议?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-12-19 05:34:08
我一般是分步匹配:
第一步:按照 企业名 企业代码匹配; 保留匹配成功的;
第二步:第一步merge==1,只按照企业代码匹配;
第三步;第二步merge==1,只按照企业名匹配。

我记得基本上按照企业代码匹配,就能全部解决了,除非这个数据库有问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-19 08:00:07
brilliant,thanks.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-20 07:34:47
聂辉华等(2012)等指出,在匹配企业时,可以采用如下方法:

如何实现?


我们建议的做法是: 将企业按企业代码和企业名称分别进行两次分组,然后考察
同一名称组下的企业是否分属不同的代码组。若是,则将这些不同代码组内的所有企
业都归为一组( 对每一名称组都依此进行操作,不断重新归组,可以称之为“交叉匹
配”) ; 若新组内没有年份重复的观测值,则将这一组样本点识别为同一家企业; 若新
组内存在年份重复的观测值,则进入下一步人工识别。在人工识别阶段可能存在多种
情况,需要根据数据特征和基本信息进行综合判断。例如,同一组内的样本点可能属
于同一家企业,只是其中某些年份有两个观测值,这两个观测值只需要保留一个,另一
个完全重复或关键变量均缺失。同一组内的样本点也可能属于不同企业,但其中可能
存在企业代码登记错误的情况,此时需要参照企业名称、法人代表姓名、地址、行业代
码、销售额或注册资本等关键变量的数量级等信息进行分类,确定哪些样本属于同一
家企业。我们发现,使用交叉匹配方法后,大约有10% 的观测值( 大约20 万个) 属于
名称相同但法人代码不同或者相反的情况。显然,如果忽视匹配问题会严重地影响样
本的真实性和准确性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-10-16 14:33:49
学习了,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-6 16:00:40
fgleric 发表于 2012-12-19 05:34
我一般是分步匹配:
第一步:按照 企业名 企业代码匹配; 保留匹配成功的;
第二步:第一步merge==1,只按 ...
您好!具体您是怎么做的?菜鸟,现在急用
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群