资料狂人 发表于 2014-7-29 10:23 
坛友ZahaH:
我在处理工业企业调查数据时,碰到如下问题请教李教授:
第一,我发现数据的代码好多是X2553 ...
因为帮李老师做了工业企业调查数据的一些处理,这个问题就由我来代李老师回答一下吧。
问题1:这些代码是国家给企业的法人代码,并不是全部由数字构成,虽然绝大多数是由数字的。正如你所说的,在这里不能直接使用real()函数进行数值化处理。但可以使用egen命令下的group()函数,给每一个代码赋予一个新的数值型编号。命令如下:
egen id=group(firm_id)
这样后续进行tsset(xtset)时就可以了。需要注意的是,egen id=group(firm_id)这个命令一定要在合并多年的数据之后进行,这样才能保证在不同年份中同一家企业拥有了相同的id。
问题2:不同公司的法人代码理论上是不一样。但由于公司类型变更、重组、破产、新设、统计失误等原因,导致代码中有一定的重复,但比例较小,可考虑将这不部分公司剔除,如果想更加精确地匹配样本,可以看下这样两篇文章:
1.聂辉华, 江艇, & 杨汝岱. (2012). 中国工业企业数据库的使用现状和潜在问题. 世界经济, 5, 142-158.
2.Brandt, L., Van Biesebroeck, J., & Zhang, Y. (2012). Creative accounting or creative destruction? Firm-level productivity growth in Chinese manufacturing. Journal of Development Economic, 97(2), 339-351.
tsset id year (或者更严格的命令应该是 xtset id year)此命令用于设置面板数据,至于说数据内部的排列方式,对于计算结果是没有影响的,不必纠结于省内的排序方式和全国的排序方式。
希望对你有帮助。