最近在处理税收调查数据,遇到以下问题,这里分享出来供大家参考1. 税调不仅含企业,还有地方税务局、个体工商户、社会组织、事务所、学校等等,保留企业组织形式的观测
// 保留企业名称中包含公司、集团和厂等关键词的观测
gen firm=strpos(qymc,"公司")>0
tab firm
replace firm=1 if strpos(qymc,"集团")>0
replace firm=1 if strpos(qymc,"厂")>0
label var firm "纳税人为企业组织形式,不含金融机构"
sort firm
order year frdm qymc id firm
keep if firm==1
2. 纳税人识别号中含空格或特殊字符
gen has_space=strpos(id," ")
gen has_special_cha=regexm(id, "[ ^~@#$%&!*()]")
tab has_space
tab has_special_cha
drop if has_space==1
drop if has_special_cha==1
drop has_space
drop has_special_cha
3. 不用金融企业
gen is_financial = regexm(qymc, "(金融|投资|资本|基金|信托|证券|保险|银行|贷款|财务|期货|债券|融资|资产|财富|股权|并购|顾问|咨询|风险|担保|支付|信用)")
drop if is_financial==1
drop is_financial
4. 较为麻烦:2010年及之前的行业分为为2002年标准,其后为2011年标准,需要统一至2011年标准
参考行业分类对比:https://tjj.beijing.gov.cn/zwgkai/tjbz_31390/xyhcyfl_31392/gmjjxyfl_31675/202002/t20200214_1631921.html
参考代码:
replace industry_3="C24" if inlist(industry,"C4211", "C4212", "C4213", "C4214", "C4215", "C4216", "C4217", "C4218", "C4219")
C24为2011年三位码,C4211为2002年行业码
5.最麻烦的是区划代码
税调给的区划代码有的是区县,有的是市级。我只考虑了区县的样本。清理之前,去民政部整理区县行政代码(1993-2020年)
(1)用行政代码,为税调数据匹配地名。地名有的一直使用,有的已经变更或者不使用
(2)结合地区行政变更数据(官方来源民政部,某某网站亦可获取),为老地名匹配新地名
(3)用新地名匹配区县行政代码(2020年的),得到最新的行政代码。这一步可能用到模糊匹配甚至手动对比确认。
附录只包含1-4步代码,第五步太麻烦了,我懒得传
附件列表