全部版块 我的主页
论坛 经济学论坛 三区 劳动经济学
1783 3
2024-10-26
最近在处理税收调查数据,遇到以下问题,这里分享出来供大家参考1. 税调不仅含企业,还有地方税务局、个体工商户、社会组织、事务所、学校等等,保留企业组织形式的观测
//                保留企业名称中包含公司、集团和厂等关键词的观测
gen         firm=strpos(qymc,"公司")>0
tab         firm
replace firm=1 if strpos(qymc,"集团")>0
replace firm=1 if strpos(qymc,"厂")>0
label         var firm "纳税人为企业组织形式,不含金融机构"

sort         firm
order         year frdm qymc id firm
keep        if firm==1


2. 纳税人识别号中含空格或特殊字符
gen         has_space=strpos(id," ")
gen         has_special_cha=regexm(id, "[ ^~@#$%&!*()]")

tab         has_space
tab         has_special_cha
drop         if has_space==1
drop         if has_special_cha==1

drop        has_space
drop         has_special_cha


3. 不用金融企业
gen         is_financial = regexm(qymc, "(金融|投资|资本|基金|信托|证券|保险|银行|贷款|财务|期货|债券|融资|资产|财富|股权|并购|顾问|咨询|风险|担保|支付|信用)")

drop         if is_financial==1
drop         is_financial


4. 较为麻烦:2010年及之前的行业分为为2002年标准,其后为2011年标准,需要统一至2011年标准
参考行业分类对比:https://tjj.beijing.gov.cn/zwgkai/tjbz_31390/xyhcyfl_31392/gmjjxyfl_31675/202002/t20200214_1631921.html

参考代码:
replace industry_3="C24" if inlist(industry,"C4211", "C4212", "C4213", "C4214", "C4215", "C4216", "C4217", "C4218", "C4219")
C24为2011年三位码,C4211为2002年行业码

5.最麻烦的是区划代码
税调给的区划代码有的是区县,有的是市级。我只考虑了区县的样本。清理之前,去民政部整理区县行政代码(1993-2020年)
(1)用行政代码,为税调数据匹配地名。地名有的一直使用,有的已经变更或者不使用
(2)结合地区行政变更数据(官方来源民政部,某某网站亦可获取),为老地名匹配新地名
(3)用新地名匹配区县行政代码(2020年的),得到最新的行政代码。这一步可能用到模糊匹配甚至手动对比确认。

附录只包含1-4步代码,第五步太麻烦了,我懒得传
附件列表

税调清理do.txt

大小:30.13 KB

只需: 100 个论坛币  马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-10-28 14:16:12
thanks for sharing
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-10-28 16:54:58
免费 免费
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-11-1 12:09:55
您这1、3应该有些多余,因为您可以先在5匹配出来,然后根据行业代码去删除金融行业和社会组织代码,就可以删除了。当然,我也是在学习处理中,也有很多疑惑,可以交流哈哈。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群