立即打开
一、数据概述
------------
数据名称:税收调查数据与工商注册数据匹配结果
时间范围:2007~2020年
数据格式:Stata dta格式
更新说明:新增2017~2020年数据,2007~2016年数据与之前版本一致
匹配率:整体匹配率超过96%,近年匹配率高达98%+
数据价值:
- 有助于政府更准确了解企业经营状况和市场动态
- 为制定合理经济政策提供依据
- 推动社会诚信体系建设
二、数据文件列表
----------------
2007sd_info.dta
2008sd_info.dta
2009sd_info.dta
2010sd_info.dta
2011sd_info.dta
2012sd_info.dta
2013sd_info.dta
2014sd_info.dta
2015sd_info.dta
2016sd_info.dta
2017sd_info.dta
2018sd_info.dta
2019sd_info.dta
2020sd_info.dta
附件还包含税调基本信息数据。
三、变量说明
------------
3.1 核心标识变量
sdid 税调数据唯一标识符,用于匹配和连接
newgcid 工商数据企业标识符
3.2 企业基本信息
企业名称 公司全称
法人代表 法定代表人姓名
成立日期 企业成立时间
成立年份 企业成立年份
注册资本 企业注册资本金额
实缴资本 实际缴纳资本金额
经营状态 企业当前经营状态
企业类型 企业组织形式
人员规模 企业员工规模
参保人数 社保参保人数
3.3 注册登记信息
统一社会信用代码 18位统一信用代码
工商注册号 工商登记注册号
纳税人识别号 税务登记号
组织机构代码 9位组织机构代码
登记机关 工商登记机关名称
核准日期 工商核准日期
营业期限 营业执照有效期
纳税人资质 一般纳税人/小规模纳税人
3.4 行业分类
行业门类 行业门类名称
行业门类代码 行业门类代码(1位)
行业大类 行业大类名称
行业大类代码 行业大类代码(2位)
行业中类 行业中类名称
行业中类代码 行业中类代码(3位)
行业小类 行业小类名称
行业小类代码 行业小类代码(4位)
3.5 地理信息
省份/省 省级行政区名称
省代码 省级行政区代码
城市/市 地级市名称
市代码 地级市代码
区县/县 区县名称
县代码 区县代码
注册地址 企业注册详细地址
经度 企业所在地经度坐标
纬度 企业所在地纬度坐标
3.6 其他信息
曾用名 企业历史名称
英文名 企业英文名称
经营范围 工商登记经营范围
邮箱 企业联系邮箱
网址 企业官方网站
标签 企业标签信息
四、匹配方法
------------
4.1 匹配策略
采用两步精准匹配法:
第一步:企业名称精确匹配
第二步:统一社会信用代码补配(对第一步未匹配成功的样本)
4.2 名称预处理
匹配前删除以下词汇以提高匹配成功率:
- 公司类型词:股份有限、集团有限、有限责任、有限、责任、股份、公司、厂
- 括号符号:(集团)、(集团)、(、)、(、)
- 行政区划词:省、市、区、县
- 自治区词:回族自治区、壮族自治区、维吾尔自治区、自治区
4.3 预处理原因
(1) 企业名称中"有限公司"和"有限责任公司"经常混用
(2) 有限公司改制为股份有限公司等情况
(3) 删除上述词汇可大大提高匹配成功率
4.4 为何不用模糊匹配
- 中文企业名称只要有一个字不同就可能不是同一家企业
- 模糊匹配耗时耗力且错误率高
- 精确匹配配合名称预处理已能达到96%+匹配率
五、数据来源
------------
税收调查数据:全国税收调查数据库
工商注册数据:中国工商企业注册全量数据库(1949-2023,含2.8亿+企业)
天眼查工商注册数据库
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群