全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
9152 11
2011-12-07
大家好,借宝地请教一个问题。我目前在做中国企业进出口分析,需要把工业企业数据库和海关进出口数据库对照起来,但是海关分配给公司的进出口代码跟企业的注册代码不一样,而且两个数据库中的企业名字也不尽相同,最主要的是,由于stata只认识ASCII编码,无法对中文公司名进行模糊匹配。我现在一筹莫展,甚至考虑把数据导入到R中进行处理了。不知道大家有没有遇到过类似的问题,又是如何解决的。多谢帮忙。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-12-7 17:33:18
你这个很难对应的,工业企业数据的划分和海关不一样,而且后来工业企业财务数据没有企业法人代码的值,这个难度超级大啊,我看你也就只能按照企业名称匹配,能对出多少对多少。不过你能有这两个数据挺厉害的,你海关是到那年的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-7 20:35:08
我用的是04和06年的数据。据国外文献说,有人可以对出50%,真是强大,我现在把所有的特殊字符,什么括号啦引号啦空格啦删了,才能对出20%左右。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-12 16:38:16
这个其实简单得很,先对应到同一城市同一行业,这个很容易,再把企业名字用STATA拆开成不同的字,设定为不同变量,然后判断只要有连续两个以上的企业名字相等,就可以认定是同一企业或关联企业了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-7-1 14:58:03
学习
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-7-27 15:29:07
直接用名字配,把名字里的省市县全部去掉,可以配出来34%,还可以按照电话号码、区号、联系人配这样会配得粗糙点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群