全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
8832 9
2015-10-29
请问论坛里的大牛,两个数据库之间精确匹配用的是merge命令,但如果要实现两个数据库中公司名称的模糊匹配,比如两个公司名称除去“有限责任公司”几个字外如果有两个字是相同的,我就把它们匹配起来,这样如何做到?怎样编程?请各位大神们不吝赐教!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-11-1 09:28:49
把数据里不需要对应的字删掉然后再考虑使用merge
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-1 10:01:46
夏目贵志 发表于 2015-11-1 09:28
把数据里不需要对应的字删掉然后再考虑使用merge
这么做是不对的。我感觉还得自己编程,比如两个公司名称中有八个以上的汉字相同就匹配在一起。我不知道怎么用stata编,所以我打算试试vba。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-1 10:59:25
wudizhao 发表于 2015-11-1 10:01
这么做是不对的。我感觉还得自己编程,比如两个公司名称中有八个以上的汉字相同就匹配在一起。我不知道怎 ...
为什么不对?不过你说不对就不对咯。本来就只是个建议 :)
不过你的方法也有问题,“南京市公交有限责任公司”和“南京市地铁有限责任公司”,“南京市有限责任公司”一共九个字......
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-1 11:21:15
夏目贵志 发表于 2015-11-1 10:59
为什么不对?不过你说不对就不对咯。本来就只是个建议 :)
不过你的方法也有问题,“南京市公交有限责任 ...
对不起,我有点急,语气太鲁莽了,请您谅解!我只是觉得您的方法不好操作,按您的方法,怎样把数据里不需要对应的字删掉?比如我可以把“有限责任公司”几个字删掉,然后呢怎么匹配?感觉还是不行啊。我的做法是,两个公司名称中有六个以上的汉字相同就匹配在一起,比如“万科企业股份有限公司”和“上海万科房地产集团有限公司”匹配起来,然后再人工检查,排除确实不匹配的样本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-1 12:39:35
wudizhao 发表于 2015-11-1 11:21
对不起,我有点急,语气太鲁莽了,请您谅解!我只是觉得您的方法不好操作,按您的方法,怎样把数据里不需 ...
没关系。如果说比较相同的字数是基本的思路的话,我说的把不需要用来对应的删掉就是为了能更好的比较,即,把明显会重复并造成干扰的部分删掉。具体删什么不删什么得看你数据实际是什么样子的。
本来Stata处理文本并不是强项,更何况是中文(英文的话还可以考虑soundex)。能用别的软件匹配的话不要跟stata死磕。

你说的例子“万科企业股份有限公司”和“上海万科房地产集团有限公司”到底是属于该配对的还是不该配对的呢?比如一个集团控股的几家公司是要配对还是不配对?按什么标准决定?这些因素都要考虑。实在不行还是人工检查一下吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群