公司名称的模糊匹配问题，如何编程？

9095

收藏 2015-10-29

请问论坛里的大牛，两个数据库之间精确匹配用的是merge命令，但如果要实现两个数据库中公司名称的模糊匹配，比如两个公司名称除去“有限责任公司”几个字外如果有两个字是相同的，我就把它们匹配起来，这样如何做到？怎样编程？请各位大神们不吝赐教！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

夏目贵志

2015-11-1 09:28:49

把数据里不需要对应的字删掉然后再考虑使用merge

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wudizhao

2015-11-1 10:01:46

夏目贵志发表于 2015-11-1 09:28
把数据里不需要对应的字删掉然后再考虑使用merge

这么做是不对的。我感觉还得自己编程，比如两个公司名称中有八个以上的汉字相同就匹配在一起。我不知道怎么用stata编，所以我打算试试vba。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

夏目贵志

2015-11-1 10:59:25

wudizhao 发表于 2015-11-1 10:01
这么做是不对的。我感觉还得自己编程，比如两个公司名称中有八个以上的汉字相同就匹配在一起。我不知道怎 ...

为什么不对？不过你说不对就不对咯。本来就只是个建议 :）
不过你的方法也有问题，“南京市公交有限责任公司”和“南京市地铁有限责任公司”，“南京市有限责任公司”一共九个字......

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wudizhao

2015-11-1 11:21:15

夏目贵志发表于 2015-11-1 10:59
为什么不对？不过你说不对就不对咯。本来就只是个建议 :）
不过你的方法也有问题，“南京市公交有限责任 ...

对不起，我有点急，语气太鲁莽了，请您谅解！我只是觉得您的方法不好操作，按您的方法，怎样把数据里不需要对应的字删掉？比如我可以把“有限责任公司”几个字删掉，然后呢怎么匹配？感觉还是不行啊。我的做法是，两个公司名称中有六个以上的汉字相同就匹配在一起，比如“万科企业股份有限公司”和“上海万科房地产集团有限公司”匹配起来，然后再人工检查，排除确实不匹配的样本。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

夏目贵志

2015-11-1 12:39:35

wudizhao 发表于 2015-11-1 11:21
对不起，我有点急，语气太鲁莽了，请您谅解！我只是觉得您的方法不好操作，按您的方法，怎样把数据里不需 ...

没关系。如果说比较相同的字数是基本的思路的话，我说的把不需要用来对应的删掉就是为了能更好的比较，即，把明显会重复并造成干扰的部分删掉。具体删什么不删什么得看你数据实际是什么样子的。
本来Stata处理文本并不是强项，更何况是中文（英文的话还可以考虑soundex）。能用别的软件匹配的话不要跟stata死磕。

你说的例子“万科企业股份有限公司”和“上海万科房地产集团有限公司”到底是属于该配对的还是不该配对的呢？比如一个集团控股的几家公司是要配对还是不配对？按什么标准决定？这些因素都要考虑。实在不行还是人工检查一下吧。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群