全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5509 11
2016-08-11
悬赏 18 个论坛币 已解决
有数据源如下:
1.png

然后要模糊匹配成的结果如下:(把所有名字相近的企业聚到一起竖列排下去
2.png

找到相似的企业名字(但数据源中北京市中和街道这种地域名不能算进,因为按区域命名的企业太多)

这道题目很难,希望会的朋友能教授一下!谢谢

1.png

原图尺寸 6.13 KB

1.png

2.png

原图尺寸 3.27 KB

2.png

最佳答案

鸟儿找虫吃 查看完整内容

能想到的方法是截取字符串后分组聚合,亦或是用ETL算法相似匹配,可能有一定的失误率
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-8-11 14:23:42
能想到的方法是截取字符串后分组聚合,亦或是用ETL算法相似匹配,可能有一定的失误率
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-8-11 16:08:14
你输入的是模糊匹配关键词是什么?还是说你就是要把所有名字相近的企业名全部聚在一起?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-8-11 16:46:18
zerofung 发表于 2016-8-11 16:08
你输入的是模糊匹配关键词是什么?还是说你就是要把所有名字相近的企业名全部聚在一起?
把所有名字相近的企业名全部聚在一起,按相近的企业名这么排下去
就是我贴的那个结果图片
2.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-8-11 18:05:21
畅饮0 发表于 2016-8-11 16:46
把所有名字相近的企业名全部聚在一起,按相近的企业名这么排下去
就是我贴的那个结果图片
如果是这样,我觉得应该有针对字符串的聚类分析?但是我真的不懂。
提供一个比较投机取巧的思路,可能有帮助。
用正则gsub把“集团”“有限”“公司”“街道”等明显无关的词去掉,然后order,可能实现吗?但好像会丢失很多东西
如果有其他人解答了麻烦提醒我一下,我也想学习一下,谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-8-13 04:54:57
看看文本挖掘等技术,相信能解决,把文字信息变为数值等策略,然后聚类等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群