全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3312 2
2017-08-03
现在有一个数据库,里面存有大量项目,项目主体部分是文本,需要实现筛查项目是否有重复,因为这些主体是文本可能只有部分相似,不能用proc sort这种语句简单计算,查了一下好像余弦相似度、SimHash可以,小弟之前没做过关于文本挖掘问题,请问有大神做过类似问题么,该怎么入手。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-8-7 14:38:41
查了几天总算找到些方法,文章用的是Python做的,主要利用jieba分析和gensim里的TF-IDF,因为我个人Python比较菜还没完全搞懂,有类似问题的童鞋们可以去学习学习。原文链接http://www.cnblogs.com/liaojiafa/p/6287314.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-6 11:51:58
小白去看咯~感谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群