经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
SAS专版
文本相似度计算问题
楼主
风中飘翼
3312
2
收藏
2017-08-03
现在有一个数据库,里面存有大量项目,项目主体部分是文本,需要实现筛查项目是否有重复,因为这些主体是文本可能只有部分相似,不能用proc sort这种语句简单计算,查了一下好像余弦相似度、SimHash可以,小弟之前没做过关于文本挖掘问题,请问有大神做过类似问题么,该怎么入手。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
风中飘翼
2017-8-7 14:38:41
查了几天总算找到些方法,文章用的是Python做的,主要利用jieba分析和gensim里的TF-IDF,因为我个人Python比较菜还没完全搞懂,有类似问题的童鞋们可以去学习学习。原文链接http://www.cnblogs.com/liaojiafa/p/6287314.html
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
Jessie97
2018-12-6 11:51:58
小白去看咯~感谢分享!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
关于NI的计算问题
Esteban-Ray指数中人口权重的计算问题
求助。关于岗位或者人才流动频率的计算问题。。
经济订货批量EOQ的计算问题
牛人进,简单的GDP 计算问题
FM年金利率计算问题,求解答
重复博弈的现值计算问题
请教:空间计量中权重矩阵的一个计算问题
套期保值最佳比率的计算问题
咨询一下文本挖掘的问题
栏目导航
SAS专版
stata专版
行业分析报告
经管文库
文献求助专区
数据交流中心
热门文章
瓦尔拉斯方程组及其求解历史
一般均衡证明中的关键人物与全 1 解的关联探 ...
蔡定创经济学 《信用价值论续—集聚生产与资 ...
2025 中国不良资产行业发展研究
A Course in Formal Languages, Automata a ...
Business Research Methods 14th Edition b ...
Probabilistic Data-Driven Modeling by To ...
JPE最新录用文献
2024年债券市场分析研究报告
如盈财女:11.1下周黄金、原油行情趋势分析 ...
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群