全部版块 我的主页
论坛 数据科学与人工智能 人工智能 人工智能论文版
901 0
2017-12-29
摘要:中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符串匹配,为实现快速的去重方法提供了一种新的可行的方法。实验表明,该算法对于普通网页文本去重能取得很好的效果。

原文链接:http://www.cqvip.com//QK/96728A/201002/1003712449.html

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群