摘要:中文文本去重是自然语言处理研究的一个重要方向。该文提出了一种基于N-Gram项和特征映射的文本去重方法。该方法提取N-Gram项的序列作为文本特征,将N-Gram项映射成哈希值,通过查找哈希值来判定文本是否重复。利用哈希数值查找代替字符串匹配,为实现快速的去重方法提供了一种新的可行的方法。实验表明,该算法对于普通网页文本去重能取得很好的效果。
原文链接:http://www.cqvip.com//QK/96728A/201002/1003712449.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)