摘要:根据中文文本的特点,不仅考虑‘文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加权的特征项权值计算方法,并给出具体算法。通过与基于词频及基于TF—IDF的特征项权值计算方法的比较试验,证明文中提出的特征项权值计算方法能有效提高文本聚类的正确率。
原文链接:http://www.cqvip.com//QK/95931X/200701/24121202.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)