摘要:为提高文本分类性能,提出一种结合
机器学习和领域词典的文本特征表示方法.基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题.为此,提出一种学习模型--自划分模型--来解决这个覆盖度不足的问题.实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果.相对于传统词文本特征方法,在特征数为500时分类的F1值提高6.58%.
原文链接:http://www.cqvip.com//QK/94913X/200512/20781233.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)