摘要:不平衡数据集是指某类样本数量明显少于其它类样本数量的数据集,传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对文本数据的不平衡情况,首先采用权重润饰(Weight-retouching)的方法进行特征提取,然后采用欠取样(Undersampling)的支持向量机SVM(Support-Vector Machine)方法进行文本分类。通过实验发现,使用权重润饰和欠取样的SVM方法可以提高处理不平衡数据的分类精度。
原文链接:http://www.cqvip.com//QK/90976X/200908/31256062.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)