全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2645 0
2015-11-11
如题!
本人使用knn算法。因为tm包在windows下做词条文档矩阵有问题,就在Linux下做。安装了Rstudio-server.在另一台电脑用游览器访问。使用jiebaR包分词,tm包做分类。
做完文档词条矩阵之后,转化成数据框,然后用knn做分类与检测。
用了400个化工产业的企业文本(包括主营产品和企业简介)作为训练集,200个化工企业和200个非化工企业。再用400个企业做测试集,效果很不理想。200个化工企业中,只查出了13个化工企业,而非化工企业,则全部判定正确。总的来说,倾向于判定企业属于非化工企业。
自己总结了一下原因,应该是knn算法对小数据集有效率高一些,对大数据集有效率低。
另一个是我的特征词太多了,有八千多个。我看炼数成金的tm包教学中,英文垃圾邮件分类只用了50多个特征词。
我总结的两个原因对不对?请大神赐教。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群