全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2225 3
2018-04-06
遇到一个分类问题,需要用到集成学习,多数样本和少数样本的比例大概是3000:80,不平衡,特征大概70个。整个思路是:一方面先将特征集聚类,然后从每个类中选出有代表性的类构成特征空间,再随机从特征空间中抽取特征子空间;另一方面,为了解决数据不平衡问题,用Bootstrap从多数样本中抽取子集,子集数目和少数样本一样多,这样和少数样本组成平衡的集合。最后用特征子空间和平衡的样本组成的集合通过SVM训练基分类器,最终通过多数投票策略整合结果。这个过程想用R语言实现,发现用的包主要是caret,函数是train(),trainControl(),还有bag()函数,但是一直没有搞懂bag()函数是用来做什么的,这几个函数的关系是怎么样的,非常困扰,市面上参考的书虽然有,但集成学习这一块都讲的特别简单,不知道大家有没有可以通过掉包调参实现这个过程的方法,或者要自己编程,过程该怎么实现?感激不尽!祝好!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-4-7 18:55:30
开始学R语言机器学习的时候也是接触的caret包,功能很强大、很丰富,尤其后来学了本书《应用预测建模》,就是caret包作者编著的,非常好且有深度的书!
前不久又接触到了另一个R语言机器学习的集成包:mlr。它的官网做的更完善、更清晰,虽然都是英语,但都比较容易理解,样例也详尽,照着学,很快就能掌握。相比caret,mlr包函数更多。虽然二者差不多,都很强大,但我个人更喜欢用mlr建模,因为它的建模流程、参数调优、验证预测以及可视化方面更强大、更灵活(个人感觉)!
当然最好是两个包都掌握,取长补短,那就是你在R语言上的机器学习的超级平台!

下图是mlr包中可调用的各种算法(部分):
2018-04-07_18-13-52.png

下图是多种算法初比较:
2018-04-07_18-46-02.png

下图是参数调优:
2018-04-07_18-51-56.png

下图是多种算法kappa值比较结果可视化:
Rplot02.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-9 19:57:19
narcissism0923 发表于 2018-4-7 18:55
开始学R语言机器学习的时候也是接触的caret包,功能很强大、很丰富,尤其后来学了本书《应用预测建模》,就 ...
非常感谢您的回复,您推荐的书和包我借来看了,帮助非常大!另外我也研究了mlr包,mlrtutorial上写得很好,但是我还是没有解决我的问题,可能还要学习一段时间吧。感谢回复!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-4-9 19:57:24
narcissism0923 发表于 2018-4-7 18:55
开始学R语言机器学习的时候也是接触的caret包,功能很强大、很丰富,尤其后来学了本书《应用预测建模》,就 ...
非常感谢您的回复,您推荐的书和包我借来看了,帮助非常大!另外我也研究了mlr包,mlrtutorial上写得很好,但是我还是没有解决我的问题,可能还要学习一段时间吧。感谢回复!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群