全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
6010 6
2017-12-28
悬赏 50 个论坛币 已解决
求教不平衡数据的训练集与测试集样本选择:我正在用决策树提取不同类别的群体的特征,一共有四个群体,但是群体的数据不平衡,分别是1200多,800多,1000多,200多个数据,请问应该怎么进行训练集和测试集的划分与选择,谢谢!


我使用的是Clementine C5.0算法


即多分类类别不均衡的数据应该怎么抽取与选择训练集与测试集,谢谢

最佳答案

阿扁V5 查看完整内容

简单就是分层采样,周志华那本书第二章有详细讲针对不平衡数据和多分类数据的处理方法,可参考
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-12-28 12:35:02
简单就是分层采样,周志华那本书第二章有详细讲针对不平衡数据和多分类数据的处理方法,可参考
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-28 12:45:01
即多分类类别不均衡的数据应该怎么抽取与选择训练集与测试集,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-12-30 11:59:40
支持一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-2 18:19:13
用随机采样去做,尽量保持每个类别的样本数量一致。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-7 01:22:53
阿扁V5 发表于 2017-12-28 12:35
简单就是分层采样,周志华那本书第二章有详细讲针对不平衡数据和多分类数据的处理方法,可参考
请问具体的书名是什么?谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群