全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
7146 10
2014-08-20
在实际数据挖掘案例中遇到一个难题。
背景:假设一天交易的订单有1000万,其中有999.9万个是正常样本,剩下的是作弊样本,想建立决策树发现作弊样本的特点,请问,在建模数据的时候正常样本假如选5万,作弊样本应该选多少呢?如果直接按作弊样本的浓度选的话,只有几个,显然是不行的,如果全选的话,会使样本失衡。坏样本的识别可能会出问题。

问题:作弊样本选择多少个?模型建立之后如何应用到实践当中呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-8-23 22:12:04
作弊样本占的比例本来就很少,可以全部选,不过要结合具体数据的特征来决定
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-26 22:01:50
使用平衡节点,使两者的数据个数大体一样。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-27 10:50:51
kuangsir6 发表于 2014-8-26 22:01
使用平衡节点,使两者的数据个数大体一样。
非常感谢,具体如何操作,能说的具体些吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-27 11:00:56
502129 发表于 2014-8-27 10:50
非常感谢,具体如何操作,能说的具体些吗
参看平衡节点展开图,因子就是样本放大的倍数。
ddd.PNG

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-8-27 11:05:18
502129 发表于 2014-8-27 10:50
非常感谢,具体如何操作,能说的具体些吗
下图是性别的平衡节点展开图,SEX=1代表男性;因子为6,代表男性数量乘以6.
eeee.PNG

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群