全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3607 2
2016-12-14
最近要对活跃信用卡交易客户预测以后睡眠的概率,数据集是非平衡数据集(睡眠客户只占比7%)。
用普通的分层等比例抽样方法各抽70%样本训练模型,逻辑回归的结果如下:
模型结果概率分布不均匀.png
可见标黄的两组客户分组不均匀(相比10%的客户占比,一组较大,一组较小)。

想咨询两个问题:
1.对于非平衡数据集,一般如何构造训练集能是模型效果较好?(试过睡眠、非睡眠客户各取5000个样本建模,效果不佳)
2.对于模型验证时如图所示的分组不均匀情况,造成的可能原因是什么?如何优化模型?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-12-15 08:32:47
是否可以使用PSM方法匹配,然后进行回顾。再用回顾的结果记分,再次进行psm匹配。直到结果没有太大的改进为止。不知道是否可行。你如果有什么好的结果,请告诉我一下,非常感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-15 13:05:45
ryuuzt 发表于 2016-12-15 08:32
是否可以使用PSM方法匹配,然后进行回顾。再用回顾的结果记分,再次进行psm匹配。直到结果没有太大的改进为 ...
PSM方法是什么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群