全部版块 我的主页
论坛 数据科学与人工智能 人工智能 机器学习
1223 4
2023-06-26
样本极度不均衡的逻辑回归风控评分看建模怎么处理?
情况:正样本 :32万 ;负样本: 1100  ;正负样本比:290:1。
目的:尽可能少损失正样本数据信息。
方案1:正样本随机抽取10万样本,负样本采用SMOTE采样至1万样本,正负样本比10:1,在模型中设定类别权重class_weight={0:1,1:10:1}。
方案2:正样本分层随机抽取1万样本,负样本采用SMOTE采样至1万样本,正负样本比1:1。
以上方案是否可行?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2023-6-26 11:21:55
样本极度不均衡的逻辑回归风控评分卡建模怎么处理?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-7-18 22:46:13
看下参考这个官网教程是否有用的https://tensorflow.google.cn/tut ... ata/imbalanced_data
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-11-9 10:56:15
你的不平衡度IR太大了290,传统三类不平衡采样方法可能在精度结果上都不是很好,如果数据可以的话可以试着对数据进行质量控制,先从原始数据入手降低不平衡度,
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-5-22 07:25:05
在处理样本极度不均衡的问题时,逻辑回归模型可以通过多种方法来提高模型的性能和稳定性。对于你提供的两个方案,我们可以逐一进行分析,并提供一些建议。

方案1:正样本随机抽取10万,负样本SMOTE至1万,正负样本比10:1,class_weight设定为{0:1, 1:10}
优点:

平衡样本:使用SMOTE对负样本进行过采样,使得正负样本比例变为10:1,能够帮助模型更好地学习到负样本的特征。
类别权重调整:通过设置类别权重,进一步平衡样本,减少模型对多数类的偏倚。
缺点:

信息丢失:虽然你保留了较多的正样本,但仍然丢失了22万正样本的信息。
过采样的噪音问题:SMOTE生成的负样本可能会引入噪音,从而影响模型的性能。
方案2:正样本分层随机抽取1万,负样本SMOTE至1万,正负样本比1:1
优点:

平衡样本:1:1的样本比例使得模型在训练时能够更好地学习到正负样本的特征。
简单直接:此方法比较直接,通过分层抽样和过采样使得数据更为平衡。
缺点:

信息丢失:只使用了1万正样本,相较于32万的总正样本数来说,信息丢失较多。
综合分析与建议
改进方案:

更多负样本的合成:考虑将负样本过采样到更接近于正样本的数量,比如将负样本过采样到5万或者更多,以减少噪音并提高样本的代表性。

分层抽样结合:可以在SMOTE之前对负样本进行分层抽样,以确保生成的负样本更加多样化和真实。

使用所有正样本:尝试使用全部32万正样本,但通过减少负样本的过采样倍数(例如负样本过采样到3万或5万),以维持正负样本比例的合理性。

混合采样:结合过采样和欠采样的方法。即对正样本进行适度欠采样,对负样本进行过采样,以达到较为平衡的数据集。

使用高级采样技术:例如ADASYN(Adaptive Synthetic Sampling),这是一种改进版的SMOTE,它更加关注难分类的样本。

交叉验证和模型评估:无论使用哪种方案,都需要进行严格的交叉验证和模型评估,以确保模型在不同数据集上的性能表现稳定。

调整模型参数:除了调整类别权重外,还可以尝试调整其他模型参数(如正则化参数),以进一步提高模型的表现。

最终,两个方案都有其可行性,但为了尽可能保留正样本的信息,建议采用混合采样和适度的过采样策略,同时通过交叉验证不断优化模型性能。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群