样本极度不均衡的逻辑回归风控评分看建模怎么处理？

1269

收藏 2023-06-26

样本极度不均衡的逻辑回归风控评分看建模怎么处理？
情况：正样本：32万；负样本： 1100 ；正负样本比：290:1。
目的：尽可能少损失正样本数据信息。
方案1：正样本随机抽取10万样本，负样本采用SMOTE采样至1万样本，正负样本比10:1，在模型中设定类别权重class_weight={0:1,1:10:1}。
方案2：正样本分层随机抽取1万样本，负样本采用SMOTE采样至1万样本，正负样本比1:1。
以上方案是否可行？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

manyu123546

2023-6-26 11:21:55

样本极度不均衡的逻辑回归风控评分卡建模怎么处理？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pengyizhen

2023-7-18 22:46:13

看下参考这个官网教程是否有用的https://tensorflow.google.cn/tut ... ata/imbalanced_data

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

shenyunR

2023-11-9 10:56:15

你的不平衡度IR太大了290，传统三类不平衡采样方法可能在精度结果上都不是很好，如果数据可以的话可以试着对数据进行质量控制，先从原始数据入手降低不平衡度，

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

430_1567959049

2024-5-22 07:25:05

在处理样本极度不均衡的问题时，逻辑回归模型可以通过多种方法来提高模型的性能和稳定性。对于你提供的两个方案，我们可以逐一进行分析，并提供一些建议。

方案1：正样本随机抽取10万，负样本SMOTE至1万，正负样本比10:1，class_weight设定为{0:1, 1:10}
优点：

平衡样本：使用SMOTE对负样本进行过采样，使得正负样本比例变为10:1，能够帮助模型更好地学习到负样本的特征。
类别权重调整：通过设置类别权重，进一步平衡样本，减少模型对多数类的偏倚。
缺点：

信息丢失：虽然你保留了较多的正样本，但仍然丢失了22万正样本的信息。
过采样的噪音问题：SMOTE生成的负样本可能会引入噪音，从而影响模型的性能。
方案2：正样本分层随机抽取1万，负样本SMOTE至1万，正负样本比1:1
优点：

平衡样本：1:1的样本比例使得模型在训练时能够更好地学习到正负样本的特征。
简单直接：此方法比较直接，通过分层抽样和过采样使得数据更为平衡。
缺点：

信息丢失：只使用了1万正样本，相较于32万的总正样本数来说，信息丢失较多。
综合分析与建议
改进方案：

更多负样本的合成：考虑将负样本过采样到更接近于正样本的数量，比如将负样本过采样到5万或者更多，以减少噪音并提高样本的代表性。

分层抽样结合：可以在SMOTE之前对负样本进行分层抽样，以确保生成的负样本更加多样化和真实。

使用所有正样本：尝试使用全部32万正样本，但通过减少负样本的过采样倍数（例如负样本过采样到3万或5万），以维持正负样本比例的合理性。

混合采样：结合过采样和欠采样的方法。即对正样本进行适度欠采样，对负样本进行过采样，以达到较为平衡的数据集。

使用高级采样技术：例如ADASYN（Adaptive Synthetic Sampling），这是一种改进版的SMOTE，它更加关注难分类的样本。

交叉验证和模型评估：无论使用哪种方案，都需要进行严格的交叉验证和模型评估，以确保模型在不同数据集上的性能表现稳定。

调整模型参数：除了调整类别权重外，还可以尝试调整其他模型参数（如正则化参数），以进一步提高模型的表现。

最终，两个方案都有其可行性，但为了尽可能保留正样本的信息，建议采用混合采样和适度的过采样策略，同时通过交叉验证不断优化模型性能。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群