全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1108 0
2023-03-30

监督分箱

内容摘要:监督分箱法一方面有利于分箱误差最小化,另一方面可以提供有效的业务标签制作。

参考索引:阅读网络资料。

监督分箱法步骤

监督分箱法是一种最小化监督值(如卡方)来确定最优分箱边界的方法。

其原理如下:

1.将连续变量按照大小排序,将其分为 k个初始分箱,并计算监督值或误差,通常是误差。

2.对于每个分箱,计算其正样本数量和负样本数量,并计算其对应的卡方值。

3.合并相邻的分箱,并计算新分箱的卡方值。

4.不断执行步骤3,直到分箱数目满足条件。

方法的优点是可以最大程度地减小分箱误差,在有限制条件下寻找最优解,帮助实现标签制作自动化。但其缺点是计算复杂度较高,难以应用于大型数据,而且如果结合模型使用的话,往往容易过拟合。

监督分箱.png

分箱法作用

1.探索和分析不同组的数据分布情况。

2.有利于监测异常点和离群值。对于某些靠近分组边界的数据点,可以根据业务需求决定将其放入哪个分组。

3.提升模型的准确度和稳定性。

4.降低复杂度,避免缺失值和异常值的影响,并提高模型的运算能力。

5.提高模型的解释性。对于一些业务解释比较重要的场景,使用数据分箱法可以让模型更加易于解释,提高标签制作的速度和性能。

书籍.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群