全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
1213 0
2020-05-31
- 为什么要引入分箱:
  - 评分结果需要有一定稳定性。
  - 分类型变量:个数比较少就可以不作处理,如果取值过多会导致“变量膨胀”.

- 分箱的要求:
  - 不需要分箱变量:对于分类型变量如果取值较少,一般无需分箱
  - 分箱结果的有序性:对于有序型变量(数值型、有序离散型)
  - 分箱的平衡性:严格来说,每一个箱子占比不能相差太大,一般要求占比最小的箱子不低于5%。
  - 分箱的单调性:严格来说,有序型变量分箱后每个箱子的坏样本率与箱子呈单调关系。
  - 分箱的个数:5-7个比较合适
- 分箱优缺点:
  - 优点:稳定、缺失值处理、异常值处理、不需要做归一化
  - 缺点:有信息损失、需要做编码
- 常用的分箱方法:
  - 有监督:CART树最优分箱、卡方分箱
  - 无监督:等距、等深、聚类
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群