全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4751 2
2016-12-07

请教各位:

R语言做分类问题,有一个属性的缺失值达到40%。直接使用上一个单元格的值填补空值。在随机森林模型中,重要度排序第一。决策树模型中,该属性也是常居于树的根节点。
应该如何看待这个问题?

是说明这个属性真的非常重要?还是有其他原因?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-12-7 20:26:16
缺失值,是一个复杂问题,但你因只有一个变量有缺失,用相关统计方很容易明确你的疑问的:
  一、缺失可能不是随机的,缺与不缺,本身包含有信息。如,工业型企业,该有应收账款,但就是有一类企业没有,在财报上缺失。因此,用缺与不缺,再设一个因子变量,瞧瞧它是否有统计意义
  二、将缺失值,完全删除,瞧瞧此变量还有意义吗??
三、用其它二三种补缺失值方法补缺失,瞧瞧它还有意义吗,并有何区别!!
四,有其它统计学习模型,如ababoost ,lasso等,睢瞧它有否统计意义!!
   最后,有缺失,就意味着信息缺失,任意统计模型,都 无法弥补缺失的信息量!!任何补缺失方法,仅仅减少已有信息量的进一步减少!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-7 20:29:41
缺失值,是一个复杂问题,但你因只有一个变量有缺失,用相关统计方很容易明确你的疑问的:
  一、缺失可能不是随机的,缺与不缺,本身包含有信息。如,工业型企业,该有应收账款,但就是有一类企业没有,在财报上缺失。因此,用缺与不缺,再设一个因子变量,瞧瞧它是否有统计意义
  二、将缺失值,完全删除,瞧瞧此变量还有意义吗??
三、用其它二三种补缺失值方法补缺失,瞧瞧它还有意义吗,并有何区别!!
四,用其它统计学习模型,如ababoost ,lasso等,睢瞧它有否统计意义!!
   最后,有缺失,就意味着信息缺失,任意统计模型,都 无法弥补缺失的信息量!!任何补缺失方法,仅仅减少已有信息量的进一步减少!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群