全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3842 5
2011-11-22
如题,请教各位高手:
跑决策树时,是否对输入变量的值范围、分布啥的有所要求?

例如,现在评价一个网上牛奶促销活动的好坏,观测购买牛奶的用户特征,
输出变量为:IsMilk    变量值:T(购买),F(未购买)
输入变量为:年龄、性别、用户级别、所在城市、用户注册年限等等

假设现在用户全部来自一线城市(比较极端的情况),或者注册年限80﹪都在一年以内...
像这种情况是否这两个不可以作为输入变量?

简单说就是:决策树模型对输入变量值的分布均匀性是否有要求?

是否有个约定俗成的比例在这,当存在取某一值比例大于?﹪时,此变量不适合作为输入变量?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-11-22 22:57:07
我学的时候没有听说过,现在忘光了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-11-23 07:21:32
书本里不会讲这些的,要牵扯到实际应用,特别是商业应用这块。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-11-23 08:50:42
一般没有限制,除非变量分布过于奇异例如99.5%以上都取某特定值或缺失之类的......
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-11-23 13:08:53
恩谢谢,还是要结合具体分析目的,考虑中。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-6 13:33:08
对于分类问题,当某个变量的单个值比例超过70%时,这个变量一般不可取
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群