全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1754 0
2011-11-22
如题,请教各位高手:
跑决策树时,是否对输入变量的值范围、分布啥的有所要求?
例如,现在评价一个网上牛奶促销活动的好坏,观测购买牛奶的用户特征,
输出变量为:IsMilk    变量值:T(购买),F(未购买)
输入变量为:年龄、性别、用户级别、所在城市、用户注册年限等等
假设现在用户全部来自一线城市(比较极端的情况),或者注册年限80﹪都在一年以内...
像这种情况是否这两个不可以作为输入变量?

简单说就是:决策树模型对输入变量值的分布均匀性是否有要求?
是否有个约定俗成的比例在这,当存在取某一值比例大于?﹪时,此变量不适合作为输入变量?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群