全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1656 2
2009-03-15
现在在用EM的decison tree 作一个东西,因为没有学过,发现把把数据作decision
tree后,有些variable 并没有在tree leaf里面,比如这个数据有8个variable, 只有6
个出现在tree里面,看到那个sas output 中importance数据中,也没有那两个
variable,这样正常吗?要改那些参数才能让所有的variable 被用上呢?

还有就是sum of squared error ,average squared error 几个error都是很大的数,
是不是哪里出了问题?怎莫来处理呢?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-3-15 21:41:00

没有出现在tree里可能是因为变量的不够显著性,因此没有入选。Tree在分裂节点时,根据不同的算法,一般有entropy, LogP,Gini,IV值等差异性指标,EM会为这些指标设置一些默认的阈值,只有变量的显著性水平超过阈值,才会出现。

一般说来,没有入选说明不显著,也就是说,这个变量对于预测和判别目标变量来说,没有特别的信息,最简单的例子是判别为0或判别为1的概率都接近0.5, 在这种情况下,这个特征就没有判别能力,通常情况下没必要通过修改阈值使其入选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-3-15 23:27:00
谢谢你的回复.
还有个问题就是有好几个error的值很大,将近6-7位数,这个说明哪里有问题呢?能不能通过一些方法把它变小呢?
然后就是,如果target variable 是数值型的,在rule里面出现的target variable 是指的他的平均值?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群