全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
8103 9
2014-04-27
请问下:  我跑出决策树以后,直接导出规则,这个规则是各个叶子节点的规则。 我如何将SAS Em中决策树的各个节点的规则导出?这样我就可以根据我的需要直接将样本分别纳入各个子类。
补充:之所以这样处理是因为决策树是基于训练数据得到的,那个我再用新的数据在之前的规则上跑,就有可能某些观测不在决策树的任何叶子节点上。对于这个问题大家又是怎么看待呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-4-27 22:25:52
如果observation不在任何节点上,那你如何使用这样的数据做prediction呢,如果这样原有的tree对你现有的数据有什么意义呢?你如何保证包含了新的observation的variable的logworth值是significant的呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-27 22:39:11
URSIMON 发表于 2014-4-27 22:25
如果observation不在任何节点上,那你如何使用这样的数据做prediction呢,如果这样原有的tree对你现有的数据有 ...
观测不在叶子节点因为它是基于训练数据形成的规则。当然如果使用全样本进行训练,对于每个观测都为决策树的规则产生做出了贡献,肯定是在最后的叶子节点里。但是我们一般会挑出部分作为试验数据,在选择部分作为验证数据,用以考究模型的稳定性,这时候就会有部分的验证数据不在模型的叶子节点上。对于规则形成了,用新的数据进行判别也是可能出现这种情况的,除非试验数据的各个属性包含了所有水平,但是一般很难做到吧。我现在的数据就是做不到,也许数据量太少或是水平数太多的缘故。所以我想请教如何去解决这个事情。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-28 00:50:11
mkj_2009 发表于 2014-4-27 22:39
观测不在叶子节点因为它是基于训练数据形成的规则。当然如果使用全样本进行训练,对于每个观测都为决策树 ...
直接train一下建一个Max的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-29 15:19:27
URSIMON 发表于 2014-4-28 00:50
直接train一下建一个Max的
嗯,很多人建议我做些水平的聚类,将水平数控制在5个以内。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-5-23 06:33:54
需要请联系QQ:1298997509
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群