全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
10395 5
2009-08-20
1、我用sas EM跑完决策树后,result分为四块,左下角一块对应的是分叉的叶子,叶子后面对应的training集和validation集上面写的数字是什么意思,我这边写得全是0.0469,我猜不出它的含义。


2、使用决策树跑之前,总浓度为5%,由于数据量太大,我使用Sampling随机抽样10%后跑决策树,虽然最后一片叶子的浓度能提高到35%,但是在assessment里面观察升降图,lift根本就没有上升。同样是这个数据,如果我不使用sampling,直接对所有数据跑决策树,做出来最后一片叶子浓度是50%左右,lift响应度一下子也上升到30%,请问这个怎么解释?和过采样有关系么?
顺带问一下,决策树自己能做过采样么,还是我用了sampling它就对我的数据进行什么处理了?困惑!


谢谢高手,拜谢高手,望不吝赐教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-8-21 08:30:50
诶。。。。坐等高手回答。。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-21 23:14:06
我很想帮你,但又不知道如何帮,sas做决策树分析,在你输入数据集中。默认的数据量是2000条,如果你自己不设定话,不管你原来有多少数据,计入分析的只有2000条。training集是用来建模的数据量,后面显示的百分比是占你总数据的百分比(默认是2000条),validation集是用来微调你所建模型的数据,后面显示的百分比是占你总数据的百分比(默认是2000条),还有一个TEST集是用来检验你所见模型的稳定性或可靠性。

输入集节点后面是选用sampling还是data partion等等,是根据你想用的模型决定的,即便采用默认的2000条数据,这里选用的抽样方法也是根据你的目标变量的类型决定的---分类(有序还是无序)、名义、连续等,决定是随机简单抽样、分层抽样,还是其他依据你设定的方法抽样,之后还是依据你数据变量的类型来确定纯度度量(基尼、熵、信息增益比率、卡方检验、方差归约、F测试)。

采用决策树分析,你还要确定从父节点开始,后面的每个茎上生长几片叶子,也要设定(默认为2片叶子)

我觉得你如果真想用sas的数据挖掘,最好认真的看一下它的帮助文件。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-24 10:17:03
ls的这位兄弟,谢谢你的解答

这几天我也在研究第一个东西,现在已经明白了,那个数字的意思是Proportion Misclassified统计量。你说的可能是在data input节点和data partition节点里的数据分集。
另外有一个问题,你确定2000的默认随机集是最后放入决策树的总数据么,据我所知,这两千是对Data input做insight或者Explorer时候,观察input的分布情况时的取样,和我放进决策树的数据概念是不一样的,正常情况下就算input这边的抽样是2000,也不影响我全局数据进入决策树。当然,这个问题我会再去看看help文件确认一下,也谢谢你提醒。

第二个问题有高人能解释一下么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-27 12:39:37
謝謝樓主的分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-27 12:39:58
謝謝樓主的分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群