请教SAS EM决策树的结果怎么看，以及一个lift响应度的问题.

10495

收藏 2009-08-20

1、我用sas EM跑完决策树后，result分为四块，左下角一块对应的是分叉的叶子，叶子后面对应的training集和validation集上面写的数字是什么意思，我这边写得全是0.0469，我猜不出它的含义。

2、使用决策树跑之前，总浓度为5%，由于数据量太大，我使用Sampling随机抽样10%后跑决策树，虽然最后一片叶子的浓度能提高到35%，但是在assessment里面观察升降图，lift根本就没有上升。同样是这个数据，如果我不使用sampling，直接对所有数据跑决策树，做出来最后一片叶子浓度是50%左右，lift响应度一下子也上升到30%，请问这个怎么解释？和过采样有关系么？
顺带问一下，决策树自己能做过采样么，还是我用了sampling它就对我的数据进行什么处理了？困惑！

谢谢高手，拜谢高手，望不吝赐教。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

wywyx124

2009-8-21 08:30:50

诶。。。。坐等高手回答。。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

坐看云起时

2009-8-21 23:14:06

我很想帮你，但又不知道如何帮，sas做决策树分析，在你输入数据集中。默认的数据量是2000条，如果你自己不设定话，不管你原来有多少数据，计入分析的只有2000条。training集是用来建模的数据量，后面显示的百分比是占你总数据的百分比（默认是2000条），validation集是用来微调你所建模型的数据，后面显示的百分比是占你总数据的百分比（默认是2000条），还有一个TEST集是用来检验你所见模型的稳定性或可靠性。

输入集节点后面是选用sampling还是data partion等等，是根据你想用的模型决定的，即便采用默认的2000条数据，这里选用的抽样方法也是根据你的目标变量的类型决定的---分类（有序还是无序）、名义、连续等，决定是随机简单抽样、分层抽样，还是其他依据你设定的方法抽样，之后还是依据你数据变量的类型来确定纯度度量（基尼、熵、信息增益比率、卡方检验、方差归约、F测试）。

采用决策树分析，你还要确定从父节点开始，后面的每个茎上生长几片叶子，也要设定（默认为2片叶子）

我觉得你如果真想用sas的数据挖掘，最好认真的看一下它的帮助文件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wywyx124

2009-8-24 10:17:03

ls的这位兄弟，谢谢你的解答

这几天我也在研究第一个东西，现在已经明白了，那个数字的意思是Proportion Misclassified统计量。你说的可能是在data input节点和data partition节点里的数据分集。
另外有一个问题，你确定2000的默认随机集是最后放入决策树的总数据么，据我所知，这两千是对Data input做insight或者Explorer时候，观察input的分布情况时的取样，和我放进决策树的数据概念是不一样的，正常情况下就算input这边的抽样是2000，也不影响我全局数据进入决策树。当然，这个问题我会再去看看help文件确认一下，也谢谢你提醒。

第二个问题有高人能解释一下么？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

m8843620

2011-5-27 12:39:37

謝謝樓主的分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

m8843620

2011-5-27 12:39:58

謝謝樓主的分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群