决策树rpart()问题

4267

收藏 2022-02-22

悬赏 40 个论坛币已解决

我发现使用rpart()的时候，好像决策树不会按照给我放了多少variable来分tree<-rpart(Employee.Status ~.,data = dummydf )，我的variable大概有18个左右 (要求是给出性别啊，年纪啊，学历啊，这些来判断这个人在公司工作的稳定性，是否容易离职）谢谢哦

问题来了：
1. 我想知道背后的原因？
2.我怎么看最后的那个结果局就是那个树

最佳答案

owenqi 查看完整内容

1.如果你的结果是判断某人是否会离职，那就是分类树（classification tree）那你用rpart做决策默认使用的是基尼指数（gini index），当然也可以使用交叉熵（cross entropy），这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量（根据吉尼指数）。 2.没看懂你想问什么，如果根据猜测的话，你图上的那个树如果没有剪枝（pruning）的话，可以算是最后的树了。建议你去仔细读一下决策树的原理和实现，就可以基本 ...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

owenqi

2022-2-22 10:54:31

1.如果你的结果是判断某人是否会离职，那就是分类树（classification tree）那你用rpart做决策默认使用的是基尼指数（gini index），当然也可以使用交叉熵（cross entropy），这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量（根据吉尼指数）。
2.没看懂你想问什么，如果根据猜测的话，你图上的那个树如果没有剪枝（pruning）的话，可以算是最后的树了。
建议你去仔细读一下决策树的原理和实现，就可以基本上可以解答你本身的疑问。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

silver_gp

2022-2-22 19:04:32

决策树选择哪个attribute去分岔，取决于用这个属性去分岔是否能得到最多的infromation gain。每一个节点要决定用哪个属性以及怎么分岔时，它会测试每一个attribute进行分岔之后，哪个infromation gain是最多的，于是就决定用哪个attribute分岔。information gain就是先算出当前节点的entropy，以及分岔之后各自算entropy之和，看看比分岔前少了多少。大概流程就是这个样子。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群