全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4267 2
2022-02-22
悬赏 40 个论坛币 已解决
我发现使用rpart()的时候,好像决策树不会按照给我放了多少variable来分tree<-rpart(Employee.Status ~.,data = dummydf ),我的variable大概有18个左右 (要求是给出性别啊,年纪啊,学历啊,这些来判断这个人在公司工作的稳定性,是否容易离职)谢谢哦

问题来了:
1. 我想知道背后的原因?
2.我怎么看最后的那个结果局就是那个树
tree


最佳答案

owenqi 查看完整内容

1.如果你的结果是判断某人是否会离职,那就是分类树(classification tree)那你用rpart做决策默认使用的是基尼指数(gini index),当然也可以使用交叉熵(cross entropy),这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量(根据吉尼指数)。 2.没看懂你想问什么,如果根据猜测的话,你图上的那个树如果没有剪枝(pruning)的话,可以算是最后的树了。 建议你去仔细读一下决策树的原理和实现,就可以基本 ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-2-22 10:54:31
1.如果你的结果是判断某人是否会离职,那就是分类树(classification tree)那你用rpart做决策默认使用的是基尼指数(gini index),当然也可以使用交叉熵(cross entropy),这两个无论选哪个都是在你所有的变量里面按照顺序选择“最重要”的变量(根据吉尼指数)。
2.没看懂你想问什么,如果根据猜测的话,你图上的那个树如果没有剪枝(pruning)的话,可以算是最后的树了。
建议你去仔细读一下决策树的原理和实现,就可以基本上可以解答你本身的疑问。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-2-22 19:04:32
决策树选择哪个attribute去分岔,取决于用这个属性去分岔是否能得到最多的infromation gain。每一个节点要决定用哪个属性以及怎么分岔时,它会测试每一个attribute进行分岔之后,哪个infromation gain是最多的,于是就决定用哪个attribute分岔。information gain就是先算出当前节点的entropy,以及分岔之后各自算entropy之和,看看比分岔前少了多少。大概流程就是这个样子。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群