全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
5983 1
2015-03-31
在用R的时候经常会发现涉及到决策树的基本都是说用rpart包,但rpart包只是二叉树的,所以还是有必要谈谈决策树不同算法的区别
CART(Classification And Regression Tree分类回归树
CHAID(Chi-squared Automatic Interaction Detector)卡方自动动交互诊断器
C5.0和CART算法思路相同:包括决策树生长和决策树修剪两个过程
主要差别体现在:
C5.0
CART

CHAID
  输出变量  只能是分类型 可以是分类型也可以是数值型 可以是分类型
也可以是数值型
只能建分类树 既可建分类树又可建回归树 能够建立多叉树
  可建多叉树  只能建二叉树 能够建立多叉树
确定最佳分组变量
和分割点
  以信息熵为基础
通过计算信息增益确定
  以Gini系数和方差作为选择依据 从统计显著性检验角度确定
  决定决策树的标准 依据训练样本,
通过近似正态分布确定
依据测试样本进行修剪 从统计显著性检验角度确定

CHAID与C5.0 CART算法的区别在于:
CHAID组变量确定的依据是:输入变量与输出变量之间的相关程度,应将与输出变量最相关的输入变量作为
变量。
C5.0 CART算法选择使输出变量取值差异性下降最快的变量为最佳分组变量
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-2-8 14:31:16
不错
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群