全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
7239 7
2011-01-08
如题 希望高手指教?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-2-28 19:06:16
同求,希望论坛的哥们顶啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-2 16:50:45
C5.0是多叉树,CRT是二叉树;
C5.0的目标字段是分类型的,CRT的目标字段既可以是分类型的也可以是数值型的;

具体的内容如下:
一、 C 5.0算法  执行效率和内存使用改进、适用大数据集               
优点:               
1)面对数据遗漏和输入字段很多的问题时非常稳健;               
2)通常不需要很长的训练次数进行估计;               
3)比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;               
4)允许进行多次多于两个子组的分割。目标字段必须为分类字段。               

分类回归树  classification and regression tree(C&RT)  racoon                               
                               
优点                               
(1)可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数据提供参考;                               
(2)在面对诸如存在缺失值、变量数多等问题时C&RT 显得非常稳健(robust);                               
(3)估计模型通常不用花费很长的训练时间;                               
  (4) 推理过程完全依据属性变量的取值特点(与 C5.0不同,C&RT的输出字段既可以是数值型,也可以是分类型)                               
(5)比其他模型更易于理解——从模型中得到的规则能得到非常直观的解释,决策推理过程可以表示成   IF…THEN的形式                               
(6)目标是定类变量为分类树,若目标变量是定距变量,则为回归树;                               
(7)通过检测输入字段,通过度量各个划分产生的异质性的减小程度,找到最佳的一个划分。                               
(8)非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。                               
                               
决策树生长的核心是确定决策树的分枝准则。                               
一、 如何从众多的属性变量中选择一个当前的最佳分支变量;                               
也就是选择能使异质性下降最快的变量。                               
异质性的度量:GINI、TWOING、least squared deviation。                               
前两种主要针对分类型变量,LSD针对连续性变量。                               
                               
代理划分、加权划分、先验概率                               
                               
二、 如何从分支变量的众多取值中找到一个当前的最佳分割点(分割阈值)。                               
(1) 分割阈值:                               
A、数值型变量——对记录的值从小到大排序,计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的临界值便是最佳的划分点。                               
B、分类型变量——列出划分为两个子集的所有可能组合,计算每种组合下生成子节点的异质性。同样,找到使异质性减小程度最大的组合作为最佳划分点。                               

( 可以搜索的到,但是最好的答案不是很好搜到)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-11-7 14:19:45
感谢解答!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-11-7 16:08:43
好!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-4-11 11:27:35
此外,我感觉两者最明显的是 CRT在预剪枝、后剪枝头、模型优化调整参数,手动设置分组变量、交互功能等方面明显强于C5.0。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群