全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7381 11
2018-12-02
R中的代码如下:问题在于生成的树TreeFit还没有用于预测,在printcp(TreeFit)的输出中却显示根结点的错误率为0.45,这个0.45是怎么来的? 假设是它自已内部于对生成树的观测预测的结果,那实现上我用它对观测进行预测,通过混淆矩阵的计算
误判率却是0.283,这又做何解释?请专业人员进行指点指点,万谢!
MailShot<-read.table(file="邮件营销数据.txt",header=TRUE) # 300 obs. of  10 variables
MailShot<-MailShot[,-1] # 去掉首列
Ctl<-rpart.control(minsplit=20,maxcompete=4,maxdepth=30,cp=0.01,xval=10)#预、后剪枝参数采用默认设置
set.seed(12345)
TreeFit<-rpart(MAILSHOT~.,data=MailShot,method="class",parms=list(split="gini"),control = Ctl)#生成树
printcp(TreeFit) #输出结果如黄色部分:
Classification tree:
rpart(formula = MAILSHOT ~ ., data = MailShot, method = "class",
    parms = list(split = "gini"), control = Ctl)
Variables actually used in tree construction:
[1] AGE    CAR    GENDER INCOME REGION
Root node error: 135/300 = 0.45     
n= 300
        CP nsplit rel error  xerror     xstd
1 0.214815      0   1.00000 1.00000 0.063828
2 0.025926      1   0.78519 0.88148 0.062765
3 0.018519      3   0.73333 0.97037 0.063633
4 0.014815      5   0.69630 0.98519 0.063737
5 0.012346      7   0.66667 1.02222 0.063944
6 0.010000     10   0.62963 1.01481 0.063909

CFit1<-predict(TreeFit,MailShot,type="class")  #用生成的树对参与建树的观测进行预测
ConfM1<-table(MailShot$MAILSHOT,CFit1) # 计算单个分类树的混淆矩阵
(E1<-(sum(ConfM1)-sum(diag(ConfM1)))/sum(ConfM1)) # 计算单个树的错判率
#误判率为0.2833333 用全部观测构造的树对全体观测的分类错判率


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-12-2 16:15:38
如此基本的概念,不想自已搞清,就别做了。。太累,瞧着都累!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-2 16:43:19
jgchen1966 发表于 2018-12-2 16:15
如此基本的概念,不想自已搞清,就别做了。。太累,瞧着都累!!!
前辈,来这里就是想搞清楚,这个是我自已在学习过程中的疑惑,文献并末有对此作说明,所以才来求教!
这不就是来学习的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-2 17:10:27
万木青 发表于 2018-12-2 16:43
前辈,来这里就是想搞清楚,这个是我自已在学习过程中的疑惑,文献并末有对此作说明,所以才来求教!
这 ...
当然,学习没错,但论坛也不是入门学习的好地方。。
你提到的两个基本概念,如此地基本,任何一本讲“模式识别与分类(Pattern_classification)”的教材,都会讲解。否则,此类教材也没法正确讲解“模式识别与分类”。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-2 19:43:47
jgchen1966 发表于 2018-12-2 17:10
当然,学习没错,但论坛也不是入门学习的好地方。。
你提到的两个基本概念,如此地基本,任何一本讲“模 ...
我并没将论坛作为入门学习的地方,相关算法学习都是从专业书籍中进行学习。
关于决策树已学过ID3、CART等理论知识,知道变量的选择及划分原理,同类算法的区别及应用也大致清楚,只是在R这门语言中的一些输出结果书中并末提及,为更好的理解这类算法不才来求解,
目前没看到有一本关于R语言的书对此问题做明确说明。这里是否可以理解为首个分组变量的
最佳分割值进行分组之后,1类和0类错判的总错判观测是135条?
请前辈明示!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-2 19:43:47
jgchen1966 发表于 2018-12-2 17:10
当然,学习没错,但论坛也不是入门学习的好地方。。
你提到的两个基本概念,如此地基本,任何一本讲“模 ...
我并没将论坛作为入门学习的地方,相关算法学习都是从专业书籍中进行学习。
关于决策树已学过ID3、CART等理论知识,知道变量的选择及划分原理,同类算法的区别及应用也大致清楚,只是在R这门语言中的一些输出结果书中并末提及,为更好的理解这类算法不才来求解,
目前没看到有一本关于R语言的书对此问题做明确说明。这里是否可以理解为首个分组变量的
最佳分割值进行分组之后,1类和0类错判的总错判观测是135条?
请前辈明示!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群