全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
4659 7
2013-01-24
阅读《数据挖掘算法与clementine实践》的决策树部分有些地方不太清楚:
1)决策树的交叉验证。是将训练数据平均分成k份,然后建立k个决策树,对任意一个决策树,验证另外k-1份数据,得到k-1个误差,然后求和,比较k颗树的误差,取最小的那个树么?
2)标准验证技术 和 交叉验证的区别是什么?标准验证是交叉验证的过程中的一部分,还是独立于交叉验证的修剪方法呢?
3)代价复杂度=分类损失+elf*叶节点数量;不明白,等式右边的两项类别不同,相加的意义何在?是经验公式么?elf的一般取值是多少呢?
坐等高手解答……
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-1-24 17:04:50
1)从k个数据中抛出一个数据
用剩下的k-1个数据训练模型,用得到的模型拟合扔出去的那一个数据,得到其预测误差
重复k次,直到所有的k个数据都这样被扔出去一次,将每次所得的预测误差加总即为CV值
3)加上lamda*叶节点数是为了防止过度拟合所加的penalty,因为一般节点越多,训练误差越小甚至可能为0
2)尝试不同的lamda之进行建模,使(1)中cv值最小的就是我们lamda的取值
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-24 17:20:33
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-25 15:56:12
进来看看答案。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-21 12:40:28
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-21 14:08:34
礼貌回帖!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群