阅读《数据挖掘算法与clementine实践》的决策树部分有些地方不太清楚:
1)决策树的交叉验证。是将训练数据平均分成k份,然后建立k个决策树,对任意一个决策树,验证另外k-1份数据,得到k-1个误差,然后求和,比较k颗树的误差,取最小的那个树么?
2)标准验证技术 和 交叉验证的区别是什么?标准验证是交叉验证的过程中的一部分,还是独立于交叉验证的修剪方法呢?
3)代价复杂度=分类损失+elf*叶节点数量;不明白,等式右边的两项类别不同,相加的意义何在?是经验公式么?elf的一般取值是多少呢?
坐等高手解答……