我们知道在决策树中节点的分裂是选择当前信息增益(Info Gain)或者Gain Ratio最大的属性来进行的,在分裂以后将分裂节点属性对应的值下的样本分别放到对应的叶子节点(或者称为下一级节点).在进行到这一步时,我们考虑这样一种情况:
假设当前选择的分裂属性为attr,当前在这个节点的样本量为10, 属性attr有 attr1,attr2,attr3这三个属性值,与它们对应的样本量为6,4,0; 这个时候生成的下级节点的样本量分别为6,4,0.它们将继续尝试分割,对于拥有样本量6,4的这两个节点它们的处理很简单,在进行一次分割操作就可以了.然而对于只有0个样本的节点如何处理?这是一个问题.一个简单的想法是在这个时候停止分裂操作.让它成为一个叶子节点.
我们看看weka中是如何处理的: