大家好,有一个关于C5.0决策树结果剪枝的问题想请教各位。
情况是这样的,我采用clementine C5.0算法对一批数据进行分析。输出变量Y为二分类,输入变量有6个(X1-X6),均为continuous var,取值均为0-100。总的样本量为500。采用clementine默认的选项建立决策树,原意是打算每层为一个单独的变量,比如第一层为X1(最佳分界点为80),第二层为X2(最佳分界点为85),但实际计算出来的结果非常复杂,简要描述如下:
第1层选择X1,最佳分界点为68。
第2层又选择X1,最佳分界点为86。
第3层再次选择了X1,最佳分界点为85。
第4层选择X2,最佳分界点为89。
第5层选择X4,最佳分界点为83。
第4层再次选择了X2,最佳分界点为87。
.......
整个模型显得十分复杂,无法得出合乎专业意义的取值。
于是我选择expert选项,自行调整剪枝,将置信度有75改为50,但效果仍旧不好。
请教,这种模型选择C5.0计算是否合理,如果不合理,可以采用其他的什么算法?
如果采用C5.0,应该在哪些方面去修改模型,让模型得出更合理的结果?
我根据expert选项修改剪枝,这样是否合理?
谢谢大家