一、随机森林基本信息
1、定义 随机森林(Random Forest)与传统的决策树相比,有更强的泛化能力和更好的分类效果,它的产生,是随机理论在实际应用中取得的的又一成果。
2、随机森林的优缺点 优点。(1)不必担心过度拟合;
(2)适用于数据集中存在大量未知特征;
(3)能够估计哪个特征在分类中更重要;
(4)具有很好的抗噪声能力;
(5)算法容易理解;
(6)可以并行处理。
缺点。(1)对小量数据集和低维数据集的分类不一定可以得到很好的效果。
(2)执行速度虽然比Boosting等快,但是比单个的决策树慢很多。
(3)可能会出现一些差异度非常小的树,淹没了一些正确的决策。
二、随机森林生成步骤
1、从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树,每次未被抽到的样本组成了K个袋外数据(out-of-bag,BBB)。
2、设有n 个特征,则在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。
3、每棵树最大限度地生长, 不做任何剪裁
4、将生成的多棵树组成随机森林, 用随机森林对新的数据进行分类, 分类结果按树分类器投票多少而定。
三、变量重要性度量
随机森林程序通常提供4种变量重要性度量,其中importance()函数就属于其中。其中平均精度下降(MeanDecreaseAccuracy”)重要性评分;Gini指数。
1、变量重要性测度
定义为袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。
(1):对于每棵决策树,利用袋外数据进行预测,将袋外数据的预测误差将记录下来。其每棵树的误差是:vote1,vote2····,voteb;
(2):随机变换每个预测变量,从而形成新的袋外数据,再利用袋外数据进行验证,其每个变量的误差是:vote11,vote12,···,vote1b。
(3):对于某预测变量来说,计算其重要性是变换后的预测误差与原来相比的差的均值。
r语言中代码:
2、Gini指数法 gini指数表示节点的纯度,gini指数越大纯度越低。gini值平均降低量表示所有树的变量分割节点平均减小的不纯度。对于变量重要度衡量,步骤如同前面介绍,将变量数据打乱,gini指数变化的均值作为变量的重要程度度量。
gini(T)=1−∑j=1np2j
3、重要性绘图(varImpPlot(rf)函数) 利用芍药花数据,可以看到这四个变量的重要性排序是一样的。