决策树,随机森林,梯度提升机:简单解释
决策树,随机森林和增强技术 是数据科学家使用的16大数据科学和
机器学习工具。三种方法相似,但有大量重叠。简而言之:
一个决策树是一个简单的,决策-图。
随机森林是大量树木,在流程结束时组合在一起(使用平均值或“多数规则”)。
梯度提升机也可以组合决策树,但是要在开始而不是结束时开始合并过程。
决策树及其问题
决策树是一系列顺序步骤,旨在回答问题并提供做出特定决策的概率,成本或其他结果。
它们易于理解,提供清晰的视觉效果以指导决策过程。但是,这种简单性带来了一些严重的缺点,包括过度拟合, 由于偏差 引起的误差和由于方差引起的误差。
过度拟合的发生有很多原因,包括存在噪音 和缺乏代表性实例。一棵大(深)树可能过度拟合。
当对目标函数设置太多限制时,就会发生偏差错误。例如,使用限制函数(例如,线性方程式)或简单的二进制算法(如上述树中的是/否选择)来限制结果通常会导致偏差。
方差误差是指根据训练集的变化结果将变化多少。决策树具有很高的方差,这意味着训练数据中的微小变化有可能导致最终结果发生较大变化。
随机森林与决策树
如上所述,决策树充满了问题。由99个数据点生成的树可能与仅由一个不同数据点生成的树有很大不同。如果有一种方法可以生成大量的树,将它们的解决方案平均化,那么您可能会得到一个与真实答案非常接近的答案。输入 随机森林 -带有单个汇总结果的决策树集合。通常,随机森林是最准确的学习算法。
随机森林通过以下方式减少了决策树中的方差:
使用不同的样本进行训练,
指定随机特征子集,
构建并合并小(浅)树。
单个决策树的预测能力很弱,但是建立起来相对较快。更多的树可以为您提供更健壮的 模型,并防止过拟合。但是,您拥有的树越多,过程就越慢。森林中的每棵树都必须生成,处理和分析。此外,您拥有的功能越多,过程就越慢(有时可能需要数小时 甚至数天);减少功能集可以大大加快该过程。
决策树和随机森林之间的另一个明显区别是,尽管决策树易于阅读(您只需遵循路径并找到结果),但随机森林的解释却有点复杂。那里有大量的文章旨在帮助您从随机森林中读取结果(像这样),但是与决策树相比,学习曲线陡峭。
随机森林vs梯度提升
像随机森林一样,梯度增强是一组决策树。两个主要区别是:
树木的构建方式:随机森林独立地构建每棵树,而梯度增强则一次构建一棵树。这种加性模型(合奏)以阶段性的方式工作,引入了弱学习者以改善现有弱学习者的缺点。
合并结果:随机森林在流程结束时合并结果(通过平均或“多数规则”),而梯度增强则沿途合并结果。
如果您仔细调整参数,则梯度增强可以比随机森林获得更好的性能。但是,如果您有很多噪声,则梯度增强可能不是一个好的选择,因为它可能导致过度拟合。它们也往往比随机森林更难调整。
随机森林和梯度助推器在不同区域均表现出色。随机森林在进行多类对象检测 和生物信息学方面表现良好 , 这往往会产生大量统计噪声。当您拥有不平衡的数据(例如实时风险评估)时,梯度提升效果很好。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!