决策树研发二部
算法介绍
决策树算法是
机器学习中的经典算法之一,既可以作为
分类算法
,也可以作为
回归算法
。决策树算法又被发展出很多不同的版本,按照时间上分,目前主要包括,
ID3、C4.5
和CART
版本算法。其中
ID3版本的决策树算法是最早出现的,可以用来做分类算法。
C4.5
是针对ID3的不足出现的优化版本,也用来做分类。
CART
也是针对
ID3优化出现的,既可以做分类,可以做回归。
决策树算法的本质其实很类似我们的
if-elseif
-else
语句,通过条件
作为分支依据,最终的数学模型就是一颗树。不过在决策树算法中我们需要重点考虑选取分支条件的
理由,以及谁先
判断谁后判断,包括最后对过拟合的处理,也就是剪枝。这是我们之前写
if语句时不会考虑的问题。
决策树算法主要分为以下
3个步骤:
分支节点选取
构建树剪枝分支节点选取分支节点选取,也就是寻找分支节点的最优解
。既然要寻找最优,那么必须要有一个衡量标准,也就是需要量化这个优劣性。
常用的衡量指标有熵和
基尼系数。熵:熵用来表示信息的混乱程度,值越大表示越混乱,包含的信息量也就越多。
比如,A班有10个男 ...