之前ltx5151大神帮我解答了关于boosting的疑惑,现在在看gradient boosting的时候,又有一些问题不太明白。
对于gradient boosting的了解,先看了斯坦福的网上教程
http://v.163.com/movie/2008/1/B/O/M6SGF6VB4_M6SGHJ9BO.html,gradient descent,了解了一下梯度下降的原理,就是对代价函数(损失函数)求导,找到损失函数梯度下降最大的方向,乘以步长,一步一步的达到收敛,即达到代价函数的局部最优解,由于代价函数设置为平方差的形式,最优解只有一个。
然后在过来看楼主推荐的大牛friedman的文章,
http://www-stat.stanford.edu/~jhf/ftp/stobst.pdf。看到第五个公式的时候,又迷惑了,然后找到这个公式的出处,同样是大牛friedman的,《Greedy Function Approximation:A Gradient Boosting Machine》,里面讲对这个公式进行参数优化:

是为了找到梯度下降最大的方向,我的疑问是里面的