全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
429 2
2020-01-30
2020/01/30
《百面机器学习-算法工程师带你去面试》读书笔记
《No.29: p276~p290》第12章 集成学习

Q101 集成学习分哪些种? 他们有何异同?

1        Boosting
1.1        Boosting方法训练分类器时采用串行方式,各个分类器之间有依赖。
1.2        基本思路: 将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时根据各层分类器的结果的加权得到最终结果。(迭代式学习)
1.3        LEARN FROM YOUR MISTAKE.
1.4        可减少分类器的偏差
2        Bagging
2.1        Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行训练。
2.2        类似集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部份重叠。通过投票方式作出最后的集体决策。
2.3        可减少分类器的方差


Q102 集成学习有哪些基本步骤?请举几个集成学习的例子

1        集成学习的步骤
1.1        找到误差互相独立的基分类器。
1.2        训练基分类器
1.3        合并基分类器的结果
1.3.1        合并的方法有voting和stacking两种
1.3.2        Voting: 用投票方式,票数多者胜出。
1.3.3        Stacking: 用串行的方式,把前一个基分类器的结果输出到下一个分类器,将所有基分类器的输出结果相加(或用逻辑斯回归荣和特征进行预测)
2        集成学习的例子
2.1        Adaboost
2.2        梯度提升决策树

Q103 常用的分类器为何?

1        最常用的基分类器是<决策树>
1.1        权重容易调整
1.2        决策树的表达能力和泛化能力,可通过调整层数来折中
1.3        随机性较佳
2        神经网络模型
2.1        神经网络模型比较不稳定
2.2        随机性较佳

Q104 可否将随机森林中的基分类器,由决策树替换为线性分类器或K-近邻? 请解释?

Bagging所采用的基分类器,最好是本身对样本分布较为敏感的(不稳定分类器)。线性分类器及K-近邻都是较稳定的分类器,本身方差就不大,所以不适合用于bagging的基分类器。


Q105 什么是偏差和方差?

1        偏差
1.1        定义: 由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。
1.2        偏差通常是由于对学习算法做了错误的假设所导致的。
2        方差
2.1        定义: 有所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。
2.2        方差通常是由于模型的复杂度相对于训练样本数m过高所致。

Q106 如何从减小方差和偏差的角度解释Boosting和Bagging的原理?

1        Boosting
1.1        Boosting的训练过程就是从前一个分类器的结我或者残差作为下一个分类器的输入,这个过程就是不断的减小损失函数,使模型偏差变小。
1.2        Boosting不会降低方差,因为各弱分类器之间是强相关的,缺乏独立性,所以并不会降低方差。
2        Bagging
2.1        Bagging是Bootstrap Aggregating的简称,就是再抽样,然后再每个样本上训练出的模型取平均。
2.2        对n个独立不相关的模型的预测结果取平均,方差是原来的单个模型的1/n。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-1-30 18:12:37
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-2-5 22:24:43
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群