全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
982 8
2019-03-27

机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3


2.4 噪声(noise)
噪声是数据中有害的异常。
噪声的存在,类的学习可能更加困难,且使用简单的假设可能做不到零误差。
噪声有以下几种解释:
  • 记录输入属性可能不准确,这可能导致数据点在输入空间的移动。
  • 标记数据点可能有错,可能将正例标记为负例,或相反。(称指导噪声:teacher noise)
  • 可能存在我们没有考虑到的附加属性,会影响实例的标注。(附加属性可能是隐藏的(hidden)或潜在的(latent) ,因此是不可观测的。)这些被忽略的属性所造成的影响作为随机成分,是“噪声”的一部分。

当有噪声时,在正负实例之间不存在简单的边界,且为了将它们分开,需要对应于具有更大能力的假设类的复杂假设。
矩形可以用四个数定义,然,为了定义更复杂的形状,就需要具有大量参数的更复杂的模型。

利用复杂模型,可以更好地拟合数据,得到零误差。
另一个可行的方法是保持模型的简单性并允许一些误差的存在。

使用简单的矩形(除非其训练误差很大)更有意义,原因是:
1)矩形是一种容易使用的简单模型。(容易检查一个点是在矩形内还是在矩形外,对未来的数据实例,可以容易地检查它是正例还是负例)
2)矩形是一种容易训练的简单的模型,具有较少参数。简单模型具有更小的方差(variance),具有较大的偏倚(bias)。求解最优模型相当于最小化偏倚和方差。
3)矩形是容易解释的简单模型。
4)如果输入数据中确实存在错误标记的实例或噪声,且实际的类确实就是像矩形这样的简单模型,那么由于矩形具有较小的方差,且较少地被单个实例所影响,所以尽管可能导致训练集上较大误差,也是比曲线图像更好的分类器。
其泛化能力更好。
(Occam's razor)奥克姆剃刀规则:说较简单的解释看上去更可信,且任何不必要的复杂性都应该被摒弃。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-3-27 00:04:54

已赞!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-27 06:55:08
albertwishedu 发表于 2019-3-27 00:03
《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Pre ...
努力跟上
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-27 07:07:03
给你点赞!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-27 08:26:19
为您点赞!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-3-27 08:54:57
给你点赞!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群