《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3
在学习家用汽车类时,存在着无限种将正例与负例分开的方法。假定矩形是一种归纳偏倚,而后假定最紧凑的矩形就是另外一种归纳偏倚。
在线性回归中,假定线性函数也是一种归纳偏倚,而在所有直线中选择最小化平方误差的直线则是另一种归纳偏倚。
我们知道,每个假设类都有一定的能力,且只能学习确定的函数。使用具有更大能力、包含更复杂的假设的假设类,可以扩充可学习的函数类。如假设类H“两个互不重叠的矩形的并”具有更大的能力,但是其假设也更加复杂。
类似地,在回归分析中,随着多项式的阶增高,其能力和复杂性也不断增加。现在的问题是要决定在哪里停止。
因此,没有归纳偏倚,则学习将是不可能的,而且现在的问题是如何选择正确的偏倚。
该问题称作模型选择(model selection),即在可能的模型H之间选择。
对这种问题解答,我们应当记住机器学习的目标很少是去复制训练数据,而是预测新情况。即:我们希望对于训练集之外的输入(其正确的输出并没有在训练集中给出)能够产生正确的输出。
训练集上训练的模型在多大程度上能够对新的实例预测出正确输出称为
泛化(generalization)
最好的泛化,应当使假设的复杂性与潜在数据的函数的复杂性相匹配。
当试图用直线拟合从三次多项式抽取的数据时,则是
欠拟合(underfitting)
随着复杂性的增高,训练误差和确认误差都会降低。如果太过复杂,数据不足以约束该假设,我们最后也许得到不好的假设h 属于 花H。例如:当用两个矩形拟合从一个矩形抽取的数据时,这种情况就会发生。