《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3
我们可以定义值之间的距离(distance)为差的平方。相对于分类使用的等于或不等于来说,距离给我们提供了更多的信息。
差的平方是一种可以使用的误差函数,另一种误差函数是差的绝对值。(后续章节会有一些例子)
我们的目标是找到最小化经验误差的g(•)。我们的方法又是相同的,我们对g(•)假定一个具有少量参数的假设类。如果假定g(x)是线性的,则我们有:
g(x) = ω1x1 + ▪▪▪ + ω d x d + ω0 (这里d是下标) = ∑ωjxj + ω0 (j是下标,求和j从1到d)
前面1.2.3节的例子,估计一辆二手车的价格,使用单个输入的线性模型
g(x) = ω1x + ω0
其中 ω1和ω0是需要从数据中学习的参数。它们的值应该使下列公式最小化
E(ω1,ω0| 花X) = 1/N ∑[r t - (ω₁x t + ω。)]2
其最小点,可以通过求E关于ω₁和ω。的偏导数,另偏导数为0,求解这两个未知数来计算。
如果线性模型过于简单,它就会太受限制,导致大的近似误差,且在这种情况下,输出可以取输入的较高阶的函数,如二次函数
类似地,我们有参数的解析解。
当多项式的阶增加时,训练数据上的误差将会降低。但高阶多项式关注个体样本,而不是捕获数据一般趋势。(例子中有图2-10中的六次多项式)
因此,当精确调整的模型复杂性达到潜在数据的函数的复杂度时,我们应该谨慎行事。
拟合相同的数据点集的线性、二次和六次多项式。最高阶的多项式(六次多项式)给出了正确的拟合,但是给定更多数据,真实的曲线很可能不是这种形状。
二次多项式看起来比线性拟合好,
它捕获了训练数据的走势。