昨日阅读2小时,累计170.5 h
我们的目标是使用模型g(x t | θ)来构建一个r t的好的、有用的近似。为了达到预期目标,必须做出三个决定:
1)学习所使用的模型(model),记作    g( x | θ)
g( • )是模型,x是输入, θ是参数。 g( • )定义假设类,而θ得特殊值示例了假设类中的一个假设。
2)损失函数(loss function)。逼近误差或损失是各单个实例之上的损失和。
3)最优化过程(optimization procedure)求解最小化近似误差的θ *
为了做好上述工作,必须满足一下条件:首先,假设类应当足够大(有足够的容量,以便包含在含噪声情况下产生r t表示的数据的未知函数)。其次,必须有足够的训练数据,使得我们从假设类中识别正确或足够好的假设。第三,给定训练数据,我们应当有好的优化方法,以便找出正确的假设。
不同的机器学习方法之间的区别或者在于它们假设的模型不同(假设类/归纳偏倚);或者在于它们所使用的损失度量不同;或者在于它们所使用的最优化过程不同。
2.9 注释
Mitchell提出了解空间和候选排除算法,使得当样本实例依次给出时,可以增量地构建S和G。
最早的机器学习研究工作之一是Winston(1975)提出的“几乎错过”(near miss)思想。
与此相关的思想是主动学习(active learning),其中学习算法能够自己生成实例,并要求被标记,而不像在其他学习算法中那样被动地被给定(Angluin 1988)
VC维在20世纪70年代初由Vapnik和Chervonenkis提出,新近的相关资源是Vapnik 1995
PAC模型由Valiant(1984)提出,对于学习矩形的PAC分析来自Blumer等(1989)