《机器学习导论》2nd Edition ---(土耳其)Ethem Alpaydin 著 范明 昝(zan)红英 牛常勇译 ----机械Press-2014.3
1.2.5 增强学习
某些应用中,系统的输出是动作(Action)的序列。
这种情况下,单个的动作不重要,重要的是策略(policy),即达到目标的正确动作的序列。(不存在中间状态中最好动作这种概念),只要是好的策略的组成部分,该动作就是好的。
ML程序应该能够评估策略的好坏程度,并从以往好的动作序列中学习,以便能够产生策略。
这种学习方法称为增强学习(reinforcement learning)算法
游戏(game playing)是一个很好的例子。
(单个移动本身并不重要,正确的移动序列才是重要的)
游戏是AI和ML的重要研究领域,因为游戏容易描述,但又很难玩好。
一旦有了能够学习如何玩好游戏的好算法,我们要也可以将这些算法用在具有更显著经济效益的领域
用于某种环境下搜寻目标位置的机器人导航是增强学习的另一个应用领域。
致使增强学习难度增加的一个因素是系统具有不可靠和不完整的感知信息。
一个任务还可能需要多智能主体(multiple agents)的并行操作,这些智能主体将相互作用并协同操作,以便完成一个共同的目标,机器人足球即是例子。
1.3 注释
进化是形成我们身体形状、我们内在本能的主要力量。
我们还需要终身学习,以改变我们的行为。这有助于我们适应进化论还不能预测的环境变化。
心理学视角下的学习和认知可参看Leahey和Harris 1997。
与心理学、认知科学以及神经系统科学都不同,ML的目标并不是理解人类和动物学习的过程,而是像任何的工程领域一样,
ML旨在构建一个有用的系统。
几乎所有的科学领域都在用模型拟合数据。
科学家设计实验、进行观测并收集数据。通过找寻能解释所观测数据的简单模型,尝试抽取知识。
这个过程称为
归纳(induction),它是从一组特别的示例中提取通用规则的过程。