2020/01/28
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.27: p256~p267》第11章 强化学习
Q95 强化学习中有哪些基本概念?
1 强化学习的基本概念
1.1 强化学习是一个20世纪80年代兴起的,受行为心理学启发而来的。
1.2 它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。
1.3 决策器只能得到一个间接的反馈,无法得到正确的输入/输出,因此需要不断的尝试优化自己的策略来获得更高的收益。
2 强化学习的基本场景: 由以下5个状态构成
2.1 环境(environment)
2.2 机器人(agent)
2.3 状态(state)
2.4 动作(action)
2.5 奖励(reward)
3 一个机器人在环境中会做各种动作,环境会接收动作,并引起自身状态的变迁,同时给机器人以奖励。机器人最大的目标是使用一些策略,做合适动作、最大化自身的收益。
4 强化学习的核心任务: 学习一个从状态空间S到动作空间A的映射,最大化累积收益。
5 常用的强化学习算法: 有Q-Learning、策略梯度,以及演员评判家算法(Actor-Critic)
Q96、Q97 强化学习用哪些方法,可找到最优路线?
透过<价值迭代>及<策略迭代>的方式。
1. 价值迭代: 当前的状态价值=从当前状态开始,能够获得的最大奖励。迭代过程透过贝尔曼方程式来进行更新。
2. 策略迭代: 就是根据当前状态决定该采取何种动作。并用策略评估(policy evaluation)来计算每个策略的期望价值。
Q98 什么是深度强化学习,它和传统的强化学习有何不同?
1 何谓深度强化学习: 也适用Q-Learning为基本框架,把对应步骤改为深度形式并引入了一些技巧,如经验重收(experience replay)来加快收敛及提高泛化能力。
2 与传统强化学习有何不同?
2.1 行动的决定
2.1.1 传统:根据当前的函数选择一个行动
2.1.2 深度: 透过随机方式选择行动。
2.2 当前状态的获得
2.2.1 传统: 直接从环境观测
2.2.2 深度: 需要对观测的结果进行某些处理来获得函数的输入状态。
2.3 获得四元组的方式
2.3.1 传统: 依照当前时刻来决定。
2.3.2 深度: 从历史记录随机采样
2.4 计算y
2.4.1 传统: 状态序列是无限的。
2.4.2 深度: 还额外考虑有限长的状态序列。