通过马尔可夫决策过程掌握强化学习
强化学习(RL)是一种学习方法,通过该方法学习者可以使用自己的行为和对其行为的奖励来学习在交互式环境中的行为。学习者(通常被称为代理人)通过开发和探索发现哪些动作可以带来最大的回报。
强化算法
一个关键问题是– RL与有监督和无监督学习有何不同?
区别在于交互角度。监督学习使用标记示例的训练数据集直接告诉用户/代理人他必须执行什么操作以最大化奖励。另一方面,RL直接使代理能够利用其选择行动的奖励(正负)。因此,它也与无监督学习不同,因为无监督学习就是寻找隐藏在未标记数据集合中的结构 。
通过马尔可夫决策过程(MDP)进行强化学习公式
强化学习问题的基本要素是:
环境:代理与之交互的外部世界
状态:代理商的现状
奖励:来自环境的数字反馈信号
策略:将座席状态映射到操作的方法。策略用于选择给定状态下的操作
价值:代理商在给定状态下采取的行动将获得的未来奖励(延迟奖励)
马尔可夫决策过程(MDP)是一个数学框架,用于描述强化学习中的环境。下图显示了MDP中的代理与环境的交互:
强化学习马尔科夫
更具体地说,代理和环境在每个离散时间步长t = 0、1、2、3……相互作用。在每个时间步长,代理都获得有关环境状态S t的信息。代理基于时刻t的环境状态,选择一个动作A t。在接下来的时刻,代理还接收数字奖励信号R t + 1。因此,这产生了一个序列,如S 0,A 0,R 1,S 1,A 1,R 2 …
随机变量R t和S t具有定义明确的离散概率分布。由于马尔可夫性质,这些概率分布仅取决于先前的状态和动作。令S,A和R为状态,动作和奖励的集合。然后,S t,R t和A t的值取值为s',r和a且状态为s的概率为:
强化学习马尔科夫-公式
函数p控制过程的动力学。
让我们通过一个例子来理解这一点
现在让我们讨论一个简单的示例,其中RL可用于实施加热过程的控制策略。
想法是将房间的温度控制在指定的温度范围内。室内的温度受外界因素影响,例如外部温度,内部产生的热量等。
在这种情况下,介质是加热线圈,它必须通过与环境互动来确定控制室内温度所需的热量,并确保室内温度在指定范围内。在这种情况下,奖励基本上是偏离最佳温度限制所支付的费用。
代理的作用是动态负载。然后将这个动态负载输入到房间模拟器,该模拟器基本上是一个传热模型,可以根据动态负载计算温度。因此,在这种情况下,环境就是仿真模型。状态变量S t包含现在和将来的奖励。
以下框图说明了如何使用MDP控制室内的温度:
例
该方法的局限性
强化学习向国家学习。国家是决策的输入。因此,应正确给出状态输入。同样,正如我们所看到的,存在多个变量,并且维数巨大。因此,将其用于实际的物理系统将很困难!
题库