强化学习开始兑现其承诺
我们一直在问,今年是否是强化学习(RL)最终兑现其许多承诺的一年。就像飞行汽车和喷气背包一样,答案似乎至少要相隔几年。
如果您在数据科学方面的历史可以追溯到最近,那么您可能还记得有一段时间只有两种基本类型的模型,有监督模型和无监督模型。然后,在一夜之间,在这条新凳子上增加了强化学习作为第三条腿。
对于仅在技术上可行的技术,前途一片光明。它基于不断发展的政策(RL代表模型)在反复试验中寻求最佳奖励的基础看起来很像人类的学习。一些想法并且仍然认为,RL的发展是通往AGI(
人工智能)的最可能途径。
快进十年半,RL仍然是一个充满希望的孩子。在游戏(AlphaGo),自动驾驶汽车和自动驾驶飞行器中,它的知名度受到了一定的限制。这些肯定引起了我们的注意。
但是事实仍然是,RL需要大量的数据和同等大的计算量,从而将RL的效用限制在物理上和财务上都可行的项目中。但是最近,RL在至少两个领域取得了重大飞跃,使喷气式飞机时代更加接近了。
计算效率
要求大量计算才能使RL工作的不幸现实之一是成本。是的,云计算成本一直在下降。是的,像Cerebras Wafer Scale Engine这样的新型巨型AI芯片可以用单个AI优化芯片来代替计算机机架。这些解决方案都不便宜,其结果是仅出于成本原因就取消了RL到大学和资金较少的实验室的许多研究途径。
在ICML会议上刚刚发表的一篇论文中,南加州大学和英特尔实验室的一个联合团队演示了如何使用一台具有36核CPU和一个GPU的机器以每秒140
基于模型的强化学习
另一个主要的发展是基于模型的RL。就像使用更快,更便宜的计算一样,目标是提高数据效率,并从根本上加快培训时间。这不是全新的,但在过去两年中一直很强劲。
可以将所有RL问题想成是通过一系列连续步骤(几乎始终是时间步骤)解决的。这也称为马尔可夫决策过程。无论是跳棋,围棋,机器人操作还是安全驾驶自动驾驶汽车所需的许多决策,它们都遵循这个按时间顺序进行的过程。
以Q学习和策略优化技术为例的原始Free Model RL保留了其原始的反复试验结构。在每个时间步长RL都评估“状态”和“动作”,以前进到下一个状态和动作对。例如,在Q学习中,Q值基于其对每个顺序状态/动作对的初始随机探索来预测折价奖励的总和(总回报)。
令人困惑的是,可以使用深层
神经网络从先前的迭代中学习和概括Q值,从而指导沿着SGD路径的未来尝试,从而获得最佳回报。但是,已使用DNN的事实并未使该模型成为基于模型的。部分地为了澄清这种语言的歧义,在RL语言中,我们将所谓的“模型”(DNN)称为“函数逼近器”。
相比之下,基于模型的RL从逻辑问题开始,如果我们知道可能的状态/动作响应受到某种通用模型的约束,那么尝试预测下一个下一步会不会更快,更“数据有效”状态/奖励,从而消除了许多非生产性随机探索。嗯,是。正是这正是基于模型的与无模型的区别所在,即在每个步骤中,都要咨询单独的学习或编码模型,以指导数量有限的可能富有成效的举动。
可以使用许多不同的体系结构,所有体系结构都在每个步骤中参考单独的模型。
一些例子的时间
跳棋的游戏可以简化为几十条硬编码的规则行,从而限制了可以进行的移动。在更复杂的水平上,即使“规则”由单独的监督模型得出并表示为的分布,基本上所有具有确定性结果(有人获胜)的游戏都可以简化为限制RL可用选择的规则。概率,而不是一个最佳选择。
另一个简单的示例是使用基于模型的RL来预测受物理规则控制的运动。预测衰减摆摆动问题中的下一个状态,或者是更复杂但仍受物理学约束的空间中两个或三个物体的轨道(著名的三体问题)。简单地用代码编写的模型或使用诸如DNN的监督模型发现的模型可以告知基于模型的RL下一个最可能的高回报举动。
在机器人技术中,尤其是在机器人的运动受到限制的情况下,例如使用机械手从垃圾箱中选择物品并执行操作,可以使用外部给定或学习的模型来大幅简化训练。
基于模型的RL不发光的地方是在几乎没有约束的高维度环境中,或者在通用模型中太难发现了。无人驾驶汽车和自动驾驶飞机就是很好的例子。
有时可以确定局部规则而不是全局规则,这些规则可以用来加快学习速度。本地规则的缺点在于确定如何在状态空间中限制它们,以及确定在有效本地域之外应用它们会导致明显错误选择的风险。
要预测的顺序事件也可能是随机的(嘈杂和随机的),不稳定的(随时间变化为不同的规则),或者由于无法看到全部或什至是足够数量的不确定性而受到不确定性的约束。总状态空间,以确保生成的RL模型代表基本事实。所有这些都是基于模型的RL的限制,并且在无模型的情况下也是常见的限制。
未来的承诺
更多的数据有效模型和更便宜的计算将迅速提高RL创新的步伐。基于模型的RL仍在工作中的另一个附加功能是转移学习的潜力。就像迁移学习在一夜之间加速自然语言处理的采用一样,RL也可能很快成为现实。存在研究和一些示例,其中只要动力学足够相似,具有完整学习的RL模型的控制模型的某些元素就可以转移到相似的先前未见状态空间。
这将使我们走上快速重用全部或部分RL的道路,并使在现实世界中被采用的潜力更加接近。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!