【李善宰和你讨论进化神经科学】第九记：

1146

收藏 2017-07-24

我们将Deep Q-Learning成功的基本思想与连续的行动领域相适应。我们提出一个演员评论家，基于可以在连续动作空间上运行的确定性策略梯度的无模型算法。使用相同的学习算法，网络架构和超参数，我们的算法强大地解决了20多个模拟物理任务，包括经典问题，如电动车摆动，灵巧操纵，腿式运动和汽车驾驶。我们的算法能够找到其性能与通过规划算法发现的策略具有竞争力的策略，从而完全访问域及其衍生物的动态。我们进一步证明，对于许多任务，算法可以直接从原始像素输入端到端学习策略。