全部版块 我的主页
论坛 数据科学与人工智能 人工智能 深度学习
1146 1
2017-07-24
我们将Deep Q-Learning成功的基本思想与连续的行动领域相适应。 我们提出一个演员评论家,基于可以在连续动作空间上运行的确定性策略梯度的无模型算法。 使用相同的学习算法,网络架构和超参数,我们的算法强大地解决了20多个模拟物理任务,包括经典问题,如电动车摆动,灵巧操纵,腿式运动和汽车驾驶。 我们的算法能够找到其性能与通过规划算法发现的策略具有竞争力的策略,从而完全访问域及其衍生物的动态。 我们进一步证明,对于许多任务,算法可以直接从原始像素输入端到端学习策略。






1509.02971.pdf
大小:(648.14 KB)

只需: 20 个论坛币  马上下载




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-7-24 20:19:38
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群