全部版块 我的主页
论坛 数据科学与人工智能 人工智能
2594 4
2017-07-24





奖励功能设计和探索时间可以说是在现实世界中部署强化学习(RL)代理商的最大障碍。在许多现实世界的任务中,设计奖励功能需要相当多的手工工程,并且通常需要安装附加的传感器来测量任务是否已成功执行。此外,许多有趣的任务包括必须按顺序执行的多个隐式中间步骤。即使可以测量最终结果,也不一定就这些中间步骤提供反馈。为了解决这些问题,我们提出利用深层模型学习的中间视觉表征的抽象能力,从少量示范中快速推断感知奖励功能。我们提出一种方法,能够从只有少数演示序列中识别任务的关键中间步骤,并自动识别用于识别这些步骤的最具歧视性的功能。这种方法利用预训练深层模型中的特征,但不需要明确规定子目标。所得到的奖励功能然后可以由RL代理使用来学习在现实世界中进行任务。为了评估学习奖励,我们提出了两个现实世界任务的定性结果,并针对人性化的奖励功能进行了定量评估。我们还表明,我们的方法可以用来学习使用真实机器人的现实世界的门开放技能,即使用于奖励学习的演示是由人们使用自己的手来提供的。据我们所知,这些是第一个结果,显示复杂的机器人操纵技能可以直接学习,没有监督的标签从执行任务的人的视频。



1612.06699.pdf
大小:(9.77 MB)

只需: 1 个论坛币  马上下载


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-7-24 20:16:14
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-16 08:08:26
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-9-13 12:50:08
好贴就点赞,一起拿积分
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-29 13:54:41
点个赞加点人气
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群