全部版块 我的主页
论坛 数据科学与人工智能 人工智能 人工智能论文版
732 0
2017-09-26
摘要:机器学习中值函数需要反复更新直至其收敛是造成强化学习速度慢的根本原因.提出一种可实现批量更新值函数的学习方法,从加快值函数收敛的角度来加速强化学习.通过在训练情节中记录下从初始状态到达当前状态的状态转换序列,从中求出其它状态到达当前状态的最短状态路径,使当前状态更新的值函数可沿该最短状态路径逆序向前传播,从而实现值函数的批量更新.从在栅格环境中求最短路径的仿真试验结果看,该方法可显著提高值函数的更新频率,缩短学习时间.

原文链接:http://www.cqvip.com/QK/92787X/2011S2/1003577260.html

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群