多步截断SARSA强化学习算法

552

收藏 2018-01-23

摘要：提出了一种新的on-policy强化学习算法,其基本思想是按照一定学习策略,利用κ(κ＞1)步的信息来估计TD(λ)回报值,从而加快对行动最优值估计的更新.更新速度比SARSA(0)算法快,但不象SARSA(λ)需要大量的计算.

原文链接:http://www.cqvip.com//QK/97496X/200201/6165348.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群