平均报酬模型的多步强化学习算法

695

收藏 2018-01-22

摘要：讨论模型未知的平均报酬强化学习算法。通过结合即时差分学习与Ｒ学习算法，将折扣问题中的一些方法推广到了平均准则问题中，提出了两类算法：Ｒ（λ）学习。现有的Ｒ学习可视为Ｒ（λ）学习和ＴＴＤ（λ）学习当λ＝０时的一个特例。仿真结果表明，λ取中间值的Ｒ（λ）和ＴＴＤ（λ）学习比现有的方法在可靠性与收敛速度上均有提高。

原文链接:http://www.cqvip.com//QK/90555X/200005/4658465.html

送人玫瑰，手留余香~如您已下载到该资源，可在回帖当中上传与大家共享，欢迎来CDA社区交流学习。（仅供学术交流用。）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群