摘要:针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈
神经网络进行值函数逼近的梯度下降增强学习算法.该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近.对算法的收敛性和近似最优策略的性能进行了理论分析.通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能.http://www.cqvip.com//QK/90818X/200302/7412041.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)