全部版块 我的主页
论坛 数据科学与人工智能 人工智能 人工智能论文版
417 0
2018-02-08
摘要:针对具有连续状态和离散行为空间的Markov决策问题,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法.该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标,以实现对Markov决策过程最优值函数的逼近.对算法的收敛性和近似最优策略的性能进行了理论分析.通过Mountain-Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能.http://www.cqvip.com//QK/90818X/200302/7412041.html

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群