摘要:对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述.首先介绍了用于描述隐状态问题的部分可观测Markov决策理论(POMDPs),在简单回顾其它POMDP求解技术后,重点讨论环境模型事先未知的激励学习技术,包括两类:一类为基于状态的值函数学习;一类为策略空间的直接搜索.最后分析了这些方法尚存在的问题,并指出了未来可能的研究方向.
原文链接:http://www.cqvip.com//QK/96527B/200202/6253778.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)