摘要:BP神经网络在非线性控制系统中被广泛运用,但作为有导师监督的学习算法,要求批量提供输入输出对对神经网络训练,而在一些并不知道最优策略的系统中,这样的输入输出对事先并无法得到;另一方面,强化学习从实际系统学习经验来调整策略,并且是一个逐渐逼近最优策略的过程,学习过程中并不需要导师的监督.提出了将强化学习与BP神经网络结合的学习算法--RBP模型.该模型的基本思想是通过强化学习控制策略,经过一定周期的学习后再用学到的知识训练
神经网络,以使网络逐步收敛到最优状态.最后通过实验验证了该方法的有效性及收敛性.
原文链接:http://www.cqvip.com//QK/94913X/200208/6563578.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)