我们提出了一个新的强化学习策略梯度方法,通过与环境的交互取样数据,并利用随机梯度上升优化“替代”目标函数。 而标准策略梯度方法对每个数据样本执行一个梯度更新,我们提出了一个新的目标函数,可以实现多个时代的小批量更新。 我们称之为近端策略优化(PPO)的新方法具有信任区域策略优化(TRPO)的一些优势,但它们实现起来更为简单,更为通用,并具有更好的样本复杂性(经验性)。 我们的实验测试了PPO对基准任务的收集,包括模拟机器人运动和Atari游戏,我们表明PPO优于其他在线策略梯度方法,总体上在样本复杂性,简单性和壁挂时间之间取得了有利的平衡。