计算视觉Neural Trust Region Proximal Policy Optimization Attains Globally Optim ...

2023D

收藏 2025-09-01

Neural Proximal/Trust Region Policy Optimization
   Attains Globally Optimal Policy

      Boyi Liu Qi Cai Zhuoran Yang§    Zhaoran Wang

                     Abstract
   Proximal policy optimization and trust region policy optimization (PPO and
   TRPO) with actor and critic parametrized by neural networks achieve significant
   empirical success in deep reinforcement learning. However, due to nonconvexity,
   the global convergence of PPO and TRPO remains less un ...

附件列表

计算视觉Neural Trust Region Proximal Policy Optimization Attains Globally Optima.pdf

大小:436.21 KB

只需: RMB 9 元马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群