全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
83 0
2025-09-01
Neural Proximal/Trust Region Policy Optimization
       Attains Globally Optimal Policy

         Boyi Liu   Qi Cai   Zhuoran Yang§     Zhaoran Wang

                       Abstract
      Proximal policy optimization and trust region policy optimization (PPO and
      TRPO) with actor and critic parametrized by neural networks achieve significant
      empirical success in deep reinforcement learning. However, due to nonconvexity,
      the global convergence of PPO and TRPO remains less un ...
附件列表
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群