全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
121 0
2025-09-01
Neural Temporal-Difference Learning
       Converges to Global Optima
        Qi Cai    Zhuoran Yang      Jason D. Lee     Zhaoran Wang

                        Abstract
      Temporal-difference learning (TD), coupled with neural networks, is among the
      most fundamental building blocks of deep reinforcement learning. However, due
      to the nonlinearity in value function approximation, such a coupling leads to non-
      convexity and even divergence in optimization. As a result, th ...
附件列表
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群