为什么Double DQN能解决Nature DQN的过度估计问题

991

收藏 2020-01-16

看到的文章都说Double DQN将动作选择和价值估计分别放在当前网络和目标网络上计算，就能解决Nature DQN的过度估计问题，但是一直没想明白为什么，请问有没有哪位大神能解答一下，感谢~~~

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享