全部版块 我的主页
论坛 金融投资论坛 六区 金融学(理论版) 量化投资
1193 5
2022-09-30
最基本的强化学习建立在马尔可夫决策过程(Markov Decision Process,MDP)上,当模型的动态特征已知时可以按照动态规划(Dynamic Programming,DP)进行迭代求解。

1988 年,时间差分算法(Temporal-Difference Method,TD)被应用于价值函数的迭代计算,它与类似的蒙特卡洛算法(Monte Carlo Method,MC)一样并不需要预先知道动态特征。本质上都被看作是 DP 的近似算法。

1989 年,经典的强化学习算法 Q-学习(Q-learning)被提出,它类似于 DP 中的价值迭代算法,但无需预先知道动态特征。

1994 年,SARSA 算法被提出,与 Q-learning 不同的是,SARSA 是同轨的(Onpolicy),即更新时下一步的动作依然按照原策略进行选取,它相对于 Q-learning 更加保守。

2013 年前后,深度学习与强化学习的结合,深度 Q 学习(Deep Q-learning)出现。以 Deep Q-learning 为代表的深度强化学习被广泛用于游戏、机器人、自动驾驶等各个领域。

2014 年左右,一些基于策略的(Policy-based)优化算法被提出。与之前的基于价值的(Value-based)算法不同,它整体评估一个策略,然后基于评估进行优化。它与深度学习联系紧密,被广泛应用于各个领域。
1.png 2.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-9-30 13:04:32
非凸科技 发表于 2022-9-30 11:23
最基本的强化学习建立在马尔可夫决策过程(Markov Decision Process,MDP)上,当模型的动态特征已知时可以 ...

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-2 20:43:18
又一个国庆快乐
点赞支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-7 16:01:21
点赞支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-1-5 17:07:47
萨顿的《强化学习》可以看看
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-1-16 15:30:28
  萨顿计是牛顿
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群