关于深度强化学习核心技术开发与应用的研修表

1878

收藏 2022-08-11

随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中，研究人员逐渐发现了深度学习单独应用的缺点，如没有决策能力，不可推理等。而深度强化学习，作为一种崭新的机器学习方法,同时具有感知能力和决策能力，它是深度学习与强化学习的结合，二者的结合涵盖众多算法、规则、框架,并广泛应用于机器人、无人机、无人车、无人艇、兵棋推演、自动驾驶、能源分配、编队控制、航迹规划、路由规划等众多领域，具有极高的研究与应用价值。

目标：

1、了解强化学习发展。

2、掌握单智能体深度强化学习。

3、掌握多智能体深度强化学习。

4、掌握多任务深度强化学习。

5、掌握强化学习应用领域Gym Retro游戏平台、机器人控制、计算机视觉、自然语言处理。

6、实现Gym、Ray仿真环境。

7、实际体验Q Learning实验、DQN实验、DDPG实验。

课程计划：

关键点

1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型预测学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00

一、强化学习概述

1.强化学习介绍

2.强化学习与其它机器学习的不同

3.强化学习发展历史

4.强化学习典型应用

5.强化学习基本元素

6.强化学习算法分类

二、马尔科夫决策过程

1.马尔可夫性

2.马尔可夫决策过程

3.策略与价值
4.最优化原理

5.MDPs扩展

三、动态规划

1.动态规划 2.价值迭代

3.策略迭代

4.迭代策略评估

5.广义策略迭代

6.维数灾

1.python环境下简单扫地机器人环境

2.价值迭代python实现

3.策略迭代python实现

4.迭代策略评估python实现

四、无模型预测学习

1.蒙特卡洛方法

2.时间差分学习

3.n-步回报

4.TD(lambda)

5.资格迹

1.蒙特卡洛方法python实现

2.时间差分方法python实现

第二天

9:00-12:00

14:00-17:00

五、无模型控制学习

1.蒙特卡洛控制

2.Sarsa

3.重要性采样

4.Q-学习

4.Double Q学习

5.探索与利用

1. Sarsa方法python实现

2. Q学习方法python实现

3. Sarsa(lambda)方法python实现

六、价值函数逼近

1.函数逼近器

2.线性函数逼近

3.常见的特征表示方法

4.价值迭代+离散化方法

5.Fitted Q Iteration

6.策略迭代+最小二乘

7.预测学习+随机梯度下降法

8.控制学习+随机梯度下降法

1. 离散化Q迭代方法python实现

2. LSPI方法python实现

七、策略梯度方法

1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE算法

5.Actor-Critic

6.策略梯度引入基准

7.自然梯度

8.确定型Actor-Critic

1. 策略迭代方法python实现

2. actor-critic方法python实现

第三天

9:00-12:00

14:00-17:00

八、深度强化学习

1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC

1.深度强化学习训练场-OpenAI Gym 安装与使用

2.Pytorch安装与使用

3.自动驾驶赛车任务

4.月球飞船降落任务

实操解析与训练一

实验：倒立摆和冰壶控制实践

1.环境编写 2.算法设计 3.实验结果

高频问题：

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点：

1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法

实操解析与训练二

实验：OpenAI Gym实践

1.Gym安装 2.Gym使用 3.强化学习

高频问题：

1.如何基于Gym实现强化学习训练与测试

关键点：

1.掌握马尔可夫决策过程

2.低维输入的强化学习方法

实操解析与训练三

实验：月球飞船降落任务

1.DQN/Double DQN/Dueling DQN 2.PER

高频问题：

1.深度强化学习网络训练稳定性 2.探索与利用

关键点：

1.经验回放技术的实现

2.目标网络更新

实操解析与训练四

实验：自动驾驶赛车任务

1.连续控制任务 2.策略梯度方法DDPG/PPO

高频问题：

1.适用于高维输入的连续控制任务的深度强化学习方法

关键点：

1.掌握DDPG和PPO具体编程实现

2.根据实际需求，选用合理的深度强化学习方法