让我们考虑自动赛车的情况。Berkeley Autonomous Race Car (BARC)、Amazon Deep Racer等都是自主赛车的示例,无需人工干预即可有效比赛。\
9830176660
这些汽车的控制系统通过人工智能和
神经网络得到增强。
自动化的某些部分,例如导向轮,可以通过模型预测控制(MPC) 等传统技术进行管理。
然而,这些传统技术无法像人类驾驶员一样管理驾驶过程。
为了实现完全有效的自治,我们需要
人工智能技术。
从自动赛车的这个“玩具示例”扩展,我们可以更广泛地考虑控制系统的相同情况。
控制系统可用于优化复杂的流程(例如供应链或制造)。
但是,就像我们之前讨论的自动驾驶汽车一样,这些情况不能仅依靠 MPC。
为了在复杂的工业过程中实现自主行为,我们必须将 MPC 技术与深度强化学习(DRL) 相结合。
控制回路系统的演变
为了理解这种情况,我们必须考虑控制系统的演变。
我们可以将自主行为视为控制环问题。
在最简单的情况下,我们有没有反馈机制的开环系统。在这种情况下,我们仅依靠该过程的数学模型在所有条件下都是准确的。
但是,这种方法有局限性,因为系统的运行条件可能会发生变化,我们需要系统随之发展。
因此,我们有反馈控制系统。
反馈控制系统根据动态条件建议以下控制动作。
PID 控制器等反馈控制系统使用恒定的数学增益向目标移动,同时动态计算后续动作。这种控制范式在化学工程等重型工程中已经成熟。
从 PID 控制器、模型预测控制或 MPC扩展,在基于预测机制的一组特定约束下自主控制过程。
MPC 使用约束优化器来提前预测动作,并使用准确的系统模型来理解环境。当存在精确的世界模型并且可以根据线性方程来构建问题时,MPC 模型就会起作用。然而,能够处理复杂、混乱情况的非线性 MPC 系统并不常见。此外,MPC 需要非常精确的模型,而构建此类模型可能既昂贵又耗时。
深度强化学习 (DRL)基于神经网络和通过反复试验进行学习。DRL 可以潜在地增加学习、策略、高级控制和自主性。DRL 通过反复试验来学习。尽管有其优点,但 DRL 也有一些缺点。DRL 并不容易训练,当可以虚拟模拟情况时,它们可以以较低的成本进行训练。换句话说,在物理世界中通过迭代/试错来学习是不可行的。因此,一个潜在的解决方案是用 DRL 补充 MPC
为了进一步发展具有 MPC 和 DRL 的控制回路系统,我们需要部署机器教学。Project Bonsai是使用机器教学的系统示例。机器教学将人类(专家)专业知识引入反馈循环。例如,在制造水泥的过程中,MPC 无法实时做出所有决策。因此,人类专家可以通过 DRL 模块提供反馈,然后成为 MPC 在定义参数内安全执行的设定点。
结论
我在纯深度学习/神经网络的局限性的更广泛背景下看到了机器教学的方法。有很多情况下,传统的神经网络方法行不通,因为有很多复杂的案例,风险很高,或者情况不容易模拟。我希望我们将来会看到更多这种方法。
题库