人工智能和自治系统的未来

2465

收藏 2022-03-18

让我们考虑自动赛车的情况。Berkeley Autonomous Race Car (BARC)、Amazon Deep Racer等都是自主赛车的示例，无需人工干预即可有效比赛。\

9830176660
这些汽车的控制系统通过人工智能和神经网络得到增强。

自动化的某些部分，例如导向轮，可以通过模型预测控制(MPC) 等传统技术进行管理。

然而，这些传统技术无法像人类驾驶员一样管理驾驶过程。

为了实现完全有效的自治，我们需要人工智能技术。

从自动赛车的这个“玩具示例”扩展，我们可以更广泛地考虑控制系统的相同情况。

控制系统可用于优化复杂的流程（例如供应链或制造）。

但是，就像我们之前讨论的自动驾驶汽车一样，这些情况不能仅依靠 MPC。

为了在复杂的工业过程中实现自主行为，我们必须将 MPC 技术与深度强化学习(DRL) 相结合。

控制回路系统的演变
为了理解这种情况，我们必须考虑控制系统的演变。

我们可以将自主行为视为控制环问题。

在最简单的情况下，我们有没有反馈机制的开环系统。在这种情况下，我们仅依靠该过程的数学模型在所有条件下都是准确的。

但是，这种方法有局限性，因为系统的运行条件可能会发生变化，我们需要系统随之发展。

因此，我们有反馈控制系统。

反馈控制系统根据动态条件建议以下控制动作。

PID 控制器等反馈控制系统使用恒定的数学增益向目标移动，同时动态计算后续动作。这种控制范式在化学工程等重型工程中已经成熟。

从 PID 控制器、模型预测控制或 MPC扩展，在基于预测机制的一组特定约束下自主控制过程。

MPC 使用约束优化器来提前预测动作，并使用准确的系统模型来理解环境。当存在精确的世界模型并且可以根据线性方程来构建问题时，MPC 模型就会起作用。然而，能够处理复杂、混乱情况的非线性 MPC 系统并不常见。此外，MPC 需要非常精确的模型，而构建此类模型可能既昂贵又耗时。

深度强化学习 (DRL)基于神经网络和通过反复试验进行学习。DRL 可以潜在地增加学习、策略、高级控制和自主性。DRL 通过反复试验来学习。尽管有其优点，但 DRL 也有一些缺点。DRL 并不容易训练，当可以虚拟模拟情况时，它们可以以较低的成本进行训练。换句话说，在物理世界中通过迭代/试错来学习是不可行的。因此，一个潜在的解决方案是用 DRL 补充 MPC

为了进一步发展具有 MPC 和 DRL 的控制回路系统，我们需要部署机器教学。Project Bonsai是使用机器教学的系统示例。机器教学将人类（专家）专业知识引入反馈循环。例如，在制造水泥的过程中，MPC 无法实时做出所有决策。因此，人类专家可以通过 DRL 模块提供反馈，然后成为 MPC 在定义参数内安全执行的设定点。

结论
我在纯深度学习/神经网络的局限性的更广泛背景下看到了机器教学的方法。有很多情况下，传统的神经网络方法行不通，因为有很多复杂的案例，风险很高，或者情况不容易模拟。我希望我们将来会看到更多这种方法。

题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群