全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1569 0
2022-05-09
仅建筑物的供暖、通风和空调就占 全球能源需求的近40%  [1]。

对 节能的需求 已越来越成为应对 气候变化的基础。 我们一直在研究一种基于云的 RL 算法,该算法可以改造现有的 HVAC 控制以获得实质性结果。


在过去的十年中,已经提出了一种依赖于人工智能的新型控制方式。特别是,我们将重点介绍基于 强化学习 (RL) 的数据驱动控制,因为它们从一开始就显示出作为 HVAC 控制的有希望的结果 [2]。

使用 RL 升级空调系统有两种主要方法:在新系统上实施 RL 或改造现有系统。第一种方法适用于供暖和空调系统的制造商,而后者可以应用于任何可以远程控制的现有工厂。

我们设计了一种基于云的 RL 算法,该算法通过远程读取环境数据并因此定义 HVAC 设定点来不断学习如何优化功耗。基于云的解决方案适合扩展到大量建筑物。

我们的测试表明,两个不同地点的一次能源消耗降低了 5.4% 到 9.4%,保证了最先进控制装置的相同热舒适度。

传统上,HVAC 系统由 基于模型 (例如,模型预测控制) 和 基于规则的 控制控制:

模型预测控制 (MPC)
基本的 MPC 概念可以总结如下。假设我们希望控制一个多输入、多输出的过程,同时满足输入和输出变量的不等式约束。如果有相当准确的过程动态模型可用,则模型和当前测量值可用于预测输出的未来值。然后可以根据预测和测量计算输入变量的适当变化。

从本质上讲,MPC 可以拟合复杂的热力学,并在单体建筑的节能方面取得出色的效果。按照这种思路,有一个重要的问题:这种模型的改造应用需要为每个现有建筑物开发一个热能模型。同样,很明显模型的性能依赖于它的质量,拥有一个相当准确的模型通常是昂贵的。高初始投资是基于模型的方法的主要问题之一 [3]。同样,对于建筑物能源效率的任何干预,模型都必须重新构建或调整,同样需要领域专家的昂贵参与。

基于规则的控制 (RBC)
基于规则的建模是一种使用一组 间接 指定数学模型的规则的方法。每当规则集比它所暗示的模型简单得多时,这种方法就特别有效,因为模型是有限数量模式的重复表现。

因此,RBC 是代表行业标准的最先进的无模型控制。无模型解决方案可能会扩大规模,因为没有模型使得该解决方案可以轻松应用于不同的建筑物,而无需领域专家。RBC 的主要缺点是它们难以进行优化调整,因为它们对于耦合的建筑和工厂热力学的内在复杂性不够适应。

强化学习 (RL) 控制
在介绍 RL Controls 的优势之前,我们先简单谈谈 RL 本身。使用 Sutton 和 Barto  [4]的话:

强化学习是学习做什么——如何将情况映射到行动——以最大化数字奖励信号。学习者不会被告知要采取哪些行动,而是必须通过尝试来发现哪些行动会产生最大的回报。在最有趣和最具挑战性的情况下,行动可能不仅会影响直接奖励,还会影响下一个情况,并由此影响所有后续奖励。这两个特征——试错搜索和延迟奖励——是强化学习的两个最重要的区别特征。

在我们的案例中,RL 算法直接与 HVAC 控制系统交互。它使用现场收集的实时数据不断适应受控环境,无需访问建筑物的热能模型。通过这种方式,RL 解决方案可以获得一次能源节约,从而降低运营成本,同时保持适用于大规模应用。

因此,需要为运行成本高的 HVAC 系统上的大规模应用引入 RL 控制,例如负责大量温度调节的系统。

超市类是可以方便实施 RL 解决方案的建筑使用类之一  。根据定义,超市是具有可变热负荷和复杂职业模式的广泛建筑,从 HVAC 控制的角度来看,它们引入了不可忽略的随机成分。

我们将通过使用强化学习的框架来形式化这个问题,让我们以更好的方式将其上下文化。

强化学习解决方案
在 RL 中, 代理 与 环境交互 并学习最佳动作序列,由策略表示以达到预期目标。如 [4]中所述:

学习者和决策者称为代理。它与之交互的东西,包括代理之外的一切,被称为环境。这些不断交互,代理选择动作和环境响应这些动作并向代理呈现新情况。


在我们的工作中,环境是一个超市建筑。奖励表达了智能体的学习目标:返回给智能体的标量值,它告诉我们智能体在学习目标方面的表现。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群