全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1468 0
2020-09-03
强化学习以减少建筑能耗仅建筑物的供暖,通风和空调就占全球能源需求的近40%[1]。   
节能的需求已日益成为应对气候变化的基础。我们一直在研究基于云的RL算法,该算法可以对现有的HVAC控件进行改造,以获得可观的结果。   
在过去的十年中,已经提出了一种依赖于人工智能的新型控制方法。特别是,我们将重点介绍基于强化学习(RL)的数据驱动控件,因为它们从一开始就显示出作为HVAC控件的有希望的结果[2]。   
使用RL升级空调系统有两种主要方法:在新系统上实施RL或翻新现有系统。第一种方法适用于供暖和空调系统的制造商,而后者可以应用于可以远程控制的任何现有工厂。
我们设计了基于云的RL算法,该算法不断学习如何通过远程读取环境数据并因此定义HVAC设定点来优化功耗。基于云的解决方案适合扩展到大量建筑物。
我们的测试表明,在两个不同的位置,一次能源消耗减少了5.4%至9.4%,从而保证了最先进的控件具有相同的热舒适性。
传统上,HVAC系统由基于模型的控制(例如,模型预测控制)和基于规则的控制来控制:     
模型预测控制(MPC)
MPC的基本概念可以总结如下。假设我们希望控制多输入多输出过程,同时满足输入和输出变量的不等式约束。如果可以使用合理准确的过程动态模型,则可以使用模型和当前测量值来预测输出的未来值。然后,可以基于预测和测量来计算输入变量的适当变化。
从本质上讲,MPC可以适应复杂的热力学,并在单个建筑物上节省能源方面取得出色的结果。按照这种思路,存在一个重大问题:这种模型的改造应用需要为每个现有建筑物开发一个热能模型。同样,很明显,模型的性能取决于其质量,拥有一个非常准确的模型通常很昂贵。高初始投资是基于模型的方法的主要问题之一[3]。同样,对于建筑物上的任何能源效率干预,都必须在领域专家的昂贵参与下再次重建或调整模型。
基于规则的控件(RBC)
基于规则的建模是一种使用一组间接指定数学模型的规则的方法。只要规则集比它所暗示的模型简单得多,这种方法就特别有效,以这种方式该模型可以重复显示有限数量的模式。  
因此,RBC是代表行业标准的最新的无模型控件。由于无需模型,因此无需模型的解决方案便有可能扩大规模,而无需领域专家。RBC的主要缺点是难以对它们进行最佳调整,因为它们不足以适应耦合的建筑物和工厂热力学的内在复杂性。
强化学习(RL)控件
在介绍RL控件的优点之前,我们将简要介绍RL本身。用萨顿和巴托[4]的话:
强化学习是在学习如何做-如何将情况映射到行动-以便最大化数字奖励信号。不会告诉学习者采取哪些行动,而必须通过尝试去发现哪些行动会产生最大的回报。在最有趣和最具挑战性的情况下,行动不仅会影响即时奖励,而且会影响下一种情况,并因此影响所有后续奖励。试错法和延迟奖励这两个特征是强化学习的两个最重要的区别特征。
在我们的案例中,RL算法直接与HVAC控制系统交互。它使用现场收集的实时数据不断适应受控环境,而无需访问建筑物的热能模型。这样,RL解决方案可以获得一次能源节省,从而在保持适用于大规模应用的同时降低了运营成本。
因此,期望为运行成本高的HVAC系统上的大规模应用引入RL控制,例如负责大量热调节的那些。
超市类是可以方便地实现RL解决方案的建筑物使用类之一。顾名思义,超市是分布广泛的建筑物,具有可变的热负荷和复杂的职业模式,从HVAC控制的角度来看,它们引入了不可忽略的随机成分。  
我们将通过使用强化学习框架来使这个问题形式化,让我们以更好的方式将其具体化。
强化学习解决方案
在RL中,代理与环境交互并学习最佳行动顺序,以策略来表示以达到期望的目标。如[4]中所述:     
学习者和决策者称为代理。与之交互的事物(包括代理外部的所有事物)称为环境。它们不断地相互作用,代理选择动作以及响应这些动作的环境并向代理呈现新情况。
图1:ResearchGate
在我们的工作中,环境就是一个超市建筑。奖励表达了学习者的学习目标:返回给学习者的标量值,它告诉我们学习者相对于学习目标的行为方式。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群