随着人工智能技术的迅猛演进,AI相关产业正迎来爆发式增长与快速迭代。这一变革不仅推动了社会智能化进程,也大幅提升了对高性能计算能力的需求。作为支撑AI技术发展的核心基础设施,智能计算中心在承担日益繁重算力任务的同时,面临着前所未有的能耗与散热挑战。
数字经济持续扩张背景下,全球数据中心的电力消耗占比逐年上升。数据显示,2024年我国数据中心总能耗达1660亿千瓦时,约占全社会用电量的1.68%,同比增长10.7%。而同期全社会用电量增速为6.8%,表明数据中心用电增速显著高于整体水平【1】。这使得数据中心成为能源消耗中不可忽视的重要领域。
1. AI行业的加速发展
AI技术不断突破及其应用场景的广泛拓展,促使智能计算中心建设成为驱动行业进步的关键环节。为了适应技术迭代速度,数据中心必须具备灵活响应新计算需求的能力,以维持技术领先优势和系统运行效率。
2. 高密度计算带来的散热压力
随着AI芯片算力提升,计算设备的功耗和热密度持续攀升,散热问题愈发突出。若高密度产生的热量无法有效导出,将直接影响系统的稳定性与运行效率,甚至引发硬件故障或性能下降,严重制约数据中心可持续发展。
3. 液冷技术的兴起与应用趋势
为应对高热密度挑战,液冷技术因其高效、节能和环保特性,逐渐成为智能计算中心冷却方案的重要发展方向。相比传统风冷,液冷能更有效地带走大量热量,降低整体能耗,提高散热效率,是实现绿色低碳数据中心的关键路径之一。
随着芯片功耗增长加快,不同业务场景下的制冷需求呈现多样化特征。当前行业内普遍认为,当机架功率密度达到40~60kW/Rack时,已逼近风冷技术的物理极限。在此边界之上,无论从散热效能还是经济成本角度考量,均需引入液冷解决方案。因此,数据中心制冷模式正由纯风冷逐步向风液混合制冷过渡。
不同机柜功率密度下推荐的制冷方式如图1所示:
▲ 图1 不同功率密度机柜制冷解决方案
- 当单机柜功率密度低于20~25kW时,常规远端风冷即可满足服务器散热需求;
- 当功率密度升至25~45kW时,宜采用近端风冷方案;
- 结合背板热交换器(Rear Door Heat Exchanger, RDHx),风冷系统可支持最高约60kW/Rack的散热能力;
- 当机柜功率密度处于40~60kW区间,应考虑部署液冷系统;根据具体芯片或服务器设计,部分场景可更早引入液冷;
- 即便启用液冷,由于风液散热比例差异,仍有5%~50%的热量需依赖风冷辅助排出,因此风液混合制冷将成为多数高热密度机柜的主流配置。
此外,室外一次侧散热方案的选择还需依据服务器供液温度要求进行匹配:
- 若服务器供液温度需求高于40℃,可采用完全自然冷却方式实现高效散热;
- 若供液温度要求较低,则需辅以机械制冷手段保障冷却效果。
低功率密度场景下的节能冷却策略
在单机柜功率密度小于40kW的情况下,结合服务器类型,仍多采用风冷技术为主。为满足PUE优化目标,各类利用自然冷源的技术已在机房空调系统中广泛应用。从节能技术维度划分,主要包括以下三类:
(1)风侧自然冷方案
该方案通过引入外部低温空气实现数据中心降温,具体分为两种形式:
- 直接空气自然冷: 将外界新鲜空气直接送入机房进行冷却。但由于受空气质量、湿度及污染物影响较大,适用范围有限;
- 间接空气自然冷: 利用换热器实现室外冷空气与室内热空气之间的热交换,在避免污染的同时实现降温。尽管解决了环境兼容性问题,但在夏季高温时段其冷却能力仍受限。
(2)水侧自然冷方案
利用低温水源或水蒸发潜热提供冷量。早期案例中有直接引用湖水冷却的做法,但受限于水质条件及生态影响,推广难度大。目前更为普遍的是基于水蒸发原理的冷却方式,如冷却塔和间接蒸发冷却设备。在开启喷淋功能时,此类设备属于典型的水侧自然冷技术,能够高效利用自然冷源。
(3)氟泵自然冷方案
通过氟泵驱动制冷剂循环,在室外温度较低时利用冷媒相变传递冷量至室内,仅消耗少量机械能即可完成制冷过程。通常该系统与压缩机制冷集成于一体:低温环境下关闭压缩机,启动氟泵实现自然冷却;高温环境下则切换至压缩机制冷模式,确保全年稳定运行。
上述自然冷却方式既可独立使用,也可组合应用,以最大化挖掘外部自然冷源潜力,提升整体能效。近年来,数据中心广泛采用的一种“混合双冷源”方案即为典型组合应用实例。
该方案在机房空调中设置两组盘管并层叠安装。高温回风首先经过第一组盘管进行预冷,冷源可选氟泵自然冷或冷却塔提供的冷却水;随后进入第二组盘管进行补冷,补冷冷源可根据实际需求选择氟泵自然冷或压缩机制冷,并实现自动切换,如图2所示:
▲ 图2 两种不同双冷源自然冷方案
通过“预冷+补冷”的控制逻辑,充分延长自然冷源的使用时间,减少机械制冷运行时长,从而显著提升空调系统能效,助力数据中心实现更低PUE值,迈向绿色高效运营目标。

以100kW空调机组为例,在数据中心广泛应用的自然冷技术中,不同区域应用下的制冷因子(CLF)表现如表1所示。
当空调系统处于满负荷运行状态(即100%输出)时,水侧自然冷技术凭借更长的自然冷却时间,展现出更低的制冷因子,节能优势明显,具体数据见表2。
在负载率为75%的工况下,氟侧自然冷机组的能效提升更为显著。在北京和上海等典型城市环境中,其节能效果已优于传统的水侧双冷源机组,详见表3。
随着负载进一步下降至50%,氟泵自然冷机组的整体能效全面超越水侧自然冷双冷源方案。由于氟泵功耗远低于水泵,且低负载下氟泵运行时长大幅增加,因此在各类气候区域均表现出更优的节能潜力。值得注意的是,北方地区因全年室外温度较低,自然冷利用时长更长,节能效果更加突出。通过采用“预冷+补冷”的系统设计策略,两种双冷源方案在系统级制冷因子上可达到相近水平,实际项目中应结合当地气象条件与运行需求进行合理选型。
液体冷却是一种利用高导热性能流体介质(如25%丙二醇溶液、去离子水、专用冷却液或制冷剂)替代空气对数据中心进行散热的技术。该技术直接参与服务器内部高性能芯片等关键发热部件的热量交换过程。由于缩短了热传导路径,热量能够被更高效地导出,从而显著减少对风扇强制散热的依赖,有效降低能耗与噪声水平。
目前,数据中心液冷技术主要分为两大类:
直接到芯片冷却(Direct-to-Chip, DTC),也称冷板式液冷,通过将冷却液输送至紧贴芯片表面的冷板结构,实现局部高效换热。在此配置中,液体并不直接接触电子元件,而是通过冷板吸收热量。虽然大部分热量由液冷系统带走,但电路板其他区域仍需低风量风扇辅助散热。部分系统设计通过机箱内空气循环排出余热,而另一些则需借助机架级或行级热交换器将热量传递至主冷却回路,系统原理如图3所示。

▲ 图3 冷板液冷系统原理图
浸没式液冷则是将整个服务器或其核心组件完全浸入非导电冷却液中,实现全方位、均匀的热量散发,适用于高密度计算场景。
在液冷系统中,CDU(冷量分配单元)是关键组成部分,负责在整个系统中稳定分配冷却液。CDU构建了一个独立的二次侧循环回路,并与承担外部散热功能的一次侧回路隔离,确保冷却液温度和流量的精确控制。同时,为保障长期可靠运行,CDU通常采用耐腐蚀不锈钢材质制造,确保与多种冷却介质兼容,防止系统内部腐蚀。
在设计上,CDU注重关键部件的冗余配置,包括电源、循环泵、传感器及过滤装置,确保单点故障不会影响整体运行。此外,内置精准温控系统可有效缓解CPU和GPU在动态负载下的热冲击问题。设备还配备自动补液罐和排气装置,支持长期无人值守运行,维持高效冷却性能。
1)供液温度
冷板液冷系统的供液温度设定需满足不同服务器厂商的技术要求。例如,Dell服务器可能支持高达32℃甚至更高的进液温度,而Nvidia则建议在25℃至45℃范围内运行。必须避免供液温度过低,以防产生冷凝水,造成IT设备短路或损坏。同时,系统需具备强稳定性,即使一次侧流量发生波动,也能通过调控机制保障二次侧持续提供恒定温度的冷却液,确保服务器安全与散热效率,如图4所示。

▲ 图4 一次侧流量波动,二次侧仍可保障稳定供液温度
2)供液流量
合理的供液流量是保证冷板系统高效散热的核心。CDU负责协调一次侧与二次侧流体的流量控制。其中,二次侧需向IT设备提供稳定流速的冷却液,确保在设备满载时能及时带走冷板积聚的全部热量,维持入口温度恒定。一次侧流量则根据实际散热负荷动态调节,并参考CDU的接近温度(ATD)进行优化调整,如图5所示。

▲ 图5 一次侧流量波动,二次侧仍可保障稳定回液温度
为确保流量控制精度,系统普遍采用压差控制策略并结合实时监测,防止泄漏引发的压力异常。同时,CDU内部泵组与电源的冗余设计,保障了在关键业务场景下冷却液供应的连续性,进一步提升了系统的可靠性。
3)过滤要求
冷板内部设有极细小的流道,通道宽度可小于50微米,甚至低至30微米以内。一旦杂质进入,极易造成堵塞,轻则降低冷却效率,重则中断冷却导致设备过热。因此,对冷却液的清洁度有极高要求。通常,过滤精度应低于流道最小尺寸,行业普遍采用25微米或更高等级的过滤标准。同时,CDU需配置在线持续过滤功能,确保系统在长期运行中始终保持清洁,延长设备寿命并维持高效散热能力。
4)流体选择
冷却介质的选择需综合考虑导热性能、材料兼容性、腐蚀性、环保性及维护成本等因素。常用介质包括25%丙二醇水溶液、去离子水、专用电子级冷却液以及某些相变制冷剂。选型时应确保所用流体与系统中所有金属与密封材料相容,避免沉积、氧化或老化现象,保障系统长期稳定运行。
在冷板液冷系统的设计初期,流体化学成分的选取及其供应商的可靠性至关重要。一旦确定所用液体方案,后续若需更换将面临复杂且成本高昂的清洗与净化流程。此外,在系统调试阶段,流体选择会带来一系列挑战,例如循环测试、杂质冲洗以及气泡排除等操作,这些步骤对每台服务器及整体解决方案的稳定运行具有决定性作用。在整个系统生命周期中,还需持续关注液体状态,定期检测pH值、外观、抑制剂浓度和污染物水平,以保障其性能稳定并维持系统的高效运行。同时,所有冷却液必须按照严格的存储与处理规范操作,并配备必要的个人防护装备,确保作业安全。
目前在冷板液冷系统的二次侧流体应用中,主要有三种主流选择:
- 去离子水配方液:具备优异的换热性能,但存在较高的腐蚀风险,需额外采取防腐措施;
- 乙二醇配方液:具有一定防腐能力,但毒性较强,在环保要求严格的地区,其排放和处置成为实际难题;
- 丙二醇配方液:被Intel、Nvidia等行业领先企业推荐使用,因其出色的防腐特性,已成为众多用户的首选方案。
因此,在进行流体选型时,应综合评估其性能表现、经济成本、环保合规性及安全性等因素,结合自身需求做出最优决策。
5)故障预防与检测机制
在冷板液冷系统中,CDU(冷却分配单元)的监控与管理是实现故障预警和早期识别的核心环节。数据中心尤其重视泄漏问题——多数泄漏发生在歧管与服务器软管之间的快速接头处,通常对IT设备影响较小。然而,若泄漏发生于机箱内部,特别是冷板、软管与内部歧管连接区域,则可能对关键设备造成严重损害。为此,部署包含额外过滤装置与传感器在内的防错系统极为重要。这类系统不仅能及时发现热交换效率下降的趋势,还可有效防范因人为操作失误导致的污染增加或液体质量漏检,从而显著提升系统整体的稳定性与安全性。
根据冷却方式的不同,直接到芯片(DTC)液冷技术可细分为以下几种类型:
液体辅助DTC冷却:属于机箱级闭环独立产品,集成冷板、泵和散热器,专用于处理器局部热点的降温。热量通过服务器内部的液体-空气热交换器排出,无需与外部液体进行热交换,也不依赖CDU或其他外部液冷基础设施,无需改造现有环境即可应对高密度发热场景。
全液冷板冷却:当前大多数DTC服务器仅针对CPU、GPU等高功耗部件实施液冷,其余组件如内存、存储设备、硬盘驱动器/固态驱动器、OCP卡及电源模块仍依赖风扇进行风冷。而全液冷板方案则为所有发热部件配置冷板,全面采用液体冷却,彻底取消风扇,进一步优化电源使用效率(PUE),实现更高能效。
依据运行过程中冷却液的状态,DTC系统还可划分为单相与双相两类:
- 单相系统:冷却剂始终保持液态,通过显热传递实现散热;
- 双相系统:冷却剂在吸热过程中发生相变蒸发,随后在热交换器中冷凝回流,利用潜热转移大量热量。
负压液冷系统:该系统包含三个密封良好的液腔——主真空腔、储液腔和辅真空腔。主真空腔与辅真空腔交替维持高真空状态,推动工艺冷媒从服务器冷却回路返回;储液腔则保持较低真空度,促使冷媒流入服务器侧。系统采用低扬程潜水泵作为二次泵,安装于储液腔内。当检测到供液温度低于机房露点温度时,水泵自动停机,防止凝露产生。系统配备真空泵及相关负压组件(含气液分离器、消音排气口、空气流量传感器),用于维持各腔体真空度。每个腔体均设有两个气动开关阀,一个连接真空泵,另一个连通大气端的气液分离器,通过控制阀门切换来调节各腔体真空状态,确保液体循环顺畅。
不同服务器对冷却液运行温度的要求各异。根据一次侧供水温度的不同,冷板液冷系统可采用多种制冷架构设计。当一次侧水温处于W32或更低时,冷却塔无法全年独立满足冷量需求,需补充机械制冷手段,常见设备包括水冷冷水机组、风冷冷水机组等。
1)同源液冷方案:液冷部分(XDU)与风冷部分共用同一冷却塔作为冷源,适用于液冷末端(如XDU)与水冷型空气处理机组(AHU)等不同负载均由同一冷却塔统一供冷的场景。
2)非同源液冷方案:采用冷却塔为液冷部分提供冷却,风冷部分则通过机械制冷或其他独立冷源支持,具体可分为“高水温不同源风冷”与“高水温不同源冷冻水”两种模式。前者中,精密空调与液冷CDU分别配置独立的冷却塔或干冷器;后者中,空气处理机组(AHU)由冷水机组供冷,液冷部分(XDU)仍由冷却塔供冷,详见图6所示。

▲ 图6 风液混合系统制冷架构
3)风液混合冷却方案:适用于已部署风冷精密空调的机房,仅需新增少量液冷机柜的情况。此时推荐采用集中式风液型CDU方案。CDU与液冷机柜之间通过软管连接,服务器产生的热量经由冷板、Manifold及管路传递至风液CDU的盘管,释放至机房环境中,再由现有的机房空调将全部热量排至室外,形成完整的散热路径,如图7所示。

▲ 图7 风液方案系统制冷架构
在进行液冷方案选型时,需综合考虑服务器可承受的冷却液温度以及机房实际运行条件,从而确定适宜的制冷系统架构。
当前AI算力的发展趋势依赖于不断提升硬件“堆叠”密度,这一逻辑直接导致单位空间内的能量密度持续攀升,进一步加速了液冷技术在智算中心中的应用进程。基于此背景,未来智算中心液冷技术的发展方向可归纳为以下两个方面:
尽管冷板式液冷目前占据主流地位,但仍有一大部分热量依赖风冷方式进行处理,这显著增加了智算中心系统的复杂性。为了提升单机柜功率密度并简化数据中心整体结构,迫切需要减少对风冷的依赖。可通过优化传统冷板方案中的服务器与冷板设计,尽可能将主要发热元件纳入冷板散热范围;同时,单相浸没式液冷和全覆盖冷板液冷也是值得重点推进的技术路径。其中,单相浸没式液冷在解决高功率芯片散热难题后,有望实现完全液冷化;而全覆盖冷板方案则更贴合AI服务器的特殊需求,无需兼顾通用服务器的兼容性问题。
随着风冷占比逐步降低,技术发展也将面临新的挑战,主要体现在芯片和机柜两个层面:
芯片层面
随着半导体制程进步趋于瓶颈,Chiplet(芯粒)技术凭借先进封装方式将多个小芯片集成于一体,已成为行业广泛采用的方向。特别是3D堆叠技术的应用,使得单位面积上的晶体管数量持续高速增长。然而,这也带来了严峻的散热问题——如何高效地将芯片封装内部产生的热量导出,正成为整个产业必须应对的关键挑战。
机柜层面
以NVIDIA GB200 NVL72为代表的高性能计算解决方案目前仍采用风液混合冷却模式,其柜内大量使用铜缆进行互联,对风道布局造成明显阻碍。随着机柜整体功率不断上升,提高冷板在各计算节点中的覆盖范围成为必然选择,系统将逐步向全液冷架构演进。
面对AI芯片功耗持续攀升(已达1500W至2000W以上),传统风冷散热器已接近极限(约1000W),而单相水冷板的散热能力也即将触及上限(约1500W)。因此,相变散热技术将成为下一代冷却方案的核心发展方向,主要包括相变浸没式液冷和相变冷板液冷两类。相变冷板技术又可分为泵驱两相(Pumped Two-Phase)和自驱动两相(Passive 2-Phase)两种路线。相较而言,泵驱两相冷板在国外已有较多研究积累,但存在系统复杂、可靠性不足等问题;而自驱动两相冷板基于环路热管(LHP)技术,虽然技术难度更高,但在散热性能、可靠性、运维便捷性和使用寿命等方面具备显著优势,是更具潜力的长期发展方向。