精密冷却:最大化 PUE 值,实现新一代效率

分享给

数据中心精密冷却是一种专门针对服务器、存储和网络设备的独特热特性而构建的热管理方法——而非为人员占用设计。传统的办公室空调系统侧重于将空气冷却到人感到舒适的水平,而精密冷却是专门为持续运行的电子设备而设计的,这些设备产生的高密度热负荷需要精确的环境控制。

精密冷却

传统的以 CRAC 为中心的设计依赖于间接模式:CRAC 设备冷却整个机房,而服务器则从共享空间中抽取空气。冷通道/热通道封闭、高架地板输送、多单元布局--这种架构使用 “空间 ”作为热介质。在每个机架 5-15 千瓦的情况下,这种方法对您来说非常有效。但是,当 AI 机架的功率达到 40-120 千瓦时,物理原理就会崩溃。.

随着机架密度的增加,制冷与 IT 功率比也会非线性下降。在 40-80 kW 密度时,该比率可达 0.55-0.80 ,使 PUE 超过 1.60-1.85。直接对流精密冷却可避免这一问题,因为它能准确地将冷空气送到元件发热的地方,并在热空气扩散之前将其排出。由于空气不会与整个房间混合,因此热力学不可逆性保持在物理最小值附近,从而保持高效率。.

为什么人工智能工作负载的 PUE 比以往任何时候都重要?

PUE 是衡量数据中心能源效率的通用指标,定义为设施总能耗与 IT 设备能耗之比,理想的 PUE 值接近 1.0。.

根据美国国家可再生能源实验室(U.S. National Renewable Energy Laboratory)的数据,仅冷却一项就占数据中心总耗电量的 30-40% 。目前,数据中心的年耗电量约为 415 太瓦时,约占全球需求量的 1.51TW3T,由于高性能人工智能的需求不断增长,预计到 2030 年将达到 945 太瓦时,因此,通过精密技术提高冷却效率已成为您运营的当务之急。.

在 2026 年,行业领导者们正在就三个共同要求达成一致,您也应该瞄准这些要求:将 PUE 稳定在 1.2 的较低范围内、在现场保证的 SLA 下至少节省 30% 的冷却功率,以及承载高密度人工智能机架的结构稳定性。与此同时,谷歌等超大规模运营商报告称,其全球机群的尾随十二个月 PUE 低至 1.09,这表明即使人工智能推动机架密度上升,也能达到同类最佳水平。.

这将对您的财务状况产生重大影响。假设您的设备有一个 500 千瓦的 IT 负载,其 PUE 值为 1.80 - 您的总消耗量为 900 千瓦。如果将 PUE 提高到 1.30,则总耗电量将降至 650 千瓦,节省 250 千瓦。按照您的商业用电价格,每年运行 8,760 小时,每年可节省超过 50 万个货币单位,通常可在 18 至 36 个月内收回冷却升级的资本成本。.

数据中心精密冷却 PUE 基准

精密冷却技术涵盖各种架构,每种架构的 PUE 结果都截然不同。以下是您可以用来评估选项的行业基准:

冷却方法可实现的 PUE 范围供您参考的主要特点
传统计算机房空调器(CRAC)1.80–2.20冷却开销大,效率低 - 尽可能避免使用
现代 CRAC1.50–1.70行业平均风冷基准
CRAH + 冷水机组(计算机房空气处理器)1.30–1.50效率高,适合大型设备
行内 + 自由冷却1.20–1.35高效、可扩展的设计,满足您的发展需求
RDHx(后门热交换器)1.10–1.30机架级散热,减轻房间负担
直接芯片液体冷却1.03–1.10高密度负载接近理论最高效率

您需要了解的空气冷却 PUE 限制

如果您当前的机架密度在每个机架 5-15 千瓦的传统范围内,风冷仍然是可行且经济高效的。但随着 HPC 和人工智能 GPU 工作负载密度的增加,风冷会达到物理和声学极限。典型的空气冷却设施的行业平均 PUE 约为 1.55,这意味着您很可能会降低效率。.

根本的限制在于热力学:空气的热传导率仅约为 0.026 W/(m-K),在芯片和散热器之间会产生明显的温度梯度。一旦每个机架的功率密度超过 15 千瓦,空气冷却就很难将芯片结点温度维持在安全范围内。.

为高密度未来实现液体冷却 PUE 突破

液体冷却从根本上改变了效率等式。风冷数据中心每 1 瓦的计算能力可能需要大约 1 瓦的冷却,而液冷只需 1 瓦的冷却就能支持大约 10 瓦的计算。就 PUE 而言,风冷通常约为 1.5,而先进的液冷可将 PUE 降至 1.1、1.04 或更低。.

精密液体冷却可为您的设备带来更显著的效果。一项评估 16 台 HPE ProLiant DL380 服务器的基准研究发现,精密冷却不仅将服务器在高温下的性能提高了约 4%,还将机架级 IT 功耗降低了 1 kW,即节省了 5% IT 能源。在风冷方案中,机架总功率达到 27.4 kW(19.6 kW 服务器 + 7.8 kW 冷却)。精密液体冷却通过移除服务器风扇和减少冷却基础设施需求,将机架总功率降至 19.3 千瓦--每个机架减少了 8 千瓦以上,预计可为您节省 30% 的总能耗。.

精密冷却

先进液体冷却解决方案的部分 PUE(pPUE)值可达到 1.03 或更低,这意味着每 100 瓦的 IT 功耗中,冷却系统仅消耗 3 瓦。.

可应用于现有数据中心

并非每个设施都能立即过渡到液体冷却。但是,您可以通过精确的改造策略,在现有的风冷数据中心中实现有意义的 PUE 改善。.

气流管理优化从今天开始

气流优化是最容易实现的精密冷却升级。通过实施热通道和冷通道封堵、密封电缆开口、安装封堵板和调整送风温度,您可以在不改变资本密集型设备的情况下降低制冷能耗。一家工厂通过自动调整自由空气冷却设置,将 PUE 从 1.4 降至 1.3,这种季节性变化持续了 12 个月以上。您可以复制这种方法。.

优化供应温度,立即实现节约

传统的数据中心通常在不必要的低设定点(7°C 或更低)下运行冷却水温度。如果将冷冻水供应温度从 7°C 提高到 15°C,则可减少约 18% 的冷水机能耗,直接改善 PUE。冷冻水温度每提高 1°C 通常可节省 2-3% 的冷水机能耗。.

自由冷却集成--充分利用当地气候

自由冷却利用较低的室外空气温度来冷却设备,而无需运行能源密集型压缩机。如果实施节能,通常可以将 PUE 值提高 0.1 到 0.2 个百分点。在气候较冷的地区,扩大使用自由冷却可帮助您显著降低 PUE 值,而在气候较热的地区,则需要在提高机械冷却效率方面投入更多资金。.

作为垫脚石的混合冷却战略

对于像您这样正在向液体冷却过渡的设施,混合战略提供了一个实用的中间步骤。一项关于主动-被动双回路冷却系统(结合蒸汽压缩和重力热管)的研究表明,该系统的年平均 PUE 值为 1.27,冬季 PUE 值低至 1.23,明显优于传统空调系统。您可以考虑类似的方法。.

选择正确的精密冷却系统

精密冷却系统的选择不再主要取决于技术偏好,而是取决于机架密度。了解您的设备在密度谱上所处的位置以及未来的发展方向,是您在审查冷却策略时首先要做出的决定。.

机架密度为您推荐的冷却方法您可以实现的预期 PUE
5-15 千瓦/架带封闭装置的空气冷却1.40–1.55
15-30 千瓦/机架排内冷却,RDHx1.20–1.40
30-80 千瓦/机架直接对芯片液体冷却,混合1.10–1.20
80-120+ 千瓦/机架浸入式冷却,两相 DTC1.03–1.10

您应权衡的主要选择标准

机架密度 仍然是主要驱动因素。如果您的最大机架密度为 15 千瓦或更低,那么带有封闭装置的现代精密空气冷却系统可能会满足您的需求。如果密度在 15 千瓦至 30 千瓦之间,则需要采用排内冷却或后门热交换器。在 30-80 kW 的情况下,强烈建议采用直接芯片液冷技术。如果每个机架的功率超过 80 千瓦,则必须采用浸入式冷却或两相 DTC。.

您的设备年龄 问题。对于新建项目,您可以从头开始设计液体冷却架构,实现最佳的 PUE 结果。对于改造,您需要仔细考虑现有的基础设施,但 DTC 制冷可以部署在改造后的设施中,而无需进行重大的结构改造。.

您的气候条件 影响自由冷却集成的可行性和投资回报率。如果气候较冷,则可以通过延长省煤器的运行时间来降低 PUE。如果位于较热的地区,则应更多地依赖机械冷却效率,并可能从液体冷却架构中获益最多。.

您的供水情况 的限制越来越多。传统的蒸发冷却耗水量巨大,大型工厂每天的耗水量可达 500 万加仑。像贵公司这样的领先企业正在采用闭环系统和替代冷却技术,最多可减少 90% 的耗水量。.

数据中心精密冷却的未来

在人工智能时代,数据中心精密冷却已从设施管理方面的考虑因素发展成为您的战略差异化因素。精密冷却系统提供的 PUE 值可直接转化为您的运营成本降低、法规合规性和竞争优势。.

对您而言,发展轨迹非常清晰:低于 1.2 的行业标准 PUE 目标正在成为新设施的基准期望值,领先的运营商通过液体冷却和人工智能驱动的优化实现了 1.1 或更高的目标。在机架密度的推动下,全球正在加速从纯空气冷却向混合和全液体架构转变,而传统的 CRAC 系统根本无法为您提供支持。.

关于作者

加文

加文

Gavin 是一家专门从事数据中心配套设备的公司的运营经理。他精通数据中心专用不间断电源、精密空调和数据中心解决方案。他可以帮助您更好地了解这些产品以及如何选择不同的解决方案。.

相关帖子