为什么下一个数据中心 CDU 将决定人工智能性能的优劣

分享给

数据中心的CDU(冷却液分配单元)是数据中心液冷系统的中央热交换模块。它通过冷板循环冷却液,直接捕获CPU和GPU产生的热量,然后将这些热量传递到设施的主冷却回路中。

在为数据中心部署选择 CDU 时,运营商必须浏览技术规范、架构选择和操作要求等复杂的内容。本指南提供了一个系统框架,帮助您为特定环境选择合适的 CDU。.

数据中心 CDU

步骤 1:评估热容量和功率密度要求

热容量是数据中心 CDU 的基石。CDU 必须能够处理系统的总设计功率,即服务器和 GPU 产生的热量。根据经验,应根据功率密度最大的机架的热负荷和每个计算吊舱的总负荷进行规划。.

现代 CDU 的容量范围非常广泛。对于中小型部署,机架内和排内 CDU 通常可处理 70 千瓦至 600 千瓦的功率。设施级 CDU 每个单元可处理 2 兆瓦至 4 兆瓦的功率,而超大规模级 CDU 每个模块的功率可达 10 兆瓦,甚至更高--开利公司最近为超大规模数据中心推出了功率为 1.3 兆瓦至 5 兆瓦的 CDU。.

在确定数据中心 CDU 的大小时,不仅要考虑当前的热负荷,还要考虑预计的未来增长。人工智能工作负载会迅速增加,重新调试冷却系统的成本远高于最初的超额配置。.

步骤 2:计算流量和压头

流速与冷却性能直接相关。现代人工智能和高性能计算集群对流速的要求比以往任何时候都高,通常为每千瓦热量每分钟 1.5 至 2 升。. .低估流量要求会导致散热不足和热节流,直接影响 GPU 性能和训练时间。.

CDU 的泵必须产生足够的压头,以推动冷却液通过系统中的每个回路、弯道和冷板。系统设计人员通常会低估压降,尤其是在现有管道配置不是为液体冷却而设计的改造中。.

步骤 3:选择液-液和液-气 CDU

CDU 通常分为两种主要架构:

液变液体 (L2L) CDU 利用热交换器将 IT 冷却剂回路中的热量转移到设备冷却水系统中。它们最适合部署在拥有现有冷却水基础设施的大型或高性能计算数据中心。L2L CDU 制冷效率高,但需要设施水系统和适当的水处理协议。.

液-气 (L2A) CDU 它们通过集成的风扇和盘管将热量直接排入数据中心内的环境空气中。它们适用于较小的部署或没有冷冻水接入的设施,但会增加数据大厅的热负荷.在为数据中心选择 L2A CDU 时,请注意它会提高房间的环境温度。.

步骤 4:按部署地点评估 CDU 类型

除了热交换方法外,CDU 还根据其在设施内的位置进行分类:

机架式 CDU 直接安装在单个服务器机架内,为特定机柜提供专用冷却。这些设备非常适合高密度机架或不适合行级集成的改造。Vertiv 的 CoolChip CDU 70 和 CDU 100 就是此类产品的典范,专为人工智能基础设施而设计。.

行内 CDU 在热/冷通道配置中,CDU 位于机架之间,通过单个设备为多个机架提供服务。这代表了企业人工智能集群最常见的部署模式。对于大多数新项目而言,用于数据中心的排内 CDU 在密度和服务性方面实现了最佳平衡。.

步骤 5:了解单相与双相技术

单相直接芯片冷却是目前人工智能数据中心的主流选择。在这种架构中,冷却剂从处理器吸收热量,然后以液体形式返回 CDU,在那里进行冷却和再循环。该技术已经成熟、广为人知,并得到了广泛的供应商生态系统的支持。.

两相直接芯片冷却是一种新兴的替代方案。冷却剂在吸收热量时由液态变为气态,然后在 CDU 处冷凝为液态. .相变可显著提高热传输能力,降低流速,减少泵能耗. .不过,两相系统的成本较高,而且需要考虑监管问题,特别是制冷剂及其全球变暖潜能值。.

数据中心 CDU

对于目前大多数企业部署而言,单相 L2L CDU 仍然是数据中心 CDU 中最安全、最具成本效益的选择。两相技术最适用于最高密度的人工智能和高性能计算环境,在这种环境中,每瓦的冷却效率都很重要,资本预算也能满足专用基础设施的需求。.

步骤 6:指定冗余和可靠性要求

N+1 冗余--在满足全部热负荷的基础上增加一个额外的 CDU--已成为冷却系统设计的行业最低标准. .这种方法允许在组件故障、计划维护或负载转移时继续运行。对于任务关键型人工智能工作负载,运营商越来越多地指定采用 2N CDU 配置,但这需要大量的空间和资金成本。.

除设备级冗余外,数据中心 CDU 还需配备冗余泵(N+1 或 2N 配置)、冗余过滤器和传感器以及双电源。开放式设计使泵、过滤器和控制装置易于接近,减少了维护期间的停机时间.

步骤 7:规划可持续性和长期可扩展性

在评估 CDU 时,应考虑支持更高的出水温度。冷却剂温度高达 40°C 的系统可最大限度地延长自由冷却时间,降低冷却器能耗,并可将热量重新用于区域供热或其他应用。. .特别是在实行碳定价或制定了积极的可持续发展目标的地区,热回收能力正迅速从一个可有可无的功能转变为一个必须具备的要求。.

可扩展性同样需要深谋远虑。数据中心 CDU 市场急剧增长,直接液体冷却的年复合增长率约为 20% 至 30% ,预计到 2029 年市场规模将达到近 $6 亿美元。. .这一快速增长吸引了约 40 家供应商进入 CDU 领域,其中既有全球巨头,也有利基专家。. .竞争在推动创新的同时,也带来了供应商锁定或资产搁浅的风险。.

为具有模块化扩展路径、开放式控制架构和兼容多种冷却剂类型的数据中心指定 CDU。冗余容量规定允许您在不更换整个冷却基础设施的情况下扩展机架密度。请供应商提供与您的计划设施规模相似的参考部署情况,并验证您所在地区的长期部件可用性和服务支持。.

最后的考虑:人工智能、高性能计算和 CDU 的未来

人工智能训练工作负载的激增和循环不可预测。GPU 的性能可能会迅速提高或降低,从而立即产生温度峰值。用于人工智能环境的 CDU 必须不断调整泵速、流速和阀门位置,以均匀地分配热负荷。. .这需要先进的控制逻辑,而不仅仅是超大泵。.

高性能计算集群通常是任何设施中密度最高的部署。对于这些环境,应考虑为每个计算舱配备专用的 CDU,而不是在多个计算舱之间共享 CDU。这种方法包含热故障域,简化了故障排除,并使冷却能力与特定的工作负载特征相一致。.

请记住:数据中心的 CDU 不仅仅是一个带有热交换器的泵。它是将液体从介质转变为可管理资源的智能层。在人工智能时代,为数据中心部署选择正确的 CDU 是您将做出的最重要的基础设施决策之一。.

关于作者

加文

加文

Gavin 是一家专门从事数据中心配套设备的公司的运营经理。他精通数据中心专用不间断电源、精密空调和数据中心解决方案。他可以帮助您更好地了解这些产品以及如何选择不同的解决方案。.

相关帖子