为什么数据中心的液体冷却对未来的热管理至关重要?

分享给

对于数据中心运营商、工程师和 IT 管理者而言,数据中心液冷技术早已不再是小众升级方案 —— 它是释放扩容潜力、降低能耗,并让基础设施从容应对高密度计算持续攀升的散热需求,实现未来适配的必备选择。

现代数据中心为何无法采用空气冷却技术

对于低功率密度部署(每个机架的功率≤12kW),强制风冷仍然是一种可行的选择,但随着计算需求的增加,其局限性也变得越来越大。空气冷却依赖于大型散热片和高速风扇将热空气从组件中带走,这就造成了三个关键的痛点:

  1. 热点形成:一个组件排出的废气会提高附近硬件的温度,导致热节流和性能降低。.
  2. 设计缺乏灵活性:处理器和散热器必须靠近出风口,限制了电路板布局和硬件定制。.
  3. 能源浪费:为了维持 21-24°C 的最佳运行温度范围,风扇和 CRAC 设备需要加班加点工作,从而增加了能源成本和 PUE 分数。 .

即使对空气冷却进行逐步升级,也无法从根本上解决问题:空气的传热系数低、比热容小,因此无法很好地散发现代 GPU 和人工智能芯片的高热量。液冷技术可以解决这些问题,它以传热效率高 50-100 倍的高性能冷却剂取代空气,重新定义了数据中心的密度和效率。.

液体冷却为数据中心带来无与伦比的优势

液冷技术在性能、成本和可持续性方面的变革性优势,直接解决了现代数据中心运行的最大痛点,推动了向液冷技术的转变:

1.指数密度和可扩展性

液体冷却可释放空气冷却无法达到的服务器密度:D2C 系统支持每个机架 20-85kW 的功率,而浸入式冷却则可将每个机架的功率提升至 210kW 以上。这意味着数据中心可以在相同的物理空间内容纳更多的计算能力,从而降低房地产成本,实现超大规模的人工智能集群(10,000 个以上 GPU),而无需大规模扩建设施。.

2.显著节约能源和降低 PUE

与风冷相比,液冷可减少 40-90% 的冷却能耗,将 PUE 分数从 1.5-1.8 (风冷)降至 1.05-1.2(液冷)。对于一个 10 兆瓦的数据中心来说,这意味着每年可节省 **$ 120 多万度电**,对于具有高冷却负荷的人工智能数据中心来说,收益甚至更大。美国能源部已经认识到了这一潜力,拨款 $4000 万美元资助创新液体冷却研究和部署。.

3.延长硬件寿命,提高可靠性

风冷会使硬件受到灰尘、振动和温度波动的影响,所有这些都会缩短组件的使用寿命。液体冷却消除了风扇(常见故障点),并保持接近等温的工作温度(±2°C),将 CPU/GPU 的损耗降低达 50%。浸入式系统还能密封硬件,防止灰尘和湿气进入,从而将服务器故障率降低 90%,最大限度地减少计划外停机时间。.

4.提高性能和消除热节流

当温度超过 85°C 时,现代 GPU(例如英伟达™(NVIDIA®)H100、GB200)的性能会受到影响--在高密度部署中,空气冷却很难避免这一问题。液体冷却可将芯片温度稳定在 40-60°C 之间,从而提高 30% 的有效计算性能,并为人工智能培训和 HPC 工作负载提供稳定的超频。在实际应用中,这意味着 3 台液冷服务器可提供与 5 台风冷服务器相同的性能,从而最大限度地提高计算硬件的投资回报率。 .

5.可持续发展与净零排放

数据中心的用电量约占全球总用电量的 2%,因此可持续发展已不再是 "可有可无",而是企业的当务之急。液体冷却通过减少能源消耗来降低碳足迹,而且许多系统都能实现余热回收:温热的冷却液(40-50°C)可重新用于加热办公楼、工业设施甚至住宅区--使数据中心从能源消耗者变为能源贡献者。使用硅基流体进行浸入式冷却还具有循环经济优势:流体可持续使用 5 年以上,只需极少量的补充,而且完全可回收利用。.

数据中心的液体冷却

真实世界的液体冷却成功案例

用于数据中心的液体冷却不再是理论上的技术--它已在全球超大规模、人工智能和政府数据中心中部署,并取得了公认的成果:

  • 贵州国家计算中心(中国):东数据西计算 “旗舰项目,采用矿物油介质喷雾浸入式冷却。该设施的 PUE <1.1,能耗比空气冷却低 40%,有效计算性能提高 30%--216 个机柜支持每个机架 12-24kW 的功率,2 年内无计划外停机。.
  • 英伟达 GB200 AI 集群: 超大规模数据中心为 NVIDIA 1000W+ GB200 Grace Blackwell 超级芯片 NVIDIA 部署单相直接到芯片 (D2C) 液态冷却。高性能冷板采用优化的热接口材料,可针对芯片热点实现无热节流的 8 GPU 节点和稳定的 FP8 计算性能
  • 美国能源部超级计算机:联邦研究实验室为超大规模超级计算机采用两相浸入式冷却,PUE 分数达到 1.06,与风冷系统相比,能耗减少了 70%,符合能源部到 2030 年实现净零能耗的目标。.

液体冷却系统的关键部件

数据中心的液体冷却依赖于一系列精心设计的组件,这些组件协同工作,提供高效、可靠的热传递。每个部件都经过优化,以实现最低的能耗和最高的热性能--以下是核心部件及其作用:

  1. 冷板:这些铜/铝板是 D2C 系统的核心,具有用于冷却剂流动的微通道或微射流,直接安装在带 TIM(热阻 <0.1℃-cm²/W)的芯片上。 .
  2. 绝缘液:用于浸入式系统的非导电冷却液--硅基、矿物油或碳氟化合物液体,可防止电气短路和腐蚀,同时提供高热容量。 .
  3. 冷却液分配单元(CDU):单相液冷系统的核心枢纽,可调节冷却液的温度、流量与压力,并将热量传递至二次冷却回路(如干冷器、冷却塔)。
  4. 集流管与快速接头:作为冷却液分配枢纽,保障冷却液均匀输送至冷板,搭配快速断开接头,便于硬件的维护与更换。
  5. 冷凝器/热交换器:在两相系统中将蒸汽转化为液体(冷凝器),或将热量从冷却剂转移到环境空气/水中(热交换器)--无需使用能源密集型冷却器。.
  6. 水泵:对于单相 D2C 和浸入式系统,低功率泵可循环冷却液,其现代设计使用的能量仅为空气冷却风扇的一小部分。.

如何在数据中心采用液体冷却技术s

数据中心采用液体冷却并非一步到位,需要根据功率密度、预算和基础设施进行仔细规划。请遵循以下关键步骤,以确保成功部署:

  1. 评估您的制冷需求:计算当前和未来的功率密度(每个机架千瓦)并确定热点--这将决定 D2C、浸入式或混合式冷却是否最合适。.
  2. 评估基础设施的兼容性:对于改造,请检查现有机架/机柜是否支持冷板或浸入式水箱(大多数标准机架都有模块化套件)。对于新建项目,从一开始就围绕液体冷却设计基础设施,以最大限度地提高效率。.
  3. 选择正确的冷却液:根据技术(D2C 用水/乙二醇,浸入式用硅/碳氟化合物)和可持续发展目标选择冷却剂--优先选择无毒、可回收、使用寿命长的冷却剂。.
  4. 与专业供应商合作:液体冷却需要工程方面的专业知识--与提供端到端解决方案(设计、部署、维护)并拥有成功部署数据中心记录的供应商合作。.
  5. 试点先行:在全面推广之前,部署一个小型液体冷却集群(1-10 个机架)来测试性能、效率和维护 - 这将及早发现和解决问题。.
  6. 优化 PUE 和余热:设计系统时应尽量减少能源消耗(例如,使用干式冷却器而不是冷却器),并在可能的情况下集成废热回收功能,从而最大限度地降低成本,实现可持续发展的效益。.
数据中心的液体冷却

数据中心的液体冷却 是下一代高性能、可持续计算的基石。它从根本上解决了人工智能和高密度计算的发热危机,释放了可扩展性,降低了能源成本,延长了硬件寿命,同时使数据中心与全球净零目标保持一致。空气冷却永远不会完全消失,但对于任何希望支持人工智能、高性能计算或未来基础设施的数据中心来说,液体冷却是唯一能实现性能、成本和可持续性的选择。.

关于作者

加文

Gavin 是一家专门从事数据中心配套设备的公司的运营经理。他精通数据中心专用不间断电源、精密空调和数据中心解决方案。他可以帮助您更好地了解这些产品以及如何选择不同的解决方案。.

相关帖子