如果您收到了一份精密制冷解决方案的报价,而规格表上只写着“CRAC机组”,请先别急着继续。您的 机房空调 无论采用的是机房级、机列级还是机架级制冷系统,其对能耗成本和系统可靠性的影响都远大于品牌或制冷量。如果选型不当,您可能会耗费数年时间去追查热点,或者为那些根本无法惠及服务器的制冷能力买单。.
本指南为您提供了一个切实可行、直截了当的决策框架,帮助您做出这一决定——该框架基于您机架的实际功率密度、机房布局限制以及业务增长趋势。.
功率密度 ——以每机架千瓦(kW)为单位——是选择冷却拓扑结构时最重要的单一变量。其他一切都取决于此。请在继续阅读前先计算出您的数值:将总IT功耗(kW)除以机房内的机架数量。.
核心问题:各类型的区别何在?
这三种方法都是让冷空气流经发热设备。区别在于 有多远 空气必须流动,以及它被精准地导向何处。.
室内降温
- 航空旅行: 房间内10至20多米
- 目标受众: 整个房间,而非特定的机架
- 最适合: ≤ 5 kW/机架的平均密度
- 主要风险: 高密度区域的热点
行内冷却
- 航空旅行: 0.5–2 米(从机架到设备)
- 目标受众: 每台设备配有一排机架
- 最适合: 每机架平均功率密度为5–20千瓦
- 主要风险: 需要管理和维护的单元更多
机架冷却
- 航空旅行: 厘米——机架内部
- 目标受众: 单机架,刀片级精度
- 最适合: > 15 千瓦/机架,最高 60 千瓦/机架
- 主要风险: 每机架的前期成本较高
房间制冷(CRAC/CRAH)——何时是最佳选择
数十年来,机房级计算机机房空调一直是行业的标准配置。一台落地式机房空调机组置于机房外围,将冷空气送入架空地板的空气静压箱,并从上方吸入暖回风。当环境条件符合其设计假设时,该系统运行效果极佳,且仍是操作最简便的系统。.
室内降温
机房制冷在传统的中低密度环境中表现优异,此类环境中的机架平均 每台1–5千瓦 — 这在通用服务器、存储阵列和混合网络设备中很常见。架空地板下的空间充当加压冷风供应源,而穿孔地板板则将气流导入冷通道。.
在以下情况下使用房间制冷:
- 您已经安装了架空地板(建议风道高度至少为 300 毫米)
- 您的平均机架密度一直保持在 低于 5 kW/机架
- 您的平面图在周边预留了安装CRAC机组的空间(通常需留出0.5–1.0米的间距)
- 您需要一个由中央统一管理的系统,且设备数量尽可能少
- 您的 IT 团队倾向于采用最简化的机房制冷基础设施
✅ 优势
- 最少的单位数量——更易于管理
- 经过验证且广为人知的技术
- 减少稀疏房间的资本成本
- 简单的 N+1 冗余设计
- 产品系列齐全——功率范围从 7.5 千瓦到 300 多千瓦
⚠️ 限制
- 机架功率超过 5 kW 时,热点现象在所难免
- 需要架空地板(增加成本和复杂性)
- 随着密度的增加,冷却效率会下降
- 冷空气与热空气混合后才进入服务器
- 单点故障影响整个房间
您正在管理一家中型企业的20个机架的机房。大多数机架安装的是1U/2U的戴尔或惠普服务器,每台平均功耗为2–3千瓦。您的架空地板深度为400毫米。 两台采用N+1配置的30千瓦CRAC机组足以轻松应对这一负载,且在无需重新评估拓扑结构的情况下,机房仍有扩展至25至30个机架的余量。.
如果您发现,尽管机柜空调(CRAC)运行正常,但某些机柜的温度却明显高于其他机柜,这通常表明您的设备密度已超出机房制冷系统能够均匀分配的范围。不要仅仅增加机柜空调的数量——请考虑是否应采取针对性的机柜内制冷作为下一步措施。.
行内冷却——当设备密度要求更高时
行间冷却技术是在服务器机架列之间直接安装专用冷却单元。与对整个机房进行温度调节不同,每个单元仅对两侧的机架进行冷却——这大大缩短了气流路径,从而提高了效率。 当平均机柜密度超过5千瓦,或者在密度混合的大型机房内设有高密度区域时,这便是最佳解决方案。.
行内冷却
行内式机组通常与标准19英寸机架(600毫米)宽度相同,占地面积为一个机架单元。 它们将冷空气水平送入冷通道,而来自热通道的回风则直接流回机组——无需经过漫长的地面路径,也不会发生气流混合。这种闭环气流模式相比房间级制冷,能为您提供更精准的控制。.
在以下情况下使用行间冷却:
- 平均机架密度在 5–20 千瓦/机架 范围
- 您没有架空地板,或者您的风道层太浅(< 250 毫米)
- 您正在部署刀片服务器、超融合节点或高核心数 CPU 集群
- 您需要在不翻新整个房间的情况下,为特定区域增加制冷能力
- 您的数据中心需要在不进行全面重新设计的情况下,支持未来密度提升的需求
✅ 优势
- 无需架空地板——节省成本
- 50%+ 风扇节能效果与房间制冷效果对比
- 故障隔离——单个单元故障 = 仅影响一行
- 随着机架的增加,系统可逐步扩展
- 适用于热通道/冷通道封闭系统
⚠️ 限制
- 设备数量越多,维护环节就越多
- 每台设备都需要自来水或直接膨胀(DX)制冷剂连接
- 占用地面/机架空间(通常为1–2个机架单位)
- 与低密度环境下的房间制冷相比,总安装成本更高
您正在通过一个由10个机架组成的高性能计算集群来扩建数据中心。这些机架的平均功耗为12千瓦——远超现有外围CRAC机组的本地处理能力。 您为每两台高性能计算机架安装一台机架内冷却单元,从而形成一个独立的冷却区域,该区域不会影响(也不依赖于)机房其余部分的热管理。.
机架冷却——高密度解决方案
机架级制冷将制冷单元安装在机架内部或紧邻其后方(后门换热器)。 气流路径以厘米为单位,而非米。对于单个42U机架内功率输出达20–60 kW的人工智能训练节点、高密度刀片机箱或GPU集群而言,这是唯一可行的方案。.
机架冷却
最常见的机架级方法是 后门换热器 (RDHx) — 一种水冷门,用于替换标准的后部机架门,并在排气通过时吸收热量。许多设计中无需风扇;服务器自身的风扇即可将空气推过热交换器。对于更高密度的配置,直接液冷回路可将冷却液直接输送至 CPU 和 GPU。.
在以下情况下使用机架冷却:
- 单个机架的功率超过 15–20 千瓦
- 您正在部署 AI 加速器(NVIDIA H100/H200、AMD MI300)或密集型 GPU 节点
- 您正在处理刀片服务器机箱(例如,84个刀片服务器机箱约消耗28千瓦)
- 您拥有一个托管环境,在该环境中您仅管理自己的机架
- 您房间的环境制冷系统无法升级,但您需要提高设备密度
✅ 优势
- 每机架最大支持 60 kW
- 彻底消除热废气(搭配 RDHx 使用)
- 热点风险最低——每机架独立冷却
- 适用于托管环境
- 减少或消除对房间级制冷的需求
⚠️ 限制
- 每机架最高前期成本
- 每个机架均需连接冷水或直接膨胀(DX)回路
- 泄露风险主要源于硬件——检测至关重要
- 随着规模的扩大,维护复杂性随之增加
- 在~12 kW/机架以下不具成本效益
您正在部署一个由 5 个机架组成的 AI 推理集群。每个机架配备 8 张 NVIDIA H100 GPU 及 NVL 机箱,稳态功耗为 22 kW(批量推理期间峰值可达 28 kW)。 在如此高的密度下,没有任何机房级或机列级系统能够切实有效地为这些机柜提供冷却。在每个机柜上安装由专用冷水回路供冷的后门换热器是唯一可行的解决方案——仅靠节省的风扇能耗,该方案即可在18个月内收回成本。.
决策流程图
请按顺序回答以下问题。第一个能得出明确结果的问题,其答案即为您的建议。.
🧭 您需要哪种计算机机房空调?
→ 是:使用机架冷却(RDHx 或直接液体冷却)。机房和机架内冷却单元无法可靠地处理此负载。.
→ 否:继续回答第2题。.
→ 是:使用机架内冷却。当平均每机架功耗超过 5 kW 时,机房级 CRAC 系统将难以应对热点问题。.
→ 否:继续回答第3题。.
→ 是:机房制冷(CRAC)是一个不错的选择。请确认平均功耗密度保持在5 kW/机架以下。.
→ 否:即使在较低密度的情况下,也应考虑采用行间冷却,因为这种方案无需架空地板。.
→ 是:采用混合方案——低密度区域保持房间制冷,高密度区域增设排式空调机组。无需重新设计整个房间。.
→ 否:在采取适当的冷热通道隔离措施的情况下,仅靠机房制冷通常就已足够。.
并排对比
| 系数 | 室内降温 | 行内冷却 | 机架冷却 |
|---|---|---|---|
| 理想密度范围 | 1–5 千瓦/机架 | 5–20 千瓦/机架 | 15–60 千瓦/机架 |
| 需要架空地板吗? | 首选 | 不需要 | 不需要 |
| 资本成本(每千瓦制冷量) | 低 | 中型 | 高 |
| 高密度环境下的能效 | 较差(>5 kW/机架) | 良好 | 优秀 |
| 风扇节能与房间 | 基线 | ~50% 节省 | 最高可节省 70% |
| 故障隔离 | 整个房间都受到了影响 | 影响一行 | 一个机架受影响 |
| 是逐步扩展的吗? | 有限公司 | 是的——按行计算 | 是的——按机架计算 |
| 在同一地点办公吗? | 很少 | 有时 | 是 |
| 维护的复杂性 | 低(数量较少) | 中型 | 高(每机架维护) |
| 最适合 AI / GPU 工作负载? | 没有 | 边缘(最高约20千瓦) | 是的——最高可达 60 千瓦 |
真正有效的混合方法
大多数实际数据中心都无法简单地归入某一类。好消息是:您无需为整个楼层选择单一类型。设计合理的混合式方案既能为标准机架提供机房级制冷的经济性,又能根据实际需求在特定位置提供行级或机架级制冷的精准性。.
模式 1:房间 + 行内(最常见)
保留现有的外围CRAC机组,以维持基准环境温度(约22–24 °C)。 随后在高密度机架集群旁部署机柜内空调机组。CRAC负责处理基础热负荷;机柜内空调机组则负责应对峰值热负荷。当团队在现有设施中增加超融合基础设施或新建HPC区域时,这是最常见的升级路径。.
模式 2:行内 + 机架(AI/GPU 实验室)
如果您的机房采用混合工作负载配置——部分机架为标准服务器,部分机架为高密度 GPU 节点——请对标准机架采用机架内冷却方案,并对 GPU 机架采用后门热交换器。这样既能避免将水路铺设到机房内每个机架所产生的成本,又能有效处理高密度硬件的散热需求。.
方案 3:房间制冷 + 空气隔离(经济型升级方案)
如果您的设备密度尚不足以支持采用机架内硬件,那么在现有机房制冷系统中增加热通道/冷通道封闭措施,可以显著延长该系统的使用寿命。 隔离措施可防止冷风与热回风混合,从而在不增加任何新制冷硬件的情况下,有效提升机柜冷却装置(CRAC)的可用容量达20–40%。.
在混合使用不同制冷类型时,请确保您的楼宇管理系统(BMS)将其作为统一的热力系统进行控制,而非作为独立的单元。制冷系统若缺乏协调,可能会导致各单元相互干扰,出现一个单元在制热而另一个却过度制冷的情况。在这种情况下,集中式控制器很快就能收回成本。.
3个应避免的选拔误区
错误 1:仅根据当前负载进行容量规划,而未考虑未来需求
这是最常见且代价最高的错误。您安装了一套按当前每机架平均3千瓦的功耗设计的机房制冷系统,两年后又新增了一排刀片服务器,导致平均功耗密度升至每机架8千瓦——结果您不得不靠便携式局部冷却器来应对热点问题。 请务必模拟未来三年的增长轨迹,并选择能够适应这种增长的拓扑结构,即使您在第一天并未部署所有硬件。.
错误 2:认为行内执行总体成本更高
行内散热的初期单价较高,但在密度超过 5 kW/机架时,其总体拥有成本(TCO)通常 较低 在5年的时间跨度内——因为风机节能效果会随时间推移而累积。在做出决策前,请进行总体拥有成本(TCO)的比较,而不仅仅是资本成本的比较。.
错误 3:忽视气流,直接着手硬件配置
在购买任何新的机房空调设备之前,请先对气流进行评估。机架上缺失的封板、阻塞穿孔地板的线缆束、冷热通道方向错误——这些问题可能导致30–50%的制冷效率低下。请先解决气流问题,然后再重新评估是否确实需要更多设备。.

















