业界关于AI基础设施的叙述变得非常可预测:AI驱动高密度计算,进而需要液体冷却。虽然这种逻辑很有冲击力,但这是一种大大简化的说法,忽略了运营现代数据中心的人们面临的实际日常现实。
评估散热环境
在承诺进行大规模改造或新建项目之前,你需要对不同冷却方法达到物理极限的位置进行现实检查。转向新架构不应该是追赶行业趋势,而是要将你的冷却策略与硬件的特定热量特征相匹配。
冷却策略的实际密度限制(每机架)和操作复杂性如下:
标准空气冷却(架空地板):5kW-15kW,复杂性低,主要限制是气流旁路和"热点"
隔离空气冷却(冷热通道):15kW-25kW,复杂性中等,主要限制是管理高速气流和风扇能耗
后门热交换器:20kW-50kW,复杂性中高,主要限制是将二次水循环集成到机房中
直接芯片液体冷却:50kW-120kW+,复杂性高,主要限制是管理冷却液化学成分和内部管道
浸没式冷却:100kW-200kW+,复杂性非常高,主要限制是专用机箱和复杂的维护程序
空气冷却的持久力
尽管有各种噪音,业界的很大一部分仍在使用空气冷却,这是有充分理由的。根据Uptime Institute最新的2025年全球数据中心调查,周边空气冷却仍然是超过70%运营商的主要方法。这不是因为行业"变化缓慢",而是因为空气是一个已知量。
如果你的机架密度徘徊在10kW到15kW之间,或者你正在管理传统改造项目,其中通过板材钻芯孔铺设管道是不可行的,空气冷却不仅仅是"还行",而是实用的:它是成熟的,备件在仓库里,你的技术人员确切知道它在停电时的表现。在数据中心世界里,"无聊"通常与可靠同义。
战略中间地带
有一个经常在炒作中被跳过的中间地带:由冷冻水基础设施支持的风冷IT。这为看到热负荷逐渐上升但还未准备好应对芯片级流体复杂性的设施搭建了桥梁。
后门热交换器等技术允许你将水保持在灰色空间(服务器机房外的设施基础设施区域)或机架后部,在热量到达机房之前就将其中和。这是在保持内部服务器组件干燥且便于服务团队操作的同时显著增加散热余量的方法。它与日趋成熟的能效标准保持一致,提供了无需完全架构改革就能提高效率的路径。
何时液体冷却成为正确工具
液体冷却应该被视为针对特定问题的有针对性解决方案,而不是时尚声明。转向直接芯片冷却或浸没式冷却通常由以下三个"物理墙"之一触发:
气流墙:当你确实无法通过机箱移动足够的空气来控制现代GPU的热设计功耗时。
风扇功率墙:当仅仅为了旋转服务器风扇所需的能量开始蚕食你的PUE和功率预算时。
空间墙:当你需要将10个机架的计算压缩到两个以节省昂贵的地板空间或光纤运行时。运营商很务实:他们采用液体冷却是因为芯片需要它,而不仅仅是为了在幻灯片上看起来环保。
"混合机房"难题
最难运行的环境不是100%液体冷却的设施,而是混合机房。这是我们大多数人在未来十年内的现实。
在混合机房中,一行可能依赖传统隔离和气流管理,而下一行依赖冷却液分配单元、歧管和快速断开连接器。这造成了巨大的运营税负。现在你有两种不同的维护节奏和两种不同的"爆炸半径"需要考虑。
如果风扇故障,服务器过热。如果CDU歧管故障,整个高密度集群可能会断电。管理这种差异是当今真正技能所在。
正常运行时间焦虑及其合理性
是时候停止将数据机房中的"对水的恐惧"视为某种非理性的老派恐惧症了。对于运营商来说,这种犹豫不是抵制变化,而是关于正常运行时间的责任。当你的工作取决于保持实时环境100%运行时,将流体引入机架感觉像是风险状况的根本转变。
泄漏检测、二次容器和流体化学不仅仅是管道问题,它们是风险管理。液体冷却采用的主要障碍不仅仅是成本,还包括缺乏标准化和对长期可靠性的担忧。在快速断开连接器像C13电源线一样标准化之前,这种焦虑是合理的。
人员而不仅仅是管道
最后,任何冷却转换都是劳动力转换。我们要求花费15年时间掌握气流和湿度图表的技术人员突然成为湿接头、乙二醇浓度和压力降的专家。如果你忽视人的因素,世界上最先进的液体冷却系统最终也会因为维护不当或误解警报而失败。成功的策略必须像重视硬件规格一样重视团队的准备情况。
结论:将架构与现实相匹配
行业不需要更多炒作,需要更好的判断。最明智的冷却策略不是在纸面上看起来最"面向未来"的策略,而是与你的实际工作负载、现有设施限制和你在现场拥有的团队相匹配的策略。在有效的地方使用空气冷却,使用冷冻空气作为桥梁,当物理学而不是营销告诉你是时候转向液体冷却时再转向。
本文表达的观点和意见仅代表作者个人,不一定代表其雇主的官方立场或政策。
Q&A
Q1:数据中心什么时候需要从空气冷却转向液体冷却?
A:通常由三个"物理墙"触发:气流墙(无法通过机箱移动足够空气控制GPU热设计功耗)、风扇功率墙(风扇能耗蚕食PUE和功率预算)、空间墙(需要压缩机架数量节省地板空间)。
Q2:为什么70%的数据中心运营商仍在使用空气冷却?
A:因为空气冷却是已知量,技术成熟,备件易得,技术人员熟悉其行为。对于10kW-15kW密度范围或传统改造项目,空气冷却不仅可行而且实用可靠。
Q3:混合机房运营有什么挑战?
A:混合机房是最难运行的环境,需要管理两种不同的维护节奏和"爆炸半径"。一行依赖传统气流管理,另一行依赖冷却液分配单元,造成巨大运营负担和不同的故障风险。