GPU集群最多能塞多少台服务器,这笔账得这么算

2026年01月21日/ 浏览 8

前两天跟一个做AI训练的朋友吃饭,他跟我抱怨说,花了大价钱租了个机房,结果发现根本塞不下预期的服务器数量。供应商当时拍着胸脯说"没问题",最后发现要么电不够,要么散热跟不上,要么网络架构压根撑不住。

这事儿其实特别典型。很多人一提到GPU集群规模,脑子里想的就是"我有多少预算能买多少卡"。但实际上,决定你最多能部署多少台GPU服务器的,压根不是钱的问题——是物理世界的硬约束。

今天咱们就掰开了揉碎了,把这个问题彻底说清楚。

一、先搞清楚一个核心概念:不是你想塞多少就能塞多少

很多技术文章上来就给你扔一堆公式,什么Fat-Tree网络拓扑、交换机端口数计算之类的。这些东西当然重要,但如果你不理解背后的逻辑,照着公式算出来的数字也是白搭。

真相是这样的:

你的GPU集群能装多少台服务器,取决于四个物理天花板,哪个先碰到哪个就是你的极限:

供电能力 - 机房能给你多少电散热能力 - 你能带走多少热量网络架构 - 你的网络拓扑能连接多少节点物理空间 - 机柜和机房面积

这四个里面,任何一个达到上限,你就塞不下了。而且最坑的是,往往不是某一个因素单独限制你,而是它们交织在一起,形成了一个复杂的约束系统。

二、第一道坎:供电能力——电从哪来?

算清楚你的"电账"

咱们先从最直接的说起:电。

现在主流的AI服务器,比如8卡A100或者H100的配置,单台服务器的功耗是多少?保守估计3-5kW。注意,这还只是GPU加CPU的功耗,还没算上内存、存储、网卡这些配件。

如果是更新的H100,单卡功耗700W,8卡就是5.6kW,再加上CPU、内存这些,整机功耗轻松飙到6-8kW

按这个算法,一个标准的42U机柜,如果你的单机柜供电能力是12kW(这已经算比较新的数据中心标准了),理论上最多也就能塞2台这样的GPU服务器

但这还不是全部。

​别忘了PUE这个吸血鬼

你以为给IT设备供12kW的电,机房总共就消耗12kW?图样图森破。

数据中心有个指标叫PUE(Power Usage Effectiveness),简单说就是:你给IT设备供1度电,整个数据中心实际要消耗多少度电。

传统风冷数据中心,PUE一般在1.5-1.9之间比较先进的液冷数据中心,能做到1.2-1.3极致优化的浸没式液冷,理论上能接近1.0

什么意思?假设你的IT设备消耗100kW,如果PUE是1.5,数据中心实际要消耗150kW——多出来的50kW全被空调、UPS、照明这些基础设施吃掉了。

所以你算服务器数量的时候,千万别只看IT功耗,得把PUE算进去

​实战案例:10万张H100卡需要多少电?

咱们来算笔实际的账。

假设你要搭建一个10万张H100的集群(对,就是那种搞大模型训练的顶级配置):

单卡H100功耗:700W10万卡GPU总功耗:70MW加上CPU、内存、网络等,IT设备总功耗约:150MW假设PUE为1.3,数据中心总功耗:195MW

195兆瓦是什么概念?一个中型火电站的发电量。这还只是持续运行的功耗,不算峰值。

按照美国的电价(工业用电约0.078美元/kWh),这个集群每年的电费就要1.24亿美元。人民币将近9个亿。

所以你看,电力供应这事儿,压根不是你想买多少设备就能解决的——你得先确认当地电网能不能给你供这么多电

三、第二道坎:散热能力——热量往哪散?

电能最终都会转化成热能。你消耗多少瓦的电,就得散掉多少瓦的热。

​风冷的物理极限

传统的风冷散热,理论上限是20-100W/(m²·K)。什么意思?就是你在单位面积上,单位温差下,最多能带走这么多热量。

但实际情况要糟糕得多。

高密度服务器的结构紧凑,可供风道设计的尺寸减小,空气侧的流场阻力随之增大,风机所能提供的风量由此减小。最终导致的结果就是:风冷在单机柜超过10kW的时候,基本就力不从心了

你想想,一个42U的机柜,塞满了发热的服务器,靠几个风扇和空调来降温,这不是强人所难吗?

​液冷:不是选择,是必须

当单机柜功率密度超过15kW的时候,液冷就不再是锦上添花,而是必选项了

液冷的换热能力比风冷高2个数量级。同样的温差下,液冷能带走的热量是风冷的100倍。

目前主流的液冷方案有两种:

冷板式液冷:在CPU、GPU上贴冷板,用液体循环带走热量。成本相对可控,技术成熟度高,单机柜可以支撑20-30kW浸没式液冷:把整个服务器泡在绝缘冷却液里。散热效率最高,单机柜可以支撑30kW以上,但冷却液成本高,维护复杂。

现在业界的趋势很明显:高密度GPU集群,不上液冷根本玩不转

​一个容易被忽略的细节

很多人只关注CPU和GPU的散热,但你别忘了,内存、SSD、网卡这些组件也在发热

尤其是高速内存,现在的DDR5内存,满载功耗能到每条20-30W。一个服务器插24条内存,光内存就要散500-600W的热。

所以你在规划散热的时候,千万别只盯着处理器,得把整机的热设计功耗(TDP)都算进去

四、第三道坎:网络架构——数据怎么跑?

好,假设电和散热都搞定了,接下来是网络。

很多人容易忽略这一点:GPU集群的性能瓶颈,往往不在计算,而在通信

​Fat-Tree网络拓扑的魔法数字

业界最常用的GPU集群网络架构是Fat-Tree无阻塞网络。这种架构的核心原则是:每个节点到任何其他节点的带宽都相同,不会因为跨交换机而降速。

但这种架构有个物理限制:集群规模取决于交换机的端口数

两层Fat-Tree网络(Leaf-Spine架构)为例:

假设交换机端口数为P最大GPU数量 = P² / 2

举个例子,如果你用的是40端口的交换机,最多能连:40² / 2 = 800张GPU卡

如果你要更大规模,就得上三层Fat-Tree网络(Leaf-Spine-Core架构):

假设交换机端口数为P最大GPU数量 = P³ / 4

用128端口的交换机,理论上能连:128³ / 4 = 524,288张GPU卡

但注意,这只是理论值。实际部署中,你还得考虑:

服务器内部GPU的连接方式(比如NVLink)不同服务器的GPU编号对应关系(同编号的卡应该连到同一台Leaf交换机)交换机之间的线缆长度和信号衰减

​一个反常识的设计原则

对于GPU服务器内没有卡间高速互联解决方案的,要尽量将一台服务器内的GPU卡连接到同一台Leaf交换机上,以便避开跨NUMA通信。

但是,如果服务器内部有NVLink或者NVSwitch,情况就完全相反了——同一台服务器中的GPU卡不应该连接到相同的Leaf交换机上

为什么?因为服务器内部的卡间通信已经通过高速互联解决了,不需要走外部网络。这时候你应该把带宽留给跨服务器的通信。

这种反常识的设计,很多人都会踩坑。

五、第四道坎:物理空间——机柜放哪儿?

最后一个因素,也是最容易被低估的:物理空间

​单栋数据中心的极限

现在的数据中心,单机柜功率密度越来越高。但这带来一个问题:单栋建筑能承受的总功率是有上限的

一般来说,单栋数据中心楼的供电能力在10-30MW之间。再往上,不仅电力改造成本暴涨,消防、结构安全这些问题也会接踵而至。

所以,10万GPU集群通常需要分布在整个园区中,而非单座大楼。

​机柜布局的艺术

机柜的摆放也有讲究。你不能把所有高功率密度的机柜都堆在一起,否则局部过热,空调再强也压不住。

在满足系统功能的前提下,尽可能将能耗高的设备和能耗低的设备、密度高的设备和密度低的设备组合搭配。

比如,你可以把GPU服务器和网络设备、存储设备混合部署,这样既能充分利用机柜空间,又能平衡热量分布。

还有一个技巧:靠近制冷设备的位置,可以放功率密度更高的设备。这样冷风路径短,散热效率高。

六、综合计算:给你一个实战公式

好了,前面讲了这么多理论,现在咱们来点实际的。

假设你要规划一个GPU集群,怎么算最多能部署多少台服务器?

步骤1:确定单台服务器的功耗

GPU功耗(以H100为例):700W × 8卡 = 5.6kWCPU功耗(双路高性能CPU):2 × 250W = 0.5kW内存、存储、网卡等:0.5kW单台服务器总功耗:约6.5-7kW

步骤2:计算机柜能装几台服务器

假设单机柜供电能力:15kW考虑80%的负载率(留20%余量):12kW可用每机柜最多:12kW / 7kW ≈ 1.7台,取整为1台

是的你没看错,在这种高功率配置下,一个机柜可能只能放1台GPU服务器

步骤3:计算总功耗和服务器数量

假设机房总供电能力:5MW假设PUE:1.3IT设备可用功率:5MW / 1.3 ≈ 3.85MW最多可部署服务器数量:3.85MW / 7kW ≈ 550台

步骤4:验证其他约束

散热验证:550台 × 7kW = 3.85MW热量,需要的制冷能力约5MW(考虑冷量冗余)网络验证:550台服务器,假设每台8卡,共4400张GPU卡如果用两层Fat-Tree,需要的交换机端口数:P² / 2 ≥ 4400,即P ≥ 94可以选用128端口交换机空间验证:550台服务器,假设每机柜1台,需要550个机柜按标准机房布局(冷热通道),约需要1500-2000平方米的机房面积

七、三个常见的坑,千万别踩

​坑1:只看平均功耗,不看峰值功耗

很多人规划的时候,按照服务器的平均功耗来算。但实际运行中,峰值功耗可能比平均值高15-20%

当处理器进入睿频模式时,它的瞬时功耗可能会超过TDP值,甚至高出数十瓦不等。

如果你按平均值规划,结果高峰期来了,要么触发断路器跳闸,要么功率限制导致性能下降。配电系统必须按峰值功耗设计

​坑2:忽略业务波动导致的负载不均

AI训练任务的特点是:计算密集的时候功耗飙升,闲置的时候功耗骤降

机房实际负载24小时内大部分时间在255-265kW之间,但负载在每日凌晨1点开始提升,2点左右达到峰值时较平均功率提升了约15kW。

如果你没有实时监控和动态调度,很可能出现局部过载的情况。一定要预留足够的余量,并且做好负载均衡

​坑3:被供应商的"理论值"忽悠

很多机房供应商会给你一个"理论最大容量",但实际上那是在理想条件下的数值

实际部署中,你得考虑:

线缆走线占用的空间(能减少10-15%的可用空间)维护通道的预留(不能把机柜塞满整个机房)设备的实际尺寸(有些GPU服务器比标准4U还要高)未来扩展的余量(不能一上来就满负荷运行)

实际可用容量往往只有理论值的70-80%

八、给你几个实用的建议

建议1:分阶段部署,逐步验证

别一上来就按最大规模部署。先上一个POC(概念验证),跑个几周到几个月,验证你的功耗、散热、网络各方面的假设

数据中心这玩意儿,纸面上算得再好,不如实际跑一跑。

建议2:预留至少20%的冗余

无论是供电、制冷还是网络,都要预留20-30%的余量

这不是浪费,这是保命的。设备老化、突发故障、业务增长,任何一个因素都可能让你的集群顶到天花板。

建议3:监控先行,数据说话

部署之前,先把监控系统搭起来。实时监测每个机柜的功耗、温度、网络流量。

很多问题都是数据先发现的。等你人工感知到的时候,可能已经晚了。

建议4:考虑液冷的长期ROI

液冷的初期投入确实比风冷高,但你算算长期的电费节省和性能提升,其实很划算。

冷板式液冷成本在7108元/kW,浸没式液冷成本在25000元/kW。看起来贵,但如果你的PUE能从1.5降到1.2,每年省下的电费可能几年就能回本

九、写在最后

计算GPU集群的最大服务器数量,本质上是在解一个多约束优化问题

你得同时满足供电、散热、网络、空间这四个维度的约束,哪个先到上限,哪个就是你的瓶颈。

而且更复杂的是,这些约束之间还会相互影响:

提高单机柜功率密度,可以节省空间,但散热压力更大上液冷可以提高散热能力,但初期投入和运维复杂度会增加增加网络层级可以扩大规模,但延迟和复杂度也会

#算力##RDMA##算力网##头条创作挑战赛##头条首发大赛##如何准确估算AI算力规模?#

picture loss