2026年01月23日/ 浏览 8
接前文《ODCC大会随笔:UALink,大家已经用脚来投票了?》
《数据中心液冷的痛点和挑战》
上周在ODCC 2025开放数据中心峰会展区,走马观花简单转了一圈。分享点照片加上自己的点评,主要是想给没来现场的朋友做点参考吧。
下面基本按照我行走路线的先后顺序(有微调),大致就是先看了GPU服务器,然后是AI超节点。
英业达的GPU服务器:透露B300 NVL

上面是Inventec的5U PCIe GPU机型(双宽8卡),实际上可以看到竖插的槽位是从PCIe 0-12,只有中间8个是双宽的,两边一共可以插5块单宽卡。另外在下方还可以扩展4个PCIe单宽卡(PCIe 14-17),如果算上右下角的OCP 3.0网卡槽位(PCIe 13),包含GPU在内最多可以插18块卡。
上方的存储盘位一共是8个2.5英寸,应该是U.2 NVMe吧。
机器背面我拍的照片有点糊,手机没拿稳:)
以上这款GPU服务器的型号是P5000G7,它支持的GPU不只是H200 NVL,还有RTX PRO 6000(D),以及尚未发布的B300 NVL?
传闻中将要接替H20的B30等2款GPU,其中有款PCIe形态的,之前听说是由RTX PRO 6000(D)精简而来。
传统定位高端(扩展性&性能)的8卡PCIe GPU服务器,需要配2颗PCIe Switch芯片,比如我在《DeepSeek时代:关于AI服务器的技术思考(PCIe篇)》中列出的下图,就是用的Broadcom 89144交换芯片。也有相对瘦身一些的机型,如《3U 8卡:对AI推理服务器意味着什么?》里面介绍的,可能换成较低端口数的PCIe Switch就够用。
PowerEdge XE7745架构图(经过我补充)
如果是不支持NVLink桥接板的RTX PRO 6000(D) GPU,NVIDIA准备了另外一种用CX8网卡的互连方案如下:
由于CX8内含48 lane的PCIe Switch,每个网卡可以同时连接CPU和2颗GPU。NV的野心有点大,想把网卡和PCIe Switch的活都干了,我还没算过经济账?不过没有NVLink,8颗GPU之间的互连,主要是靠网卡之间的网线了。
继续下一台:这看上去应该是2U双节点吧,每个节点支持8个E1.S SSD,以及2个全高PCIe扩展槽位。
从背面看也很像2U双节点。
不过Inventec现场机器上摆的展牌,则是另一款2U 1N服务器C805G7。跟前面的GPU机型都是采用第5代AMD EPYC CPU。
从顶上看这主板应该是早期的工程板,CPU Socket等只是摆个位置,不过从照片我隐约看到了“SP5”。
上面一看就是风冷GPU服务器吧。它的机箱上面放了2块展牌,我来对下号是哪一个。
作为ODM,同时为客户提供Intel和AMD CPU的GPU服务器选择是正常的,上面的P9000AG7与下面的P8000IG6都支持UBB2.0 GPU(8x OAM)。
AMD机型是10U的,3300W 54V电源支持5+1冗余,15个8086风扇给GPU散热;Intel则是8U的,3300W 54V电源支持4+2冗余,10个8086风扇给GPU散热。联想到NV自有品牌的HGX B200也是10U机箱,看来用风冷,较大机箱支持的GPU功率上限应该可以更高。
华勤的GPU服务器
华勤这款6U RTX PRO服务器也是支持8卡(双宽RTX PRO 6000等),不过如果配单宽PCIe卡的话,全高槽位一共是16+4,右边4个主要用于网卡吧。在右下角还能支持2个半高PCIe卡。
SSD盘位,我看到有10个U.2 NVMe。根据文字介绍,华勤这个机箱可提供Intel/AMD双平台。
黄色的存储盘托盘(Tray),大家想到哪家:)
上面这款8U高密度OAM/NVLink AI服务器SR810072,同样是多主板适配,号称双路Intel、AMD、国产平台,一机通吃。
我数了一下2.5英寸SSD盘位是18个。电源模块应该不只前面这2个,当天我在现场没顾上仔细看。
腾讯Smart Switch 3.0超融合网关
像腾讯这样体量的客户,早几年就展出过一些自研白盒交换机。我不是专门搞网络的,以前都不怎么细看,不过这次的超融合网关有些不同。
我看到有CPU板(采用AMD Bergamo,Zen 4c架构EPYC)、FPGA网卡、CX7 NIC卡和Switch板(博通TD5 MAC芯片),前面板带32个400G QSFP112接口。
锐捷超节点ETH 128:以太网Scale-Up
我们知道锐捷的优势是网络,具体到AI超节点中的应用,这里列出了TH5/TH Ultra芯片的以太网交换机)。
参考上面图表中的对比,NVL72互连的总差分对数量是5184,而ODCC定义的以太网则是10240。如果同样按照224G SerDes速率来看,ODCC以太网超节点的Scaleup总带宽可达NVL72的1.6倍。不过我之前听UALink联盟董事会代表、阿里云基础设施超高速互连负责人孔阳老师提到过,国内当前主流应用的SerDes速率还是112G,所以UALink联盟特别为此增加了128G UCIe PHY Chiplet的规范——把200G对应的Layer1以太网部分换成了PCIe G7。
扩展阅读《PCI Express 7.0 Base Specification分享 (v1.0正式版, 2276页)》
如有写得不准确之处,欢迎读者朋友们给我补充指正。
中兴正交互联AI超节点:使用下一代服务器CPU?
上图中有个简单的示意,搞网络的朋友可能对正交连接不陌生了,还有刀片服务器。
这就是垂直安装的网络(交换)模块。
中兴的Nebula X64超节点整机柜,支持的计算节点数量也是16个,每节点包含1个CPU+4个GPU。这里还提到每个CPU支持16个DDR5内存通道,当前的Xeon和EPYC最多都还是12通道,中兴这款服务器用的是下一代平台吧?
上图就是中兴的1U计算节点,从这个角度除了6个E1.S NVMe SSD盘位之外,也还看不出啥来。
我的学习笔记今天先整理到此,希望对大家有帮助:)
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文。感谢您的阅读和支持!