2026年01月21日/ 浏览 5
前言,GPU服务器的产品形态丰富,支持的卡数、卡的形态以及卡间通信速率也有不同,新手朋友在学习GPU服务器知识时经常会遇到芯片间互联技术的困惑,举个例子:为什么大规模集群训练都采用H100 SXM的八卡机?NVLink和标准PCIe差距有多大?CPU-CPU、CPU-GPU、GPU-GPU间的互联带宽是多少?有计算公式吗?今天一篇文章和大家讲清楚!
一、Intel的UPI、AMD的xGMI的CPU互联技术解析
CPU在服务器产品的数量通常是1颗、2颗、4颗或者8颗,在数量超过1颗时都需要采用互联技术实现多颗CPU间的通信,目前主流的CPU品牌为Intel和AMD,他们实现CPU芯片互联的技术也不相同。
1、Intel的CPU互联技术QPI或UPI
UPI即Intel的Ultra Path Interconnect,从2017年发布第一代至强可扩展处理器skylake开始把QPI升级为了UPI,UPI拥有更高的通信速率、效率、更低的功耗,2路或者多路CPU之间通过2根或者更多UPI总线互联。

每条UPI总线总带宽=每秒传输次数(即UPI频率)×每次传输的有效数据(即16bit/8=2Byte)×双向,QPI或UPI的带宽计算举例:
一条9.6GT/s的QPI的单向带宽:9.6GT/s*16bit/8=19.2GB/s,一条10.4GT/s的UPI的单向带宽:10.4GT/s*16bit/8=20.8GB/s,一条11.2GT/s的UPI的单向带宽:11.2GT/s*16bit/8=22.4GB/s,两颗icelake 处理器6348 三条UPI 的互联带宽为:
11.2GT/s*16bit/8*3*2=134.4GB/s,后面的3和2是指三条、双向。
2、Intel的多路CPU互联技术举例
我们知道Intel的服务器CPU通常支持双路、四路或八路扩展,以skylake为例图示如下:
3、AMD的CPU互联技术xGMI
虽然AMD给CPU互联链路起了个名字叫xGMI,但是并不是什么新的技术,而是基于标准的PCIe做的,每条xGMI对应16条PCIe的lane,是要占据CPU的PCIe资源的,通常xGMI是3条或者4条;如上图是AMD milan的GPU直通平台(CPU-GPU间无PCIe SW),因为中间通过三条xGMI,整机可提供128x2-(16x2x3)=160条PCIE lane,如果满配8张GPU占用了16x8=128条PCIe通道后,还剩32条PCIe Lane给其他IO部件使用(看懂的同学,帮忙给点个赞)。
二、CPU到GPU间的PCIe互联技术解析
服务器内部CPU到GPU间通信目前最主流的就是PCIe技术,也是最通用最主流的各类IO部件的互联技术。目前主流的PCIe4.0和5.0。
PCIe不同版本以及带宽情况如下:
三、GPU-GPU的典型互联方案NVLink等技术解析
Nvlink是英伟达私有的芯片互联技术,通常用于GPU之间或者GPU到CPU,Nv Switch是基于Nvlink技术的芯片或者类似交换机的设备,在主机内部NvSwitch是芯片,跨节点互联就是搭载Nv switch芯片的独立网络设备。历代Nvlink的版本和速率变化如下:
1、Nvlink和PCIe两种互联技术对比:
Nvidia GPU互联技术最新的是NVLink 5.0。与前代4.0相比通道数目不变,速率翻倍至1.8TB/s,PCIe目前最新的版本是Gen5,作为计算机当中最通用的互联技术,和Nvlink相比差距有多大呢?
PCIe 5.0x16的双向互联带宽计算分析:
1、每条链路单向32Gb/s,换算成大B需要除以8,为4GB/s2、双向是2倍关系,8GB/s3、总带宽:16x8=128GB/s与最新的NVLink5.0相比,来到了约14倍的差距;
2024年,Blackwell架构的B200正式发布,NVLink和NVSwitch芯片分别来到5.0和4.0的版本,单条链路速率翻倍来到单向50GB/s,数量还是18条,GPU间的互联带宽翻倍至1.8TB/s,8个GPU对应2个NVswitch芯片,每个NvSwitch芯片拥有72个NVLink5.0接口,每个GPU用9条NVLink和2个NVSwitch芯片互联,如下图所示:
2、包括Nvlink在内,AI芯片互联技术大致有6种类型,简单总结如下:
3、AMD的Infinity Fabric
八张AMD的MI300X OAM GPU卡通过8条PCIe 5.0x16的链路实现全互联。如下图所示卡到多卡是896GB/s,但是2张卡间依然是最高128GB/s
4、NVLink的挑战者Ualink概述
24年4月包括 AMD、英特尔、惠普企业(HPE)、博通以及思科、微软、谷歌以及 Meta等一众科技巨成立了新的行业组织 UALink(Ultra Accelerator Link),目的是通过开放标准对 Nvidia 进行反击,目前还是起步阶段。个人的总结,