互联网大厂的高性能网络,简直卷上天了

2026年01月23日/ 浏览 6

你没想到吧,AI这波大浪,让沉寂许久的网络也跟着浪起来了,现在互联网大厂都在卷 HPN网络

所谓HPN,其实就是高性能网络(High Performance Network),对比HPC高性能计算,你从字面意思就能理解HPN想干啥。

大厂为什么要卷HPN?

首先,网工们熟悉的TCP,在GPU并行计算的世界里已经彻底被抛弃。

并行计算需要网络把分布式的内存、GPU显存也给并行起来,会丢包的传统以太网、能够自适应丢包传输的TCP统统都是不合格的。

必须是不丢包的、能够绕过内核冗长协议栈的才能把GPU昂贵的算力利用起来。

很凑巧, 最好的GPU最适配的网络竟然出自同一家,这样的网络就是IB。

[又是“那个男人”]

用IB很省事,只需要银子够就行,搞成N记全家桶,后面基本上啥事都不用管了。

可是这样一来, 网工的价值和尊严简直就是被按在地上摩擦,还不如当个采购去压价。

是可忍孰不可忍啊。

所以,大厂网工们首先嗅到了机会的味道,创造一个可以替代IB的命题,自己的价值不就出来了吗?

大家都希望给决策者们一个明确的信号,IB是可以被平替的,而且只是个工程问题。

当然,大厂决策者也不傻,不会光给试验场让网工刷存在感,毕竟IB是封闭的,价格又那么刀,自家牛马如果有实力搞平替,那么顺水推舟是明智之举。

一边是业务倒逼,一边是网工自驱,大厂HPN就这样卷起来了。

HPN的up与out之战

具体卷成什么样了呢?

目前的HPN,已经分化成了用于超节点互联的scale-up代替IB互联的scale-out

其实这也是N记定义并引领的↓

▋Scale-up网络

一机8卡的GPU内部nvl互联叫scale-up,从NVL72开始,又把nvl技术从机内拓展到机柜内,整机柜都用scale-up网络互联的GPU就是超节点superpod。

这个变化就像是网工们熟悉的盒式交换机和机框交换机一样,机框交换机那必定是交换机王冠上的明珠。

超节点对模型推理非常有帮助,因为内存语义通信的范围从8卡变成了几十上百卡嘛。

[国内外厂商的“超节点”们]

Scale-up中算力卡是内存出IO,因此scale-up基本上就是算力卡说了算,说到技术原理基本上是大同小异,都是在抄nvl的作业↓

①物理层

都是以太网的serdes,产业化最好,供应最好,开放程度最高;

②链路层

也用以太网的封装结构,这层和物理层耦合密切,自己搞一套和整个产业界对抗,是谁给你自信;

③网络层和和传输层

这里就有门道了,通常会有上下游credit分发和回收流控、固定信元长度、链路层重传之类的高级玩意儿。

目的就是高仿一个CPU无损访问内存(CPU访问内存如果异常,就是常见的蓝屏、夯机等致命故障)的网络,区别是各家都会有些实现上的细节差异;

④控制面

N家用的IB控制面,其余都是BGP这个最后的路由集大成者;

⑤标准和供应

UALink是一条路线,主要是N家的对手们在干。

大善人阿B,提供的SUE解决方案(提供网络,未来可能也提供算力卡IO)还能支持魔改;

菊花的UB,也开放了,国内外还有eth+和eth×开放体系……

百家争鸣吧,就看谁能先抢到一个有影响力的应用,然后扩大份额。

对强算力卡厂商而言,scale-up是不可商量的禁脔,是算力卡集群不可分割的一部分。

小算力卡厂商则身段柔软,无论是谁家的scale-up都能适配,也有自己的方案去小厂或者传统行业客户那里……

就像是路由收敛一样,最终的方案一定会收敛。

▋Scale-out网络

GPU通过pcie连接网卡,网卡再跑RDMA(不管IB还是RoCE),这种模式就是Scale-out。

两年前,Scale-out也是HPN领域的小甜甜,但自从超节点出来后,小甜甜就变成牛夫人

原因不只是技术,Scale-out火是因为scaling-law。

这个law让所有玩家都觉得只要能融资买足够大的GPU算力集群,训练出一个超级牛×的模型就能交差了。

但DeepSeek让这些law的信徒们有点失去信仰,道心破碎的业者们也被逼去做推理卖token,所以焦点就转移到Scale-up。

当然,真正有追求的大厂们必须要拥有自己的模型,这个是玩AI的底牌,自然也是要继续研究scale-out的。

同样的,Scale-out把N记作为抄作业对象就可以了↓

PCIe SW直接集成到网卡,GPU、CPU、NVMe都是挂在网卡上的,不需要看主板脸色了,也不用看CPU脸色了;

网卡直接支持多个网络接口,实现多平面,网卡可以在多个网络接口上实现动态LB,网卡对应用层只提供1个RDMA IP,屏蔽多个网络接口;

网卡接收上支持乱序,只要是多平面、多路径的,乱序是基操,当然借用一下iWarp的DDP也是很觉的,做工程架构嘛,本身就是找成熟的工艺组装的事情,并不丢人;

交换机支持逐包均匀地喷射在多个ECMP链路上,也可以按动态权重喷射;

新的协议栈都可带良好的CC,可以容忍丢包,可以抛弃缺陷明显的PFC,当然scale-out不丢包是更好了。

Scale-out也是各个大厂中非常热闹的话题,几乎都有自己的魔改版本RoCE,运行在自己的DPU或者智能网卡上。

这个作业抄的是Google的TPU和OCS系统,TPU自带DPU IO,OCS是纯光交换。

在这里就不评价各个大厂同行,谁家做得好谁家不好,因为我说好不好,一点也不客观,丝毫影响不了他们的绩效,同行的绩效而是靠战功↓

❶这个CC好厉害,有没有论文,有没有sigcomm

自己的CC算法,能不能运行在CX-7网卡上啊

能不能不用CX-7网卡,也能跑得和CX-7一样酣畅淋漓

能不能别老用实验室数据啊,现网有没有用起来

现网用的量怎么样,占比如何,头牌应用有没有主力用这个

头牌应用能不能打

自上至下,「战功」依次递增

从技术角度来看,Out和Up也有共同的地方↓

Lossy RDMA(允许网络丢包的RDMA),就是把烦人的PFC干掉,交换机顶多跑个ECN;

更有甚者,交换机啥都不跑,由端侧自己测量时延变化。

总之,CC和交换机无关,漂亮活儿都是端侧网卡的事情。

从无PFC、支持网络丢包这个技术点出发,设计这套CC的网工自然而然就想把scale-out网络和传统的dcn网络合并了,这个想法我放到最后一节了。

Scale-out在自带网络的强算力卡厂商那里,必然是卖方的囊中之物,大厂网工们只能去拿捏那些没有网络的小算力卡或者自研算力卡。

技术评价指标:

在一个常丢包网络,一个新的技术评价体系,在a%丢包率的网络中达到b%的传输效率,a+b越接近100,就说明这个魔改的RoCE协议栈更优秀。

Scale-out和机头网络能合并吗

Scale-out和机头dcn网络合并,这个天才般的想法现实中并没有真实地发生。

客观技术原因是scale-out所需要的带宽和收敛比和dcn带宽并不一致,如果dcn要硬做,变化带来的适配代价会远超收益。

但机头dcn网络也确实有rdma的需求:云存储和AI推理。

先说存储↓

宿主机提供一个云磁盘挂载到云主机或者容器,宿主机访问云存储集群是underlay。

underlay跑rdma就是干掉内核tcp栈的处理时延,收益非常明确,也是应用最早的rdma。

云主机或者容器访问云盘时是跑在overlay里,这就要求魔改的RoCE跑在Overlay里,这个是近期的热点,大厂最近喜欢在这里吹点nb。

再说AI推理↓

自从PD分离和AF分离被验证是有效的后,不同任务可以用不同的算力卡。

不同任务之间传递的的是KV,KV存储在调整存储集群如HDFS里,任务运行在容器里。

所以容器去访问HDFS的KV,天然就是overlay rdma场景,这也推动了dcn内rdma的普及。

dcn内的rdma将会是各路英雄们大秀身段的舞台,因为这里没有算力卡绑定,是网工们最稳定的基本盘。

现在明确的需求来了,就看自己能不能接住,并且率先拿到阶段性验证成果、扩大验证赢得内部赛马、外部PR同步跟上……

拜将封侯时不我待

HPN最初是从HPC的RDMA网络开始,进入大厂变成是IB和RoCE之争,随着NVL摆脱机框的束缚杀向机柜变成了scale-up网络。

原有的RDMA网络矮化成了scale-out网络,scale-out网络栈又入侵(赋能)了dcn,并在dcn领域得到了自由设计的机会。

也有网工想把这几种协议栈融合在一起的,还是看业务结果吧,路要一步一步走,贪天之功人尽想,眼前之福勿相忘。

我们可以把最终的评价标准撂在这面:老外讲de facto,老中讲成王败寇,其实就是看应用量:

①你出来的HPN在大厂内部的覆盖率怎么样,如果10%都不到,你觉得自己是头猛虎还是个小卡拉咪?

②什么模型训练或者推理跑在你的HPN上,是跑个自娱自乐的玩具,还是跑个日活上百万、千万、过亿的应用?

达不成这2个标准,无论你怎么吹我这技术体系这好那好,都是虚的。

关于作者

铁笼牛马,一个误入江湖20多年的老网工,在铁笼中享受着互联工业技术的变迁,为了让网工们也能获得这份“享受”,他决定写点什么。返回搜狐,查看更多

picture loss