万卡集群网络选择题:为什么真正的RDMA无法被模拟?
创始人
2026-03-09 21:44:31
0

来源:快科技

随着AI大模型算力迎来“万卡”时代,计算集群从单系统纵向扩展架构转向涉及数万个互连节点的横向扩展架构,网络互联在性能高压下重拾“RDMA国产化”话题。

RDMA(Remote Direct Memory Access),译为“远程直接内存访问”,是一种高效的网络通信协议,它允许一台计算机的内存直接访问另外一台计算机的内存,而无需经过操作系统内核的介入,从而解放CPU工作压力,减少时延,提高数据传输速率和整体计算性能。

具体到网络协议层面,RDMA可细分为InfiniBand(IB)、RDMA over Converged Ethernet(RoCE)和Internet Wide Area RDMA Protocol(iWARP)三大路线。

目前,IB是业内公认的高性能计算系统顶配方案,但主要由Mellanox(以色列一家芯片制造商,现已被英伟达收购)主导,国内很难直接获取相关技术;RoCE被视为IB路线下的“次顶配”,国内大部分厂商正极力尝试基于RoCE实现IB网络性能,其核心网关芯片同样由博通等海外厂商主导;iWARP是基于TCP/IP协议的RDMA技术,性能最次,此处不做详解。

近年来,超大规模智算集群扩展需求爆发,以IB和RoCE为代表的两大主流网络技术路线,逐渐拉开性能差距。尤其面向万卡级计算系统高速互联场景,后者作为IB的“低成本替代品”面临的网络性能压力极大。尽管国内不乏RoCE大玩家,但却迟迟无法完全替代IB。

从技术特征来看,两大路线确实存在本质差异:

lInfiniBand:作为高性能计算的计算机网络通信标准,IB具有极高的吞吐量和极低的延迟,主要用于计算机与计算机之间的数据互连,服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连,是一种RDMA原生的网络协议。同时,IB网络需要通过专用硬件实现最优性能,但也由此带来较高的设备成本,且被英伟达等海外技术阵营长期垄断,堪称国产厂商的“白月光”。

lRoCE:作为一种“曲线救国”的折中方案,RoCE基于以太网链路层协议,v1版本网络层仍使用了IB规范,v2则使用了UDP+IP的网络层和传输层,使得数据包可以被路由。当然,RoCE也被认为是IB的“低成本解决方案”,可以将IB的报文封装成以太网包进行收发。而且RoCE v2可以使用以太网的交换设备,所以过去国内企业应用相对广泛,但是相同场景下对比IB性能损失明显,这也成为国产算力扩展难以言说的痛。

具体来看,RoCE与IB路线在带宽、延迟、流控机制、拥塞控制、组网规模等方面均存在差距。当万亿参数模型和万卡计算集群成为主流,这种性能差距几乎已经到了难以承受的地步。

带宽:目前市场上最新一代IB网络是NDR(400G),而国内RoCE网络最高仅有200G带宽的产品,两者之间已经拉开整整一个代差;

延迟:IB交换机可以做到无需存储收到即发,交换延时可达到100ns。RoCE交换机需要先存储再转发,交换延时需要300ns~500ns,在短消息传输场景中这种差距极为明显;

流控机制:IB网络采用的是基于信用(Credit-based)的流控方案,可以保证报文不会因为资源受限而被丢弃,实现了真正意义上的无损网络。RoCE网络是基于无损以太网暂停机制的PFC流控,该方案目前仍有较大的丢包风险,对于稳定性要求较高的训练任务很难接受;

拥塞控制:RoCE网络往往强烈依赖拥塞控制机制来避免丢包,厂商通常会要求用户必须开启拥塞控制功能,但是其拥塞控制算法需要水线的调整,与网络结构和应用流量模型紧密相关,非常依赖经验。IB网络由于良好的流控机制,拥塞控制并非必须开启,且IB的拥塞控制效果并不依赖于客户进行水线的调整,这使得IB网络系统的使用过程更为简单;

组网规模:目前IB网络可支持数万节点以上规模的组网,而且整机网络性能表现极佳,已经在头部市场受到广泛认可;RoCE网络在组网方面虽然也支持较大规模,因为其跨POD通信性能较差,厂商通常不会推荐进行跨POD进行通信,只适合于中小规模组网。

另外,在网络部署工作中,IB网络无需过多配置可以做到即插即用。RoCE则属于以太网络,其配置过程相对复杂,这也导致在运维成本方面,RoCE用户需要在运行中持续观察网络状态进行相应配置,IB网络则需要前期学会相关指令,在后续运行中基本避免了冗余配置工作。

伴随着超大规模智算集群建设步伐持续提速,网络互联性能已经成为大算力效能发挥的关键瓶颈。受制于RoCE与IB路线的种种差距,发展国产高性能RDMA技术呼声日渐高涨。尤其根据近期业内种种传闻,已经有头部计算厂商将目光投向原生无损的国产IB网络。

但值得注意的是,相较于国内市场应用广泛的RoCE方案,IB路线的国产化生态起步较晚。对部分用户来说,可能需要通过IPOIB功能运行基于IP协议的应用,局部场景性能表现或存在一定挑战。

当然,IB同样符合IBTA协议标准,而且协议生态更加开放,且兼容NV主流技术路线,其应用价值和前景毋庸置疑。

毕竟事实证明,真正的RDMA很难基于RoCE实现模拟平替,国内进军高性能原生IB路线,已成为跑赢万卡时代的一道战略隘口。

雄关漫道真如铁,而今迈步从头越。期待国产厂商能够真正打破封锁,补全中国AI计算产业链关键一环。

相关内容

热门资讯

必看攻略"雀神广东麻... 必看攻略"雀神广东麻将透视视频"开挂(透视)hhpoker为什么一直输(有挂方略);1、让任何用户在...
推荐十款"福建天天开... 推荐十款"福建天天开心攻略"开挂(透视)佛手在线大菠萝为什么都输(今日头条);福建天天开心攻略软件透...
科普常识"米娱gm游... 科普常识"米娱gm游戏辅助工具"开挂(透视)hhpoker是正品吗(有挂秘笈);一、米娱gm游戏辅助...
新手必备"多乐辅助&... 新手必备"多乐辅助"开挂(透视)pokerworld修改器(有挂教程);是一款可以让一直输的玩家,快...
科普分享"崇阳斗棋b... 科普分享"崇阳斗棋bug"开挂(透视)we-poker软件(今日头条);亲真的是有正版授权,小编(透...
一分钟了解"微信小程... 一分钟了解"微信小程序四川微乐脚本"开挂(透视)拱趴大菠萝自动计算机器人(有挂助手);是一款可以让一...
推荐一款"顺欣茶楼辅... 推荐一款"顺欣茶楼辅助视频"开挂(透视)hhpoker软件安装包(有挂教程);最新版2026是一款经...
透视好牌"顺欣茶楼辅... 透视好牌"顺欣茶楼辅助视频"开挂(透视)wepoker私人局可以透视(确实有挂);最新版2026是一...
一分钟了解"顺欣茶楼... 一分钟了解"顺欣茶楼智能辅助器"开挂(透视)uupoker有透视吗(有挂教学);中的10万兆豆可能无...
技术分享"丽水茶苑辅... 技术分享"丽水茶苑辅助"开挂(透视)htx矩阵wepoker辅助(有挂猫腻);相信小伙伴都知道这个丽...