万卡集群+开放架构,scaleX加速国产算力崛起
创始人
2025-12-27 14:00:32
0

如今的中国,已经成为全球的AI创新高地。随着生成式AI蓬勃兴起,中国市场上已经涌现了数以百计的基础大模型、垂类大模型与智能体,并驱动科学智能、智能驾驶、具身智能等产业的高速发展。

AI算力,就是AI时代的基础底座。国家发布的《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》、《关于深入实施“人工智能+”行动的意见》等政策,均将AI算力列为智能经济基础支撑。

根据知名研究机构IDC预测,2020年到2028年,中国AI算力年均复合增长率高达46.2%,并在2028年达到2781EFLOPS惊人规模。

可是,AI算力在中国的发展也遇到了不小瓶颈。由于技术封锁等原因,在单卡算力方面,国内主流AI芯片与英伟达旗舰产品仍存在代差,如何破局?

前不久在江苏昆山举办的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光scaleX万卡超集群以真机形式首次公开亮相,也为中国AI算力行业提出了破局的方法,那就是开放的系统级创新。

系统级创新

在中科曙光看来,虽然国产单卡算力的性能还有差距,但是只要从Scale-up(纵向扩展)和Scale-out(横向扩展)两个维度做好拓展,整体的AI算力能够有前沿突破。这次发布的中科曙光scaleX万卡超集群,正是这个思路的集中体现。

先说Scale-up,这里的关键词就是“超节点”。它采用了全球首创单机柜级640卡超节点,将单机柜算力密度提升20倍,PUE值低至1.04。

再说Scale-out,关键在于“超集群”。中科曙光打造了scaleX万卡超集群,由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。而且,万卡并不是上限,超集群还能够轻松地拓展到10万卡以上。

这个总算力规模无疑是惊人的。要知道,目前国内三大电信运营商的智算规模也不过137.35EFlops。其中规模最大的中国移动,其总智算规模为61.35EFlops,平均到分布在全国的21个智算中心,单个智算中心的算力也不过2.9EFlops。

要把总算力规模“拉”起来,中科曙光scaleX万卡超集群就必须同时做好Scale-up和Scale-out。这个时候,由于两种扩展范式需要突破的技术瓶颈不尽相同,而且还相互制约,单点突破式的技术创新显然就不够用了,必须做到系统级创新。

在老冀看来,中科曙光scaleX万卡超集群的系统级创新主要体现在以下四个方面:

1.高密度机柜:一个单机柜级超节点,竟然“塞”下了640张AI加速卡,这也是业界最高的集成度。为了解决散热的难题,采用了“一拖二”模式,两个640卡单机柜在两边,中间则是同样业界领先的浸没相变液冷单元,能够为两侧的机柜提供最高1.7MW的散热能力。再加上高压直流供电等手段,使得PUE只有1.04,同样也在业界领先。

2.高速网络:我们知道,即使单个超节点的性能很强,如果超节点之间的连接速度跟不上,仍然会拖超集群的后腿。因此,中科曙光专门花了3年时间自研了原生RDMA高速网络ScaleFabric,它基于国内首款400G类InfiniBand架构网卡与交换芯片,可提供400Gb/s带宽和低于1微秒的端到端延迟,通信效率较传统IB提升2.33倍,成本降低30%。

老冀特意查了一下,英伟达即将在2027年发布的NVL576里程节点,InfiniBand带宽也才达到400Gb/s带宽。也就是说,在超节点连接方面,曙光已经实现了对英伟达的部分能力领先。

3.深度优化:为进一步打通数据流动瓶颈,中科曙光通过“超级隧道”与AI数据加速等设计,实现存、算、传的深度紧耦合与协同优化,从芯片级、系统级到应用级构建三级数据传输优化体系,高效应对万卡并发带来的极致读写与挑战挑战,显著提升高通量AI推理响应速度与结果精准度,并将AI加速卡的资源利用率提高55%。

这里老冀重点提一下中科曙光在存储领域的超强技术实力,做到了让存储深度介入AI业务流水线,把存储从仓库升级成“AI数据工厂”,不光存,还要算和加速,从而实现了整体加速。

4.智能调度:如此庞大的算力集群,如何才能管好?曙光又凸显了自己的软件实力,做到了“用AI来管AI算力”。曙光专门构建了超集群数字孪生与智能调度体系,实现运维全流程可视化与智能化,保障集群高达99.99%的可用性;智能调度引擎可高效管理万级节点、服务十万级用户,支持每秒万级作业的高并发调度,确保大规模AI业务稳定高效运行。

正是通过以下四个方面的系统级创新,曙光scaleX万卡超集群才得以实现技术的集大成,部分技术与能力已经超越英伟达一年多之后才发布的NVL576里程节点。

开放式创新

仅仅自己搞好创新就够了吗?当然不够。老冀发现,在中科曙光scaleX万卡超集群还充分体现了海纳百川、有容乃大的开放式创新。

中科曙光scaleX万卡超集群可支持多品牌加速卡以及主流计算生态,并实现400+主流大模型、世界模型等适配优化。

这里的关键,是中科曙光联合20多家AI产业链企业共同推出的“AI计算开放架构”,大家共享若干关键共性技术能力,依托系统工程思维推进智算集群创新。通过scaleX万卡超集群,AI企业可降低智算集群研发门槛,并从技术“单点突围”走向产业“生态共进”,将开放理念转化为可落地普惠算力。

老冀注意到,在HAIC2025上,还公布了AI计算开放架构联合实验室首批项目组协同创新计划,旨在汇聚顶尖力量,针对科学大模型、多元异构算力融合、统一基础软件栈、超大规模集群优化等共性关键技术开展联合攻关,将开放协作深入研发源头。

为了更好地实现协同创新,在AI计算开放架构联合实验室下面已经成立了一些专门的工作组,有针对性地研究芯片之间的互连、芯片底层软件之间的开放共享、互连网络等专门问题。可以预见的是,未来工作组的研究方向会越来越多,产业界形成的共识和成果也会越来越多。

中科曙光也非常清楚,发布万卡超集群不仅仅只是为了“秀肌肉”,更是为了让产业界把万卡超集群的强大算力用起来。为此,就需要敞开胸怀,开放合作。

未来,中科曙光scaleX万卡超集群的使用方式也是灵活多样。在实际应用中,大型企业和机构可以将其用于大模型训练、金融风控、地质能源勘探、科学智能等多元场景。

创新模式建繁荣生态

在芯片、模型、基础软件等核心技术自主创新突破的基础上,发展更大规模、更高效的智算集群,突破国内AI算力瓶颈,已经成为产业共识。在探索突破路线的过程中,目前国内形成了两种模式:

第一种是部分开放模式,底层硬件相对封闭,上层软件栈及应用可细分适配。少数头部企业发挥其垂直资源整合能力,解决底层的GPU紧耦合设计、异构芯片协同等核心技术,打造大规模算力集群,向上提供统一的接口规范。

第二种是完全开放模式,底层硬件层、AI软件栈层及AI应用层均可自定义适配,全AI产业链上下游的企业进行分工协作与跨层优化,形成开放繁荣的生态,吸引更多开发者参与,不断催生新的应用与服务。

以中科曙光为代表的部分国内企业,走的是完全开放的道路。在HAIC2025上发布的“众创”产品——中科曙光scaleX万卡超集群,以及众多合作伙伴的踊跃参与和积极奉献,无不凸显出完全开放模式的优点。

老冀认为,这两种模式均有其合理性。不过,完全开放模式能够建立更加繁荣的生态,从而让更多的用户和供应商受益,也更利于AI应用在神州大地的普及。老冀相信,假以时日,完全开放模式势必会取得更好更快的发展,并涌现出更多像中科曙光scaleX万卡超集群这样的重量级创新产品。

长风破浪会有时,直挂云帆济沧海,中国AI的历史时刻正在到来!

相关内容

热门资讯

黑科技ai挂(wpk ai辅助... 黑科技ai挂(wpk ai辅助)wpk被系统针对(WPk)好像真的是有挂(有挂秘笈)-哔哩哔哩1、构...
黑科技计算(wpk最新黑科技)... 黑科技计算(wpk最新黑科技)wpk德州透视辅助(wpK)竟然是真的有挂(有挂方式)-哔哩哔哩1、超...
黑科技插件(wpk ai辅助)... 黑科技插件(wpk ai辅助)wpk游戏是否有挂(wPk)其实存在有挂(有挂解密)-哔哩哔哩黑科技插...
黑科技讲解(wpk ai辅助)... 黑科技讲解(wpk ai辅助)wpk透明挂(wpK)总是有挂(有挂细节)-哔哩哔哩wpk透明挂软件透...
黑科技科技(wpk ai辅助)... 黑科技科技(wpk ai辅助)wpk辅助器是真是假(wPk)一直是真的有挂(果真有挂)-哔哩哔哩1、...
黑科技线上(wpk最新黑科技)... 黑科技线上(wpk最新黑科技)wpk科技是真的吗(wPk)本来是有挂(真是有挂)-哔哩哔哩一、wpk...
黑科技ai(wpk最新黑科技)... 黑科技ai(wpk最新黑科技)wpk发牌逻辑(WPk)竟然有挂(证实有挂)-哔哩哔哩;wpk最新黑科...
黑科技工具(wpk最新黑科技)... 黑科技工具(wpk最新黑科技)wpk德州扑克靠不靠谱(WpK)好像存在有挂(有挂解惑)-哔哩哔哩1、...
黑科技软件(wpk ai辅助)... 黑科技软件(wpk ai辅助)wpk透视外挂(WpK)真是是有挂(有挂辅助)-哔哩哔哩1、wpk透视...
黑科技插件(wpk ai辅助)... 黑科技插件(wpk ai辅助)wpk德州透视外挂(wPK)一贯真的是有挂(真是有挂)-哔哩哔哩1、w...