“AI的落地速度,卡在了存储调度上?
在WAIC 2025世界人工智能大会上,一则不算喧哗却极具分量的技术发布引发了产业链的密切关注:中国移动联合曙光存储,正式启动“算力中心的全局统一文件存储产品落地应用”,即国内首个智能存力跨域调度平台的正式落地。
这个节点并非偶然。大会一边是“百模大战”、大模型“全面出海”,另一边却频现“卡顿与瓶颈”。
问题的根源,已经不仅仅是“算力不够”,更是“存力卡住算力”。
这是AI系统的隐形短板,也是决定大模型能否快速大规模落地的核心基础设施问题。而本次WAIC的发布,正是AI新基建路线图中,“存力”走向台前、跃升为战略资源的重要标志。
过去几年,AI系统基础设施的关键词几乎可以用四个字总结:“加卡扩机”。但随着大模型从单点训练迈向多模态、多中心、大规模迭代的新阶段,“只靠算力堆叠”的扩容方式正遭遇物理极限与结构性瓶颈。
很多行业早已发现,GPU再强,如果存力跟不上、数据进不来,那就只能“空转”。AI真正的性能,不再只取决于算多少,还要看数据流得有多快、能不能在恰当的时间调度到恰当的位置。
曙光存储副总裁张新凤指出:“GPU在等数据”,而不是“数据在等GPU”,已经成为大量AI集群运行时的普遍现象。初步测算表明:每增加1元的“存力”支出,可为AI系统节省10元的算力开销。
也就是说,存力不仅仅是配角,更有望成为AI基建体系中“最具性价比的变量”。
而且,在平台化演进中,存储资源正经历三大转变:
趋势一:资源碎片严重,调度智能化成必选项
AI训练数据的来源、格式和分布越来越复杂,尤其在政企、工业、科研等场景中,冷热数据交杂、结构化与非结构化并存,且常常分布在多地、多厂商的存储设备上,已无法高效完成统一供给。
这就对平台的“资源整合调度能力”提出全新要求:能否跨区域统一纳管?是否支持协议自动转换?数据调度是否具备智能化识别能力?这不仅影响训练能否完成,更决定AI的ROI能否跑得通。
趋势二:大模型对“数据流速”提出极致要求
在实际训练中,AI集群规模动辄成百上千张卡,如果存储系统性能不足,就会出现“GPU排队等数据”的尴尬局面。这个问题,不是“买更多硬盘”就能解决,而是取决于数据在集群中的传输效率、调度优先级与IO管控机制。
尤其在“东数西算”等工程背景下,数据流动从跨机房变成跨省级域,传统静态部署方式完全无法满足这种高频、弹性、低延迟的需求。
如曙光存储副总裁杨志雷所言:“AI的本质是‘数据驱动的计算’,很多时候,存力调度效率就等于模型训练效率。”
趋势三:从“买硬件”到“调资源”的服务化供给
越来越多的AI用户开始转向“平台即服务”模式使用存储。冷数据进入归档池、热数据驻留高性能节点、临时训练数据弹性调度,这些动作都需要存储系统具备资源感知+智能策略+成本控制的能力。
换句话说,未来的AI系统,必须有一个“智能数据中枢”,能够感知业务负载、动态规划带宽、甚至提前预测训练所需的数据路径与资源结构。
面对这种趋势,中国移动与曙光存储在WAIC 2025共同推出的“智能存力调度平台”,给出了业界第一个体系化实践范式。
这个平台,不只是技术组件拼装,而是一个覆盖全国、支持跨异构、多中心、高性能调度的数据中控系统。首批部署于长三角、成渝、内蒙古、贵州等国家级算力枢纽,覆盖7大存力资源池,支持8类主流AI芯片架构,并高度契合“东数西算”“全国算力一体化”国家战略。
曙光将其定义为“AI系统的智能神经网络”,并将调度能力拆解为四个核心能力模块:
核心能力一:全局统一调度 —— 打破资源孤岛
传统多地训练中心各自为政、存储分散,形成数据孤岛。而曙光平台可通过标准接口、统一协议适配层,将各地存储节点、不同品牌设备、异构系统统筹接入,实现跨域、跨池、跨平台的统一纳管与策略调度。
更关键的是,它还能根据业务特性做“带宽重排”,动态调整不同训练任务所需IO资源。
核心能力二:冷热数据智能分级 —— 提效降本,系统自驱
平台通过对数据访问频率与模型阶段的持续监控,自动判定哪些是“高频训练调用”,哪些是“历史归档”。再通过冷热分级策略,将热数据优先调度至近端高性能SSD节点,冷数据则迁移至远端成本更低的对象存储/归档池。
这不仅实现了训练提速30%+,还有效降低了企业的整体TCO。据介绍,某项目落地后,整体存储成本下降超过40%。
核心能力三:跨域无感流动,构筑“东数西算”真实底座
AI系统的跨区域训练越来越常态化,但数据的跨域传输过去常受限于带宽、延迟、业务中断等问题。智能存力调度平台通过自研的数据路径感知系统与并发链路机制,实现了数据在训练过程中的无感知迁移与实时带宽调度。
如某客户在华东部署推理业务,训练任务却可同步迁移至西部资源池,前台服务完全不受影响。这一能力,为“东数西算”提供了可靠的数据底座。
核心能力四:协同芯片层革新,让GPU不再空转
曙光存储基于超前技术预判,打造“超级隧道HyperTunnel”技术了,构建超低阻数据基础设施,支持具身智能加速升级算法,充分利用多模态大模型,开辟机器人“大脑”、“小脑”加速进化的新方法。
以具身智能训练为例,其以190GB/s带宽,500万 IOPS,使AI训练速度提升4倍,有效支撑智元机器人模型迭代。
需要指出的是,这个平台不是PPT,是已经跑起来的落地样板。
目前,平台调度技术已在多个高密度场景中完成部署并验证:
·自动驾驶: 为车企打造100PB训练资源池,训练效率提升超40%,模型迭代周期显著缩短;
·具身智能: 支撑智元机器人平台跨域高并发训练,提供500GB/s聚合带宽;
·科研与AIGC: 通过自研元数据系统支持千亿级小文件高效调度,提升渲染与科研数据处理效率数倍。
正如曙光存储副总裁杨志雷所言,这不是一个新产品,而是“会思考、能调度、能进化”的AI数据中控系统。
存储曾是系统中“沉默”的一环,如今已变为AI系统的数据起点与协同中枢。从“数据仓库”到“数据调度大脑”,存力平台正重构AI基础设施的逻辑。
那么,它有什么用呢?我们觉得,在以下方面将有重要价值:
一是降低门槛,让AI可被普惠。
传统AI部署动辄上亿,中小企业望而却步。曙光平台通过资源池化和服务化部署,支持“以租代建”“弹性调用”,用小得多的成本,即可用上高性能存力,大幅降低AI使用门槛。
二是提升效率,让AI落得更实。
针对多模态训练、高密度并发等典型场景,平台通过冷热智能分级、动态调度等机制,实现训练效率30%-50%提升,尤其在自动驾驶、医疗、智算教育等领域价值显著。
三是保障自主可控,夯实中国AI底座。
智能存力调度平台,全栈自研、兼容开放,应用的存储产品均处于全球第一梯队,为调度平台提供高性能底座。它不仅打破技术壁垒,更构建起面向未来的“AI粮仓”。
当大模型进入实际落地阶段,系统瓶颈早已从“算不动”转向“调不动”。谁能把资源存得下、调得顺、数据用得快,谁才有资格跑进AI的深水区。
从WAIC 2025可以看到,AI的下一个临界点,不在模型参数里,而在数据路径上。曙光存储正通过“智能存力调度平台”描绘出一条从“堆资源”到“调系统”的演进路线。
AI系统的“含智量”,终将由它背后的“存力地基”来决定。