中国移动实现智算万卡池稳定运行新突破
创始人
2025-10-17 20:01:47
0

来源:人民邮电报

本报讯 近期,中国移动实现智算万卡池在长周期训练场景下持续稳定运行,将有效解决超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。

随着AI技术爆发式发展,大模型参数规模从百亿级向万亿级跃升,这对智算基础设施的算力密度、稳定性和协同效率提出前所未有的挑战。中国移动依托哈尔滨数据中心智算集群,主导构建全调度以太网(GSE)技术体系,研发慢卡慢网络风险识别、断点续训、AI运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术难题。在协同管理机制上,中国移动以“五个一”卓越运维体系为指导,通过多轮流程优化攻坚,将故障处理流程大幅压缩,实现客户需求“一点响应”的端到端闭环。

在关键技术突破层面,团队重点攻关三大核心难题。一是创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率;二是研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降50%;三是引入AI运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处理时长从数天级降至分钟级。训练任务使用1万余张NPU板卡,全程保持集群可用率、服务可用率达到三个九的超高稳定性,其中NPU故障占比、光链路故障率大幅降低,充分验证了技术方案的有效性。

在卓越运维能力方面,中国移动在黑龙江、广东打造了智算运维样板间,首创训推一体的智算统一运维体系,率先构建了覆盖应用、模型、算力全栈的智能运维能力,业界领先探索“应用—模型—算力”的最佳实践与黄金运维指标体系,依托AI技术实现分钟级智算业务故障智能处置修复和能效算效双优,支撑党政、金融、教育等十大行业应用,赋能智能制造等社会关键领域,支撑外部客户数百场智算样板间参观展示、近百次顶层规划和解决方案设计,创造超10亿元直接经济效益。

中国移动智算万卡池长稳训练时长的大幅度提升,标志着我国在超大规模智算集群管控领域已具备领先水平,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近100%,为AI技术工业化量产奠定基础。 (宜欣)

相关内容

热门资讯

科创001 | “算力上天”赛... 深圳商报·读创客户端首席记者 王海荣 6月29日,持续两天的2026全球数字经济大会首届全球太空算力...
分拆可灵再造一个新快手?程一笑... 可灵的表现,将是衡量程一笑时代快手的重要指标。 2026年智谱暴涨的市值,让很多互联网巨头陷入了尴尬...
华为Mate 40 Pro早期... IT之家 6 月 29 日消息,B站 UP 主 @才羽モモイMomoi 昨晚(6 月 28 日)发布...
甘肃工程咨询集团科学技术协会成... 新甘肃客户端讯(新甘肃客户端记者 李杨 万及敏)6月26日,甘肃工程咨询集团股份有限公司科学技术协会...
市政协召开“聚焦智慧场景应用 ... 6月29日,市政协召开“聚焦智慧场景应用 推进数字营口建设”专题协商会。市政协主席李红莉参加会议并讲...
大数据与AI如何真正进入医疗现... “在这里,医疗AI已不是概念,我看见AI进入真实诊疗流程。”6月29日,在复旦大学附属中山医院举行的...
AI算力建设提速拉动上游需求,... 来源:界面新闻 近日,香港科技园公司与商汤科技签署合作备忘录,围绕AI算力基础设施搭建、AI产业生态...
杨燕青:AI正在改写经济学底层... 来源:第一财经 经济学界必须重新评估传统的内生增长模型、劳动力市场出清机制以及现有的社会财富契约。 ...
原创 众... 众泰汽车,又有了新动静。 近日,印尼BPKN主席穆罕默德·穆夫提·穆巴拉克博士带队商务考察团,专程到...
存储三巨头合谋制造“内存末日”... 6月29日消息,据报道,三星、SK海力士和美光6月25日在美国加利福尼亚联邦法院被提起集体诉讼,被控...