新突破!国产算力成功完成万亿级大模型全参数训练
创始人
2026-06-09 15:33:47
0

6月9日消息,据媒体报道,日前,深圳河套学院AI训练平台项目团队联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS(全球技术服务)等多家单位,围绕国产算力大模型训练开展联合攻关。

仅用一个月时间,项目团队便基于昇腾910C国产算力集群,成功实现DeepSeek-V4-Pro的全参数续训练与SFT(监督微调)稳定运行。训练累计完成超过1500步,模型训练MFU(模型算力利用率)超过30%,关键训练算子效率提升约14%。

这是业界首次由第三方机构基于国产算力集群完成的DeepSeek-V4-Pro全参数后训练工程实践,标志着国产AI基础设施正从推理部署和轻量化微调迈向超大模型的全参数后训练新阶段。

DeepSeek-V4-Pro是一款拥有1.6万亿参数的MoE(混合专家)开源旗舰模型,采用了CSA+HCA混合稀疏注意力、mHC连接等创新机制。相比上一代DeepSeek-V3/R1,它对国产训练框架提出了全方位的“极限挑战”。

经过联合攻关,项目已在千卡级昇腾910C国产算力集群上实现了DeepSeek-V4-Pro全参数后训练的稳定运行。

模型迭代超过1500步,全程无迭代跳过或NaN异常。关键训练算子效率较初始版本提升约14%,最终MFU稳定达到34.9%,单步训练时间稳定在27秒。团队同步打通了DeepSeek‑V4‑Flash的全参数续训练与SFT完整链路。

本次成果并非单次演示,而是具备可复现、可工程化交付的万亿级MoE模型国产算力稳定训练能力。项目已完成工业级自动化运筹建模场景的闭环验证,证明国产算力能够在短周期、低成本下完成行业大模型的专项增强训练。

技术层面,项目实现了三大突破:一是成功构建了覆盖权重、梯度、激活、优化器状态的分布式承载方案,实现数据并行、张量并行、流水并行与专家并行的协同工作;二是优化了MoE路由与稀疏注意力算子,建立了专家负载均衡机制,有效缓解通信拥堵与负载失衡;三是构建了全指标可视化的长稳监控体系,在多日连续训练中未出现一次Loss失控或NaN值。

在能力验证环节,项目设计了一项“硬核”实验——增强大模型的数学建模能力。团队搭建了一条SFT建模数据生产工作流,产出3000条高质量数学建模任务SFT样本,覆盖4类目标任务与3种问题形态。

训练结果显示:模型LM Loss收敛至0.2056,MTP 1 Loss收敛至0.2538,梯度曲线平稳。Benchmark评测表明,模型四项核心指标全面提升,其中ORGEval WL提升超过5个百分点,复杂推理与建模能力显著增强。

【来源:快科技】

相关内容

热门资讯

行业龙头抱团布局太空光伏,光伏... 来源:界面新闻 一、事件简述 消息面上,随着两大太空能源联盟成立,部分被光伏龙头集体跨界航天领域,太...
CPO硅光全面量产,储能钠电规... 来源:界面新闻 一、消息面:算力基础设施与储能技术接连取得突破 6月2日,英伟达宣布Spectrum...
美方将阿里巴巴、比亚迪等列入“... 6月9日,外交部发言人林剑主持例行记者会。法新社记者提问,美方将几家中国企业,包括阿里巴巴、比亚迪等...
美媒:习惯可能“瞬间”养成? 美国“每日科技”网站6月4日文章,原题:令人惊讶的新研究挑战了一个百年的习惯形成理论人们常常认为,一...
iOS 27新增多项实用功能:... 【CNMO科技消息】当地时间6月8日,在WWDC 2026主题演讲中,苹果详细介绍了iOS 27的主...
宇树、云深处、乐聚竞速IPO,... 出品 | 搜狐科技 作者 | 梁昌均 具身智能上市潮正式揭开帷幕。 近日,宇树科技在科创板过会后迅速...
4000-5000元档手机怎么... 在4000到5000元这个价位段,如今能买到配置相当全面的旗舰级手机,无论是性能、影像、屏幕还是续航...
每日科普 | 手机外挂镜头是如... 在这个人人都是摄影师的时代,手机已经成为我们记录生活最常用的工具。然而,受限于机身厚度和内部空间,手...
深圳有“戏”|“叶师傅”常宏基... 深圳新闻网2026年6月8日讯(记者 张玲 翁任莹)当记忆可以存储、体验可以复制,什么才是生命不可替...
原创 1... 君君翻了翻最近后台的留言,好家伙,十个有八个在问:“小米是不是又要搞事情?”我一看还真是,这刚发完小...