华泰证券:DeepSeek有望加速模型训练与CUDA解耦
创始人
2025-02-22 00:20:31
0

财中社2月21日电华泰证券发表研究报告称:DeepSeek发布论文NSA(原生稀疏注意力,Native Sparse Attention),继续在Transformer架构的重要环节——Attention进行优化,不仅在效果上和传统的Full Attention可比/领先,而且在解码、前向/后向传播上有6-12x的速度提升。结合xAI发布的Grok-3来看,目前海外和国内在大模型迭代思路上采取的是不同的思想,海外虽也引入MoE路线降低训练成本,但总体仍以充足的算力优势,追求Top 1的极致模型性能;而国内则在算法和硬件上极致优化,重点以有限的算力搏得更高的性能,追求推理效率。认为,两者并不冲突,而是共同从训练和推理两方面带动算力整体需求的提升。

NSA:继续优化Transformer Attention,通过稀疏KV的方式提升效率

与DeepSeek V2/V3用MLA(Multi-head Latent Attention)优化方向类似,NSA依然是在优化Attention上下功夫,以减少Attention的复杂度。区别在于,MLA是把KVCache进行压缩,NSA是把KV进行了“三层级”划分,并从中有选择性的舍弃掉一部分,达到“稀疏”效果,提高效率。1)粗层级:做大规模压缩,例如8个KV压成1个;2)细层级:从粗层级中找到重要的部分,再细粒度的选择重要的KV,丢掉不重要的KV;3)小窗口层级:通过滑窗的形式,聚焦当下的局部上下文KV信息。这“三层级”算法融合后输出,得到最终的Attention结果。

软件优化叠加硬件优化,两手都要硬

NSA不仅优化软件算法,还优化了硬件Kernel,以配合NSA的稀疏Attention,实现更高效的软硬件编排。具体Kernel的优化方法是,按照分组注意力GQA(Grouped Query Attention),从HBM中加载Q(uery)到SRAM中,并在SRAM中计算Q(uery)K(ey)V(alue)注意力,然后将结果放回到HBM中。结合DeepSeek-V3来看,V3同样进行了计算通信重叠、内存占用等硬件优化,认为,未来国内对于LLM优化的相当一部分重点将在于硬件编排优化,本质是提高硬件的MFU(model FLOPS utilization)。

海外靠大算力突破边界,国内靠细优化提升效率

结合xAI发布的Grok-3,xAI已经将10万卡集群扩展到20万,确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek,10万卡vs万卡,Grok-3相比R1在某些测评集上提高了20%左右效果,是否有性价比?认为,这并不冲突。1)海外要的是技术路径领先和商业化闭源,只有靠堆算力才能试错,才能突破边界,才能保持领先。2)国内要的是在已知路径上实现最优解,用有限的卡实现更高的效率,“精耕细作”的软硬件优化是必修课。认为,这是国内外路径的选择问题,而整体看,训练/推理算力都是较为确定的增量。

DeepSeek有望加速模型训练与CUDA解耦

DeepSeek在V3中使用了相比CUDA更底层的PTX来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码,Triton的底层可调用CUDA,也可调用其他GPU语言,包括AMD的rocm以及国产算力芯片语言,如寒武纪的思元590芯片和海光信息的深算一号(DCU)内置的HYGONISA指令集。LLM的训练短期内虽未完全脱离CUDA生态,但DeepSeek NSA的推出使其初步呈现出与CUDA解耦的趋势,并为后续适配更多类型的算力芯片奠定基础。以异腾为代表的国产算力已经很好的适配了DeepSeek-R1等国产模型,并取得了高效推理的效果。认为,伴随海外算力的受限,针对国产算力的优化或将有持续进展,值得重视。

相关内容

热门资讯

我国今年预计完成314次载人深... 来源:央视新闻 今天(12月24日),中国科学院重大科技基础设施“载人潜水器与海上作业母船”用户委员...
克服运行中原子损耗限制——能自... 科技日报北京12月22日电 (记者张佳欣)就像传统计算机一样,量子计算机也会“出故障”。在运行过程中...
双向奔赴!DeepSeek官方... 一场“双向奔赴”正在DeepSeek与元宝之间发生。 12月24日,DeepSeek官方在小红书点赞...
第8分钟辅助挂!约局吧脚本透视... 第8分钟辅助挂!约局吧脚本透视开挂(透视)友友联盟免费辅助器(详细透视外开挂教程)1、金币登录送、破...
第一分钟辅助挂!丰城双剑辅助器... 第一分钟辅助挂!丰城双剑辅助器是真的吗(透视)皮皮衡阳字牌黑科技(详细透视外开挂教程);致您一封信;...
两分钟辅助挂!边锋干橙眼ios... 两分钟辅助挂!边锋干橙眼ios辅助(透视)八闽掌上十八卦脚本(详细透视外开挂教程)1、构建自己的微扑...
第三分钟辅助挂!八闽掌上辅助软... 第三分钟辅助挂!八闽掌上辅助软件免费下载(透视)老夫子拼十辅助(详细透视外开挂教程)1、金币登录送、...
第一分钟辅助挂!赖子三加一辅助... 第一分钟辅助挂!赖子三加一辅助(透视)起点休闲辅助(详细透视外开挂教程)是一款可以让一直输的玩家,快...
一分钟辅助挂!乐乐围棋入门脚本... 1、一分钟辅助挂!乐乐围棋入门脚本(透视)开心游戏辅助软件(详细透视外开挂教程);详细教程。2、乐乐...
五分钟辅助挂!决战手游辅助(透... 1、五分钟辅助挂!决战手游辅助(透视)佛手在线大菠萝辅助(详细透视外开挂教程);该软件可以轻松地帮助...