华泰证券：DeepSeek有望加速模型训练与CUDA解耦_科技动态

华泰证券：DeepSeek有望加速模型训练与CUDA解耦

创始人

2025-02-22 00:20:31

0次

财中社2月21日电华泰证券发表研究报告称：DeepSeek发布论文NSA（原生稀疏注意力，Native Sparse Attention），继续在Transformer架构的重要环节——Attention进行优化，不仅在效果上和传统的Full Attention可比/领先，而且在解码、前向/后向传播上有6-12x的速度提升。结合xAI发布的Grok-3来看，目前海外和国内在大模型迭代思路上采取的是不同的思想，海外虽也引入MoE路线降低训练成本，但总体仍以充足的算力优势，追求Top 1的极致模型性能；而国内则在算法和硬件上极致优化，重点以有限的算力搏得更高的性能，追求推理效率。认为，两者并不冲突，而是共同从训练和推理两方面带动算力整体需求的提升。

NSA：继续优化Transformer Attention，通过稀疏KV的方式提升效率

与DeepSeek V2/V3用MLA（Multi-head Latent Attention）优化方向类似，NSA依然是在优化Attention上下功夫，以减少Attention的复杂度。区别在于，MLA是把KVCache进行压缩，NSA是把KV进行了“三层级”划分，并从中有选择性的舍弃掉一部分，达到“稀疏”效果，提高效率。1）粗层级：做大规模压缩，例如8个KV压成1个；2）细层级：从粗层级中找到重要的部分，再细粒度的选择重要的KV，丢掉不重要的KV；3）小窗口层级：通过滑窗的形式，聚焦当下的局部上下文KV信息。这“三层级”算法融合后输出，得到最终的Attention结果。

软件优化叠加硬件优化，两手都要硬

NSA不仅优化软件算法，还优化了硬件Kernel，以配合NSA的稀疏Attention，实现更高效的软硬件编排。具体Kernel的优化方法是，按照分组注意力GQA（Grouped Query Attention），从HBM中加载Q(uery)到SRAM中，并在SRAM中计算Q(uery)K(ey)V(alue)注意力，然后将结果放回到HBM中。结合DeepSeek-V3来看，V3同样进行了计算通信重叠、内存占用等硬件优化，认为，未来国内对于LLM优化的相当一部分重点将在于硬件编排优化，本质是提高硬件的MFU（model FLOPS utilization）。

海外靠大算力突破边界，国内靠细优化提升效率

结合xAI发布的Grok-3，xAI已经将10万卡集群扩展到20万，确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek，10万卡vs万卡，Grok-3相比R1在某些测评集上提高了20%左右效果，是否有性价比？认为，这并不冲突。1）海外要的是技术路径领先和商业化闭源，只有靠堆算力才能试错，才能突破边界，才能保持领先。2）国内要的是在已知路径上实现最优解，用有限的卡实现更高的效率，“精耕细作”的软硬件优化是必修课。认为，这是国内外路径的选择问题，而整体看，训练/推理算力都是较为确定的增量。

DeepSeek有望加速模型训练与CUDA解耦

DeepSeek在V3中使用了相比CUDA更底层的PTX来优化硬件算法，PTX是CUDA编译的中间代码，在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码，Triton的底层可调用CUDA，也可调用其他GPU语言，包括AMD的rocm以及国产算力芯片语言，如寒武纪的思元590芯片和海光信息的深算一号（DCU）内置的HYGONISA指令集。LLM的训练短期内虽未完全脱离CUDA生态，但DeepSeek NSA的推出使其初步呈现出与CUDA解耦的趋势，并为后续适配更多类型的算力芯片奠定基础。以异腾为代表的国产算力已经很好的适配了DeepSeek-R1等国产模型，并取得了高效推理的效果。认为，伴随海外算力的受限，针对国产算力的优化或将有持续进展，值得重视。

上一篇：国家公共数据资源登记平台3月上线

下一篇：上海宝山共筑可信数据生态，赋能产业创新发展

华泰证券：DeepSeek有望加速模型训练与CUDA解耦

相关内容

热门资讯