原创炸了！DeepSeek 给大模型装 “记忆外挂”，新论文剧透下一代模型_科技动态

创始人

2026-01-15 16:20:34

0次

节前大家都在忙着冲业绩，AI圈却被DeepSeek搞出的大新闻炸了锅。你有没有想过，为啥大模型记个固定名词都要费半天劲？

这次梁文锋带着北大团队甩出的“记忆外挂”，或许能彻底改变这一现状。

他们发布的新论文提出了“条件记忆”概念，推出的Engram记忆模块还开源了代码，直指下一代稀疏模型的核心。

1月14日的报道显示，DeepSeek元旦刚发布过模型稳定性论文，这次高密度技术输出并非凑KPI，而是在为下一代模型蓄力。

同时，公司近期正在大量扩招核心岗位，校招社招同步开放，岗位覆盖北京、杭州两地，显然是在为新模型的落地储备力量。

大模型“记东西太笨”？反向操作搞“查表式记忆”

在搞懂这个新模块之前，咱们得先说说大模型的一个老毛病——记东西太笨。现在主流的Transformer架构，堪称“勤奋的笨蛋”，识别一个简单的实体都要耗费大量算力。

就拿“戴安娜王妃”这个称呼来说，模型要经过6层计算才能准确识别。

前几层还在纠结“威尔士是英国的一个地区”“威尔士王妃是个头衔”这些中间信息，最后才能拼凑出完整的概念。

这种把宝贵的推理算力浪费在“认单词”这种苦力活上的做法，早就该被优化了。

新京报1月13日的报道指出，这篇论文的核心就是瞄准了大模型的记忆力短板，把语言建模清晰拆成了“静态检索”和“动态推理”两种不同任务。

这篇论文由北大与DeepSeek联合完成，梁文锋是核心作者，他们给出的破局思路相当反常规——回归被时代遗忘的“老古董”N-gram方法，搞“条件记忆”。

简单说就是给大模型配一本“随身小字典”，专门存那些固定的实体名称和两三字短语。不管这本字典有多大，查找信息都是瞬间完成，速度快到可以忽略不计。

这个思路的关键，就是把静态知识的检索和动态的推理计算分离开来，不让两者互相拖累。

参数分配藏玄机，V4模型春节前要亮相？

论文最有意思的部分，是对“稀疏性分配问题”的系统研究。

团队做了个严格的实验：固定总参数量和每token的激活参数量，然后在MoE专家和Engram记忆之间重新分配“闲置参数”。

实验结果画出了一条清晰的U型曲线，彻底打破了“纯MoE最牛”的固有认知。当把20%-25%的稀疏参数预算分给Engram记忆，75%-80%留给MoE时，模型的验证集loss降到了最低点，也就是模型最聪明的状态。

在100亿参数规模下，这个最优配置比纯MoE的loss降低了0.0139，而且这个最优比例在不同计算预算下都很稳定。

按照这个最优配比，团队把Engram扩展到27B规模做验证，结果相当惊艳。和同规模的纯MoE模型比，知识密集型任务的提升在意料之中，MMLU提升3分，CMMLU提升4.0分，TriviaQA提升1.9分。

不止性能暴涨，还改写大模型“卷参数”规则

这次技术突破的直接结果相当明确：Engram-27B在多个任务上全面超越同规模纯MoE模型，扩展到40B规模后，大部分任务性能还在持续提升，训练后期损失仍在下降，说明记忆容量还有很大提升空间。

同时，长上下文处理能力大幅增强，推理成本却低到可以忽略不计。

更重要的是它带来的行业影响，直接终结了大模型“堆参数”的蛮荒时代。

长久以来，行业内似乎形成了“参数越大模型越牛”的误区，各大厂商纷纷比拼参数规模，导致显存成本高企。而DeepSeek用实验证明，“存算分离”才是下一代稀疏模型的关键。

36氪1月14日的报道分析指出，Engram解决了大模型“记不住、推理慢”的问题，而DeepSeek此前发布的mHC论文解决了“长不大、练不稳”的痛点，两者叠加正好构成了V4模型的核心架构。

这种算法层面的优化，比单纯买更多更贵的芯片更具战略意义，将对显存成本高企的行业形成降维打击。

这一技术还为大模型架构创新指明了新方向，把“硬件感知效率”确立为核心设计原则。

这种存储与计算解耦的思路，让海量参数表可以卸载到主机内存，不仅降低了硬件成本，还为多模态、万亿参数模型的研发铺了路。

中国团队在这个核心领域的突破，也重新定义了AI竞赛的规则。以往大家都在追随国外的技术路线，而这次DeepSeek提出的“条件记忆”，被团队明确称为“下一代稀疏模型不可或缺的建模原语”，相当于在国际AI竞赛中提出了自己的新赛道。

从技术辐射的角度看，这种“查表式记忆”的思路还能应用到更多AI领域。

只要是存在大量静态知识需要检索的场景，都能借鉴这种把静态任务和动态任务分离的思路，提升模型效率、降低成本。对于整个AI行业来说，这无疑是一次具有里程碑意义的技术突破。

DeepSeek这波操作，本质上是给大模型补了节“记忆力课”，把“死记硬背”的活儿外包出去，让模型能专心搞“逻辑思考”。

条件记忆已成下一代稀疏模型必备，Engram的开源也让全行业能共享这份技术红利。