原创 炸了!DeepSeek 给大模型装 “记忆外挂”,新论文剧透下一代模型
创始人
2026-01-15 16:20:34
0

节前大家都在忙着冲业绩,AI圈却被DeepSeek搞出的大新闻炸了锅。你有没有想过,为啥大模型记个固定名词都要费半天劲?

这次梁文锋带着北大团队甩出的“记忆外挂”,或许能彻底改变这一现状。

他们发布的新论文提出了“条件记忆”概念,推出的Engram记忆模块还开源了代码,直指下一代稀疏模型的核心。

1月14日的报道显示,DeepSeek元旦刚发布过模型稳定性论文,这次高密度技术输出并非凑KPI,而是在为下一代模型蓄力。

同时,公司近期正在大量扩招核心岗位,校招社招同步开放,岗位覆盖北京、杭州两地,显然是在为新模型的落地储备力量。

大模型“记东西太笨”?反向操作搞“查表式记忆”

在搞懂这个新模块之前,咱们得先说说大模型的一个老毛病——记东西太笨。现在主流的Transformer架构,堪称“勤奋的笨蛋”,识别一个简单的实体都要耗费大量算力。

就拿“戴安娜王妃”这个称呼来说,模型要经过6层计算才能准确识别。

前几层还在纠结“威尔士是英国的一个地区”“威尔士王妃是个头衔”这些中间信息,最后才能拼凑出完整的概念。

这种把宝贵的推理算力浪费在“认单词”这种苦力活上的做法,早就该被优化了。

新京报1月13日的报道指出,这篇论文的核心就是瞄准了大模型的记忆力短板,把语言建模清晰拆成了“静态检索”和“动态推理”两种不同任务。

这篇论文由北大与DeepSeek联合完成,梁文锋是核心作者,他们给出的破局思路相当反常规——回归被时代遗忘的“老古董”N-gram方法,搞“条件记忆”。

简单说就是给大模型配一本“随身小字典”,专门存那些固定的实体名称和两三字短语。不管这本字典有多大,查找信息都是瞬间完成,速度快到可以忽略不计。

这个思路的关键,就是把静态知识的检索和动态的推理计算分离开来,不让两者互相拖累。

参数分配藏玄机,V4模型春节前要亮相?

论文最有意思的部分,是对“稀疏性分配问题”的系统研究。

团队做了个严格的实验:固定总参数量和每token的激活参数量,然后在MoE专家和Engram记忆之间重新分配“闲置参数”。

实验结果画出了一条清晰的U型曲线,彻底打破了“纯MoE最牛”的固有认知。当把20%-25%的稀疏参数预算分给Engram记忆,75%-80%留给MoE时,模型的验证集loss降到了最低点,也就是模型最聪明的状态。

在100亿参数规模下,这个最优配置比纯MoE的loss降低了0.0139,而且这个最优比例在不同计算预算下都很稳定。

按照这个最优配比,团队把Engram扩展到27B规模做验证,结果相当惊艳。和同规模的纯MoE模型比,知识密集型任务的提升在意料之中,MMLU提升3分,CMMLU提升4.0分,TriviaQA提升1.9分。

不止性能暴涨,还改写大模型“卷参数”规则

这次技术突破的直接结果相当明确:Engram-27B在多个任务上全面超越同规模纯MoE模型,扩展到40B规模后,大部分任务性能还在持续提升,训练后期损失仍在下降,说明记忆容量还有很大提升空间。

同时,长上下文处理能力大幅增强,推理成本却低到可以忽略不计。

更重要的是它带来的行业影响,直接终结了大模型“堆参数”的蛮荒时代。

长久以来,行业内似乎形成了“参数越大模型越牛”的误区,各大厂商纷纷比拼参数规模,导致显存成本高企。而DeepSeek用实验证明,“存算分离”才是下一代稀疏模型的关键。

36氪1月14日的报道分析指出,Engram解决了大模型“记不住、推理慢”的问题,而DeepSeek此前发布的mHC论文解决了“长不大、练不稳”的痛点,两者叠加正好构成了V4模型的核心架构。

这种算法层面的优化,比单纯买更多更贵的芯片更具战略意义,将对显存成本高企的行业形成降维打击。

这一技术还为大模型架构创新指明了新方向,把“硬件感知效率”确立为核心设计原则。

这种存储与计算解耦的思路,让海量参数表可以卸载到主机内存,不仅降低了硬件成本,还为多模态、万亿参数模型的研发铺了路。

中国团队在这个核心领域的突破,也重新定义了AI竞赛的规则。以往大家都在追随国外的技术路线,而这次DeepSeek提出的“条件记忆”,被团队明确称为“下一代稀疏模型不可或缺的建模原语”,相当于在国际AI竞赛中提出了自己的新赛道。

从技术辐射的角度看,这种“查表式记忆”的思路还能应用到更多AI领域。

只要是存在大量静态知识需要检索的场景,都能借鉴这种把静态任务和动态任务分离的思路,提升模型效率、降低成本。对于整个AI行业来说,这无疑是一次具有里程碑意义的技术突破。

DeepSeek这波操作,本质上是给大模型补了节“记忆力课”,把“死记硬背”的活儿外包出去,让模型能专心搞“逻辑思考”。

条件记忆已成下一代稀疏模型必备,Engram的开源也让全行业能共享这份技术红利。

相关内容

热门资讯

锂威能源取得电芯及电池专利提升... 国家知识产权局信息显示,浙江锂威能源科技有限公司取得一项名为“电芯以及电池”的专利,授权公告号CN2...
钟成明:从创投到科学仪器行业,... 在科技自立自强成为国家战略的当下,科学仪器行业正迎来前所未有的发展机遇。然而,这个行业技术壁垒高、研...
工商银行申请服务器机柜散热系统... 国家知识产权局信息显示,中国工商银行股份有限公司申请一项名为“一种服务器机柜散热系统”的专利,公开号...
南阳理工学院:一根活塞杆的“智... 在汽车减震器中,那根看似不起眼的细长活塞杆,如今正悄然转动着产业升级的“大效益”。南阳理工学院联合河...
王忠民:工业化时代资产配置逻辑... 来源:新浪证券 1月15日,2026全球与中国资本市场展望论坛举行,大咖云集,共话AI时代财富新逻辑...
购车新政落地!新能源车车龄满6... 各位车友们,如果你准备在2026年里去买一台新车,那么这次国家出台的购车新政策可就一定读懂了,下面就...
雷军:新一代小米SU7已到最后... IT之家 1 月 15 日消息,今天午间,小米创办人、董事长兼 CEO 雷军在微博发文称,新一代 S...
原创 炸... 节前大家都在忙着冲业绩,AI圈却被DeepSeek搞出的大新闻炸了锅。你有没有想过,为啥大模型记个固...
当人工智能走向实体空间 现代人工智能是先进计算的产物,也是赋能千行百业的技术。从早期符号主义在有限算力下的踯躅前行,到神经网...
AI陪伴时代来了,我们真的能信... 这是《麻省理工科技评论》2026 年“十大突破性技术”深度解读系列的第三篇内容,关注 DeepTec...