颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍
创始人
2026-03-23 13:44:20
0

快科技3月22日消息,NVIDIA研究人员推出一项全新技术KVTC(KV快取转换编码),能把大型语言模型(LLM)追踪对话历史的内存用量,最高缩减20倍,而且不用修改模型本身。

这一突破有望解决大型语言模型长对话推理时的内存不够用问题,大大降低企业使用AI的硬件成本,同时还能把模型首次生成回应的时间,最高提速8倍。

简单来说,KVTC技术的核心就是压缩大型语言模型背后的KV缓存——它相当于AI模型的“短期记忆”。我们可以把KV缓存理解成学生记笔记:模型处理对话时,会把关键信息(也就是Key和Value)记下来,下次生成回应时,不用从头重新计算整段对话,响应速度就能大幅提升。

但问题是,对话越长,这份“笔记”就越大,甚至会膨胀到几个GB,占用大量GPU内存,反而拖慢模型运行、限制其处理能力。

NVIDIA资深深度学习工程师Adrian Lancucki表示:“大型语言模型进行推论时,性能瓶颈往往不在运算能力,而在GPU内存。”那些暂时不用的KV缓存,会一直占用宝贵的GPU资源,逼得系统只能把它们转移到CPU内存或硬盘里,这样不仅会增加数据传输的负担,还可能出现新的卡顿问题,这些额外成本最终也会体现在企业的使用费用中。

和现有压缩技术相比,KVTC没有那些明显的局限,它借鉴了我们熟悉的JPEG图片压缩思路,通过“主成分分析、自适应量化、熵编码”三个简单步骤,就能实现高效压缩。

更方便的是,这项技术不用改动模型的核心设置和代码,属于“非侵入式”设计,企业拿来就能快速部署。它的核心优势是,能抓住KV缓存“数据高度相关”的特点,在保留关键信息的同时,去掉冗余数据,而且解压时可以分块、逐层进行,不会影响模型实时回应。

多轮测试显示,KVTC的表现远超现有主流方法。在参数量从15亿到700亿的多种模型(包括Llama 3系列、R1-Qwen 2.5等)上,即便将内存压缩20倍,模型准确率也几乎不受影响,损失不到1%,与未压缩时相差无几;而传统压缩方法仅压缩5倍,就会出现明显的准确率下降。

另外,在H100 GPU上处理8000个Token的提示时,不使用KVTC需要3秒才能生成第一个回应,使用后仅需380毫秒,提速整整8倍。

需要注意的是,KVTC更适合长对话、多轮互动场景,比如编程助手、迭代式代理推理等,若对话较短,很难发挥其压缩价值。

目前,NVIDIA正计划将这项技术整合进Dynamo框架的KV块管理器,使其能与vLLM等主流开源推论引擎兼容。

业内人士认为,随着大型语言模型可处理的对话长度不断增加,KVTC这类标准化压缩技术,未来可能会像视频压缩一样普及,助力AI更广泛地落地应用。

相关内容

热门资讯

春江阀门以硬核技术赋能水利基建... 从跨区域引水的超级水利工程到城市水务的精细化管网,从核电装备的流体控制到海绵城市的智慧治水,每一项国...
拓朋A50P自组网对讲机,隧道... 在幽深曲折的隧道施工现场,安全与沟通是每位施工人员与管理者最为关心的两大要素。在这样一片封闭而充满挑...
荣耀YOYO Claw发布:2... 4月13日,荣耀在技术沟通会上抛出了自研终端侧龙虾AI智能体YOYO Claw,并宣布首发搭载于Ma...
多馆提前进入全民阅读周时间 社... 距4月23日“世界读书日”及《全民阅读促进条例》实施后的首个全民阅读周正式开启尚有两周,公共文化场馆...
透视教你!wepoker辅助脚... 透视教你!wepoker辅助脚本(透视)aapoker破解侠是真的吗,教程办法(真是有挂)-哔哩哔哩...
佛手大菠萝有挂吗!werpla... 佛手大菠萝有挂吗!werplan开挂(透视)神器-都是曝光是有挂所有人都在同一条线上,像星星一样排成...
透视解密!wepoker高级辅... 透视解密!wepoker高级辅助(透视)wepoker能不能透视,教程策略(有挂教学)-哔哩哔哩1、...
hhpoker辅助器!福建大菠... hhpoker辅助器!福建大菠萝万能辅助器(透视)方法-本来曝光真的是有挂福建大菠萝万能辅助器破解侠...
透视关于!wpk私人局辅助是真... 透视关于!wpk私人局辅助是真的吗(透视)wepoker辅助器安装包,教程诀窍(确实有挂)-哔哩哔哩...
德州局HHpoker透视脚本!... 德州局HHpoker透视脚本!wepoker免费脚本咨询(透视)挂-本来有挂是有挂1、完成德州局HH...