颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍
创始人
2026-03-23 13:44:20
0

快科技3月22日消息,NVIDIA研究人员推出一项全新技术KVTC(KV快取转换编码),能把大型语言模型(LLM)追踪对话历史的内存用量,最高缩减20倍,而且不用修改模型本身。

这一突破有望解决大型语言模型长对话推理时的内存不够用问题,大大降低企业使用AI的硬件成本,同时还能把模型首次生成回应的时间,最高提速8倍。

简单来说,KVTC技术的核心就是压缩大型语言模型背后的KV缓存——它相当于AI模型的“短期记忆”。我们可以把KV缓存理解成学生记笔记:模型处理对话时,会把关键信息(也就是Key和Value)记下来,下次生成回应时,不用从头重新计算整段对话,响应速度就能大幅提升。

但问题是,对话越长,这份“笔记”就越大,甚至会膨胀到几个GB,占用大量GPU内存,反而拖慢模型运行、限制其处理能力。

NVIDIA资深深度学习工程师Adrian Lancucki表示:“大型语言模型进行推论时,性能瓶颈往往不在运算能力,而在GPU内存。”那些暂时不用的KV缓存,会一直占用宝贵的GPU资源,逼得系统只能把它们转移到CPU内存或硬盘里,这样不仅会增加数据传输的负担,还可能出现新的卡顿问题,这些额外成本最终也会体现在企业的使用费用中。

和现有压缩技术相比,KVTC没有那些明显的局限,它借鉴了我们熟悉的JPEG图片压缩思路,通过“主成分分析、自适应量化、熵编码”三个简单步骤,就能实现高效压缩。

更方便的是,这项技术不用改动模型的核心设置和代码,属于“非侵入式”设计,企业拿来就能快速部署。它的核心优势是,能抓住KV缓存“数据高度相关”的特点,在保留关键信息的同时,去掉冗余数据,而且解压时可以分块、逐层进行,不会影响模型实时回应。

多轮测试显示,KVTC的表现远超现有主流方法。在参数量从15亿到700亿的多种模型(包括Llama 3系列、R1-Qwen 2.5等)上,即便将内存压缩20倍,模型准确率也几乎不受影响,损失不到1%,与未压缩时相差无几;而传统压缩方法仅压缩5倍,就会出现明显的准确率下降。

另外,在H100 GPU上处理8000个Token的提示时,不使用KVTC需要3秒才能生成第一个回应,使用后仅需380毫秒,提速整整8倍。

需要注意的是,KVTC更适合长对话、多轮互动场景,比如编程助手、迭代式代理推理等,若对话较短,很难发挥其压缩价值。

目前,NVIDIA正计划将这项技术整合进Dynamo框架的KV块管理器,使其能与vLLM等主流开源推论引擎兼容。

业内人士认为,随着大型语言模型可处理的对话长度不断增加,KVTC这类标准化压缩技术,未来可能会像视频压缩一样普及,助力AI更广泛地落地应用。

相关内容

热门资讯

科美诊断申请化学发光检测试剂专... 国家知识产权局信息显示,科美博阳诊断技术(上海)有限公司、科美诊断技术股份有限公司申请一项名为“一种...
谷光伏太阳能支架设备企业 谷光伏太阳能支架设备企业:支撑绿色能源的隐形脊梁 提到太阳能发电,大家往往首先想到的是那些闪闪发光的...
宇树科技,6月1日上会 上交所官网5月25日显示,人形机器人公司宇树科技的科创板IPO,将于6月1日上会审议。若顺利过会,宇...
也许,我们都被科幻片骗了!爱因... 大家好,我是科学羊! 虫洞,是科幻片里最常见的设定。 宇宙飞船一头扎进一个发光的漩涡,瞬间穿越几万光...
我国食品数字标签应用超8000... 中国网财经5月25日讯 5月25日,国家卫生健康委召开新闻发布会。国家卫生健康委食品司副司长宫国强透...
神舟二十三号载人飞船发射取得圆... 据中国载人航天工程办公室消息,北京时间2026年5月24日23时08分,搭载神舟二十三号载人飞船的长...
书写航天事业薪火赓续的动人篇章 崭新的飞天征程已经开启。 2003年,杨利伟搭乘神舟五号“一人飞天”,实现中华民族千年飞天夙愿。20...
英伟达计划在新加坡设立AI实验... 【太平洋科技快讯】5月20日,英伟达宣布将在新加坡建立AI研究实验室,聚焦具身智能领域,推进自动化与...
南大教授团队联合研制的钙钛矿电... 交汇点讯 来自中国载人航天工程办公室最新消息,神舟二十三号载人飞船于5月24日晚间成功发射,目前已与...
原创 巴... 前言 大家好,我是老金。 长期以来,公众对航天员的传统认知,往往停留在身体素质极为强悍的空军飞行员...