颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍
创始人
2026-03-23 13:44:20
0

快科技3月22日消息,NVIDIA研究人员推出一项全新技术KVTC(KV快取转换编码),能把大型语言模型(LLM)追踪对话历史的内存用量,最高缩减20倍,而且不用修改模型本身。

这一突破有望解决大型语言模型长对话推理时的内存不够用问题,大大降低企业使用AI的硬件成本,同时还能把模型首次生成回应的时间,最高提速8倍。

简单来说,KVTC技术的核心就是压缩大型语言模型背后的KV缓存——它相当于AI模型的“短期记忆”。我们可以把KV缓存理解成学生记笔记:模型处理对话时,会把关键信息(也就是Key和Value)记下来,下次生成回应时,不用从头重新计算整段对话,响应速度就能大幅提升。

但问题是,对话越长,这份“笔记”就越大,甚至会膨胀到几个GB,占用大量GPU内存,反而拖慢模型运行、限制其处理能力。

NVIDIA资深深度学习工程师Adrian Lancucki表示:“大型语言模型进行推论时,性能瓶颈往往不在运算能力,而在GPU内存。”那些暂时不用的KV缓存,会一直占用宝贵的GPU资源,逼得系统只能把它们转移到CPU内存或硬盘里,这样不仅会增加数据传输的负担,还可能出现新的卡顿问题,这些额外成本最终也会体现在企业的使用费用中。

和现有压缩技术相比,KVTC没有那些明显的局限,它借鉴了我们熟悉的JPEG图片压缩思路,通过“主成分分析、自适应量化、熵编码”三个简单步骤,就能实现高效压缩。

更方便的是,这项技术不用改动模型的核心设置和代码,属于“非侵入式”设计,企业拿来就能快速部署。它的核心优势是,能抓住KV缓存“数据高度相关”的特点,在保留关键信息的同时,去掉冗余数据,而且解压时可以分块、逐层进行,不会影响模型实时回应。

多轮测试显示,KVTC的表现远超现有主流方法。在参数量从15亿到700亿的多种模型(包括Llama 3系列、R1-Qwen 2.5等)上,即便将内存压缩20倍,模型准确率也几乎不受影响,损失不到1%,与未压缩时相差无几;而传统压缩方法仅压缩5倍,就会出现明显的准确率下降。

另外,在H100 GPU上处理8000个Token的提示时,不使用KVTC需要3秒才能生成第一个回应,使用后仅需380毫秒,提速整整8倍。

需要注意的是,KVTC更适合长对话、多轮互动场景,比如编程助手、迭代式代理推理等,若对话较短,很难发挥其压缩价值。

目前,NVIDIA正计划将这项技术整合进Dynamo框架的KV块管理器,使其能与vLLM等主流开源推论引擎兼容。

业内人士认为,随着大型语言模型可处理的对话长度不断增加,KVTC这类标准化压缩技术,未来可能会像视频压缩一样普及,助力AI更广泛地落地应用。

相关内容

热门资讯

当MAXHUB做生态、华为做安... 中国云会议市场正在经历一场微妙的预期重构。 IDC曾预测2024年市场规模突破百亿,而终局数据定格在...
高通CEO:正研发超40款AI... 高通首席执行官克里斯蒂亚诺·阿蒙(Cristiano Amon)近日透露,公司正在研发超过40款新型...
顺德发布人工智能赋能数字政府三... 到2028年底,顺德要打造一批可复制、可推广的“AI+数字政府”场景应用。近日,顺德区政务服务和数据...
卓兆点胶获得发明专利授权:“稳... 证券之星消息,根据天眼查APP数据显示卓兆点胶(920026)新获得一项发明专利授权,专利名为“稳定...
中国生物医学工程学会用一场挑战... 穿戴设备如何精准识别本人与非本人使用?如何自动识别运动类型?如何无感监测血压变化,实现高血压疾病的提...
删了几千张照片结果内存没变 苹... 问题背后的原因,在于iPhone相册内删除的照片和视频并不会立刻被永久清除。系统会将其自动转移到一个...
华南腾飞科技分布式管理系统 在当今全球化和信息化迅速发展的背景下,企业面临着前所未有的机遇与挑战。传统的企业管理模式已经难以满足...
AI应用进入深水区,存储如何重... 6月15日,华为极简全闪数据中心2.0存储商业峰会-暨南大学附属第一医院样板点发布会在暨南大学石牌校...
腾讯内测AI视频创作工具TDr... 6月12日消息,据读佳获悉,腾讯正在内测一款名为TDream的AI视频创作工具。该产品选择了一条与市...
阿里发布具身大模型Qwen-R... 阿里巴巴正将大模型的竞争从数字世界延伸至物理世界。 6月16日,阿里巴巴发布千问具身智能大模型Qwe...