颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍
创始人
2026-03-23 13:44:20
0

快科技3月22日消息,NVIDIA研究人员推出一项全新技术KVTC(KV快取转换编码),能把大型语言模型(LLM)追踪对话历史的内存用量,最高缩减20倍,而且不用修改模型本身。

这一突破有望解决大型语言模型长对话推理时的内存不够用问题,大大降低企业使用AI的硬件成本,同时还能把模型首次生成回应的时间,最高提速8倍。

简单来说,KVTC技术的核心就是压缩大型语言模型背后的KV缓存——它相当于AI模型的“短期记忆”。我们可以把KV缓存理解成学生记笔记:模型处理对话时,会把关键信息(也就是Key和Value)记下来,下次生成回应时,不用从头重新计算整段对话,响应速度就能大幅提升。

但问题是,对话越长,这份“笔记”就越大,甚至会膨胀到几个GB,占用大量GPU内存,反而拖慢模型运行、限制其处理能力。

NVIDIA资深深度学习工程师Adrian Lancucki表示:“大型语言模型进行推论时,性能瓶颈往往不在运算能力,而在GPU内存。”那些暂时不用的KV缓存,会一直占用宝贵的GPU资源,逼得系统只能把它们转移到CPU内存或硬盘里,这样不仅会增加数据传输的负担,还可能出现新的卡顿问题,这些额外成本最终也会体现在企业的使用费用中。

和现有压缩技术相比,KVTC没有那些明显的局限,它借鉴了我们熟悉的JPEG图片压缩思路,通过“主成分分析、自适应量化、熵编码”三个简单步骤,就能实现高效压缩。

更方便的是,这项技术不用改动模型的核心设置和代码,属于“非侵入式”设计,企业拿来就能快速部署。它的核心优势是,能抓住KV缓存“数据高度相关”的特点,在保留关键信息的同时,去掉冗余数据,而且解压时可以分块、逐层进行,不会影响模型实时回应。

多轮测试显示,KVTC的表现远超现有主流方法。在参数量从15亿到700亿的多种模型(包括Llama 3系列、R1-Qwen 2.5等)上,即便将内存压缩20倍,模型准确率也几乎不受影响,损失不到1%,与未压缩时相差无几;而传统压缩方法仅压缩5倍,就会出现明显的准确率下降。

另外,在H100 GPU上处理8000个Token的提示时,不使用KVTC需要3秒才能生成第一个回应,使用后仅需380毫秒,提速整整8倍。

需要注意的是,KVTC更适合长对话、多轮互动场景,比如编程助手、迭代式代理推理等,若对话较短,很难发挥其压缩价值。

目前,NVIDIA正计划将这项技术整合进Dynamo框架的KV块管理器,使其能与vLLM等主流开源推论引擎兼容。

业内人士认为,随着大型语言模型可处理的对话长度不断增加,KVTC这类标准化压缩技术,未来可能会像视频压缩一样普及,助力AI更广泛地落地应用。

相关内容

热门资讯

2026版总结"山西... 2026版总结"山西扣点点辅助工具免费"都是是真的有辅助方法(哔哩哔哩)1、起透看视 山西扣点点辅助...
辅助透视"潮友会鱼虾... 您好,潮友会鱼虾蟹辅助软件这款游戏可以开挂的,确实是有挂的,需要了解加去威信【485275054】很...
透视好友"黑科技微乐... 透视好友"黑科技微乐小程序辅助器免费"总是确实有辅助软件(哔哩哔哩)透视好友"黑科技微乐小程序辅助器...
2026版总结"樱花... 2026版总结"樱花之盛免费挂"竟然真的有辅助插件(哔哩哔哩)1、让任何用户在无需樱花之盛免费挂安装...
透视辅助"手机游戏辅... 透视辅助"手机游戏辅助器"切实是真的有辅助工具(哔哩哔哩)暗藏猫腻,小编详细说明手机游戏辅助器破解器...
随着"禅游指尖四川辅... 随着"禅游指尖四川辅助脚本"真是存在有辅助神器(哔哩哔哩)1、任何禅游指尖四川辅助脚本透视是真的假的...
透视好友房"多乐辅助... 透视好友房"多乐辅助器免费版"竟然确实有辅助方法(哔哩哔哩)所有人都在同一条线上,像星星一样排成一排...
一直以来"传送屋ap... 一直以来"传送屋app辅助脚本视频"一贯是有辅助神器(哔哩哔哩)1、这是跨平台的传送屋app辅助脚本...
据权威媒体报道"广西... 据权威媒体报道"广西老友玩插件"原来存在有辅助app(哔哩哔哩)1、完成广西老友玩插件辅助器v3.3...
透视计算"福建天天开... 透视计算"福建天天开心万能辅助"总是是真的有辅助工具(哔哩哔哩)福建天天开心万能辅助破解侠是真的助透...