冷静文论道:大模型未来需芯片、系统厂商携手共进
创始人
2025-05-01 12:20:23
0

近期,上海交通大学与AI Infra领域的创新企业魔形智能携手,在国际高性能计算机架构研讨会HPCA 2025上发表了一篇题为《VQ-LLM: 高性能向量量化增强的大语言模型推理代码生成》的论文。该研究提出了一种名为VQ-LLM的框架,通过引入分层代码本缓存和代码本中心计算引擎两大创新技术,实现了超过50%的推理延迟降低,性能超越了传统逐元素量化方法。

VQ-LLM框架的成功,为向量量化技术在大语言模型中的实际应用提供了切实可行的方案。在保持模型高精度的同时,显著提升了推理效率。这一突破不仅解决了大模型计算量大、存储空间需求高的难题,还为向量量化技术的未来发展开辟了新的道路。

上海交通大学计算机科学与工程系教授冷静文是此次论文工作的主要负责人。冷静文教授自2010年从上海交通大学获得学士学位后,于2016年在德州大学奥斯汀分校获得电子与计算机工程系博士学位,专攻GPU处理器体系结构优化。目前,冷静文教授及其团队的研究兴趣集中在芯片架构和硬件互联方面,特别是数据流芯片设计和超节点高速互联域的硬件设计。

在谈到此次与魔形智能的合作时,冷静文教授表示,大模型压缩是当前热门的研究方向,但传统的单元素量化方法存在局限性。向量量化技术通过挖掘元素间的相关性,能够实现更高效的压缩,同时保持模型的精度。此次合作将向量量化技术应用于大语言模型,取得了显著的成果。

冷静文教授还分享了团队在数据流芯片研究方面的进展。他认为,当前GPU的红利已经接近尾声,未来芯片的架构和编程方法需要新的思考。数据流芯片作为一种创新的架构,有望解决当前芯片设计中的一些瓶颈问题。冷静文教授及其团队正在致力于构建数据流芯片的抽象模型和编程语言,以降低学习成本并推动其广泛应用。

在谈到国产芯片的发展时,冷静文教授表示,国产芯片厂商需要摆脱对英伟达等国外厂商的依赖,进行原创性思考。他认为,国产芯片厂商应该注重生态的构建,同时解决高带宽内存设计等问题。冷静文教授还提到了英伟达H20芯片出口受限对国内的影响,并建议国内芯片厂商考虑采用CXL互联方式或3D堆叠芯片等技术来缓解HBM的需求。

冷静文教授还分享了团队在大型模型优化方面的经验。他认为,系统的优化方法可以指导大模型的设计,特别是需要找到系统当前的瓶颈并结合模型的特点进行联合设计。冷静文教授还提到了NSA等前沿工作,认为这些工作为模型设计带来了新的思考,即将效率优先的原则带入到模型结构中去。

在谈到向量量化技术的未来应用时,冷静文教授表示,目前向量量化主要用于推理阶段,但未来可以考虑将其与训练过程相结合,以实现更高效的模型压缩和加速。冷静文教授还提到了DeepSeek等前沿工作对大模型量化的挑战和机遇,认为这些工作为向量量化技术提供了新的思路和方法。

冷静文教授及其团队的研究成果不仅在学术界引起了广泛关注,也在行业内产生了深远影响。目前,论文中提出的VQ-LLM框架已经正在被相关产品所采用,为推动大语言模型的广泛应用和性能提升做出了重要贡献。

冷静文教授还强调了芯片、系统和模型厂商之间的协同合作对于推动大模型进一步发展的重要性。他认为,在新的模型架构设计、模型小型化和轻量化等方面,芯片、系统和模型厂商可以发挥各自所长,共同推动大模型的广泛应用和性能提升。

相关内容

热门资讯

智能“小”灯条 开启快递取件“... “以前来取件,得在货架前翻半天,碰上人多还得排队等。现在可好,包裹自己‘亮’起来、‘唱’起来,找得快...
慧碳众和取得液体碳源智能投加装... 国家知识产权局信息显示,北京慧碳众和资源科技有限公司取得一项名为“一种便于实现反硝化滤池的液体碳源智...
AI短剧《桃花簪》,被全面下架... 来源:河北青年报 4月3日,“红果短剧官方账号”微信公众号发布《关于〈桃花簪〉违反平台治理规范的处理...
超170个项目竞逐AI赛道!成... 4月2日,2026年“蓉漂杯”交子青年人才创新创业大赛人工智能赛道专项赛决赛在成都高新区举办。本次赛...
“眼镜一哥”毛源昌走不出省也要... 界面新闻记者 | 周芳颖 界面新闻编辑 | 楼婍沁 在中国眼镜零售这个长期分散、区域割据明显的行...
NTP时间同步服务器,如何为你... 我们在谈论网络的时候,常常关注的是带宽有多宽、延迟有多低、数据会不会丢。但有一个同样关键、却容易被忽...
小米、京东等互联网大厂同时出手... 当人形机器人开始行走、奔跑,甚至完成空翻时,一个更本质的拷问浮出水面:它们能否像人类一样,真正“拿起...
AI已“无米下锅”:以掼蛋思维... 陆天然/文 从ChatGPT掀起大模型热潮,到AI在多领域落地应用,人工智能的发展恰似一场讲究策略与...
苹果传奇设计师艾维操刀,法拉利... IT之家 4 月 3 日消息,据外媒 Carscoops 于 4 月 3 日(今天)凌晨报道,法拉利...
中控技术申请问答模型验证方法专... 国家知识产权局信息显示,中控技术股份有限公司申请一项名为“一种问答模型验证方法、系统、电子设备和存储...