冷静文论道:大模型未来需芯片、系统厂商携手共进
创始人
2025-05-01 12:20:23
0

近期,上海交通大学与AI Infra领域的创新企业魔形智能携手,在国际高性能计算机架构研讨会HPCA 2025上发表了一篇题为《VQ-LLM: 高性能向量量化增强的大语言模型推理代码生成》的论文。该研究提出了一种名为VQ-LLM的框架,通过引入分层代码本缓存和代码本中心计算引擎两大创新技术,实现了超过50%的推理延迟降低,性能超越了传统逐元素量化方法。

VQ-LLM框架的成功,为向量量化技术在大语言模型中的实际应用提供了切实可行的方案。在保持模型高精度的同时,显著提升了推理效率。这一突破不仅解决了大模型计算量大、存储空间需求高的难题,还为向量量化技术的未来发展开辟了新的道路。

上海交通大学计算机科学与工程系教授冷静文是此次论文工作的主要负责人。冷静文教授自2010年从上海交通大学获得学士学位后,于2016年在德州大学奥斯汀分校获得电子与计算机工程系博士学位,专攻GPU处理器体系结构优化。目前,冷静文教授及其团队的研究兴趣集中在芯片架构和硬件互联方面,特别是数据流芯片设计和超节点高速互联域的硬件设计。

在谈到此次与魔形智能的合作时,冷静文教授表示,大模型压缩是当前热门的研究方向,但传统的单元素量化方法存在局限性。向量量化技术通过挖掘元素间的相关性,能够实现更高效的压缩,同时保持模型的精度。此次合作将向量量化技术应用于大语言模型,取得了显著的成果。

冷静文教授还分享了团队在数据流芯片研究方面的进展。他认为,当前GPU的红利已经接近尾声,未来芯片的架构和编程方法需要新的思考。数据流芯片作为一种创新的架构,有望解决当前芯片设计中的一些瓶颈问题。冷静文教授及其团队正在致力于构建数据流芯片的抽象模型和编程语言,以降低学习成本并推动其广泛应用。

在谈到国产芯片的发展时,冷静文教授表示,国产芯片厂商需要摆脱对英伟达等国外厂商的依赖,进行原创性思考。他认为,国产芯片厂商应该注重生态的构建,同时解决高带宽内存设计等问题。冷静文教授还提到了英伟达H20芯片出口受限对国内的影响,并建议国内芯片厂商考虑采用CXL互联方式或3D堆叠芯片等技术来缓解HBM的需求。

冷静文教授还分享了团队在大型模型优化方面的经验。他认为,系统的优化方法可以指导大模型的设计,特别是需要找到系统当前的瓶颈并结合模型的特点进行联合设计。冷静文教授还提到了NSA等前沿工作,认为这些工作为模型设计带来了新的思考,即将效率优先的原则带入到模型结构中去。

在谈到向量量化技术的未来应用时,冷静文教授表示,目前向量量化主要用于推理阶段,但未来可以考虑将其与训练过程相结合,以实现更高效的模型压缩和加速。冷静文教授还提到了DeepSeek等前沿工作对大模型量化的挑战和机遇,认为这些工作为向量量化技术提供了新的思路和方法。

冷静文教授及其团队的研究成果不仅在学术界引起了广泛关注,也在行业内产生了深远影响。目前,论文中提出的VQ-LLM框架已经正在被相关产品所采用,为推动大语言模型的广泛应用和性能提升做出了重要贡献。

冷静文教授还强调了芯片、系统和模型厂商之间的协同合作对于推动大模型进一步发展的重要性。他认为,在新的模型架构设计、模型小型化和轻量化等方面,芯片、系统和模型厂商可以发挥各自所长,共同推动大模型的广泛应用和性能提升。

相关内容

热门资讯

字节跳动申请注册即梦灵感助手商... 松果财经讯,天眼查财产线索信息显示,近日,北京字跳网络技术有限公司申请注册“即梦灵感助手”商标,国际...
荣耀折叠屏手机,与苹果还有一战... “今天借着旗舰产品发布会,我们做了两件事情。一是把品牌战略里的两句话定下来:荣耀是谁?品牌信仰是什么...
视源股份获得发明专利授权:“构... 证券之星消息,根据天眼查APP数据显示视源股份(002841)新获得一项发明专利授权,专利名为“构建...
“700XXXXXXXXXXX... 日前,工业和信息化部发布通知,部署开展号码保护服务业务试点工作。 号码保护服务业务是指受快递、外卖、...
华东医院举办高质量智慧医学和A... 2 0 2 5 6月28日,华东医院举办“高质量智慧医学及人工智能(AI)深度应用研讨会”,聚焦智慧...
中国电信青浦云湖数据中心空调工... 近日,中国电信算力高效调度示范项目(青浦云湖数据中心)数据机楼B一期空调主机工程完成关键节点:3台格...
“数据技术赋能数据产业发展”专... 日前,西城区政府主办的“中国数据街”高质量发展论坛——“数据技术赋能数据产业发展”专题论坛在“大吉巷...
工信部试点15位虚拟号码,滴滴... 本文基于以下微博话题的智搜结果生成 关于15位电话号码对滴滴司机接单效率的影响,结合政策设计和技术原...
智启津门·数聚上合 | 智慧城... 作为新一批国家数字经济创新发展试验区,天津不断培育壮大平台经济,推动政策创新与头部企业集聚,灵活用工...
祝贺!蒙牛首席科学家母智深当选... 近日,俄罗斯工程院官方网站显示,历经院士推荐、形式审查、材料审核、会议评审及全体院士投票等一系列严格...