中国AI公司Z.ai近日推出GLM-5.1,这是一款专为智能体软件工程场景设计的开源编程模型。此次发布正值AI厂商纷纷从自动补全式编程工具转型,转而构建能够长时间、低人工干预下处理软件任务的智能系统。
Z.ai表示,GLM-5.1能够在数百次迭代过程中保持稳定性能,这一能力是其区别于其他在长时任务中性能下滑模型的核心竞争力。
以向量数据库优化任务为例,GLM-5.1经过超过600次迭代、6000次工具调用,最终将查询速度提升至每秒21500次,约为单次50轮会话最佳结果的六倍。
在一份研究报告中,Z.ai指出GLM-5.1在多项软件工程基准测试上超越了其前代产品GLM-5,在代码仓库生成、终端问题求解和反复代码优化等方面表现尤为突出。该公司表示,GLM-5.1在SWE-Bench Pro基准测试中得分为58.4,而GLM-5为55.1,同时也高于OpenAI GPT-5.4、Anthropic Opus 4.6以及谷歌Gemini 3.1 Pro在该基准上的得分。
GLM-5.1已在MIT许可证下开源发布,可通过Z.ai的开发者平台获取,模型权重也已公开,支持本地部署。这对那些希望在部署AI工具时掌握更多控制权的企业而言具有较大吸引力。
Z.ai表示,与在长时会话中性能逐渐下降的模型相比,长时运行下的稳定表现是其核心差异化优势。
业内分析人士指出,目前许多模型在经过相对较少的对话轮次后仍会出现性能停滞或偏移,这限制了其在复杂多步骤软件任务中的实用价值。
Pareekh Consulting首席执行官Pareekh Jain表示,行业正在从能够回答提示词的工具,转向能够在较少人工监督下完成更长期任务的系统。他认为,问题已不再是"我能问AI什么",而是"我能让它在未来八小时内完成什么任务"。
对于企业而言,这意味着未来或许可以在早上将一个工单交给智能体,经过数百次实验和代码性能分析后,在当天结束时收到经过优化的解决方案。
Forrester副总裁兼首席分析师Charlie Dai表示:"这一能力契合了大规模代码重构、系统迁移项目和持续故障处理等真实需求,表明长时运行的自主智能体正逐渐走向实用,前提是企业需要在治理、监控和升级机制上做好配套,以有效管控风险。"
GLM-5.1采用MIT许可证发布,对于受监管行业或对安全敏感的企业而言具有重要意义。
Jain认为这体现在四个关键维度:第一是成本,其定价远低于高端商业模型,自托管部署也让企业可以管控费用,而非按使用量付费;第二是数据治理,敏感代码和数据无需发送至外部API,这在金融、医疗和国防等行业至关重要;第三是可定制性,企业可以根据自身代码库和内部工具对模型进行定制,不受任何限制。
第四个因素,Jain指出,是地缘政治风险。尽管该模型是开源的,但其与中国基础设施及相关实体的关联仍可能引发部分美国企业的合规顾虑。
Dai表示,MIT许可证让企业更便于在自有系统上部署运行该模型,并根据内部需求和治理政策进行调整。他认为:"对于许多买家而言,GLM-5.1在商业模型之外提供了一个可行的战略选项,尤其是在监管约束、知识产权敏感性或长期平台控制最为重要的场景下。"
Z.ai在评测中引用了三项基准测试:SWE-Bench Pro(测试复杂软件工程任务)、NL2Repo(评估代码仓库生成能力)以及Terminal-Bench 2.0(评估真实终端环境中的问题解决能力)。
Omdia首席分析师Lian Jye Su表示:"这些基准测试专为考察编程智能体的高级编程能力而设计,在这些测试中名列前茅,反映了强劲的编程性能表现,例如从规划到执行的可靠性、更少的提示词反复调整以及更快的交付速度。然而,这些测试与典型的企业现实环境仍存在一定距离。"
Su指出,公开基准测试仍无法还原专有代码库、遗留系统和代码审查流程的复杂现状。他补充道,基准测试结果来自受控环境,与生产环境存在差距,不过随着越来越多的团队引入智能体架构,这一差距正在逐步缩小。
Q&A
Q1:GLM-5.1与其他编程模型相比,最大的优势是什么?
A:GLM-5.1的核心优势在于长时运行下的稳定性能。许多现有模型在较少轮次后性能就会下滑,而GLM-5.1可以在数百次迭代中持续运行,例如在向量数据库优化任务中,经过超过600次迭代后仍能持续提升,最终查询速度约是单次50轮会话最佳结果的六倍。
Q2:GLM-5.1开源对企业有什么实际意义?
A:GLM-5.1采用MIT许可证开源,企业可以本地部署,主要带来四方面好处:降低成本(无需按调用量付费)、保障数据安全(敏感代码无需上传外部API)、支持自定义(可根据内部代码库灵活调整),以及一定程度规避云端依赖风险。对金融、医疗等监管严格的行业尤其适用。
Q3:GLM-5.1在基准测试中的表现如何?这些成绩能代表真实能力吗?
A:GLM-5.1在SWE-Bench Pro上得分58.4,高于前代GLM-5的55.1,也超过了OpenAI GPT-5.4、Anthropic Opus 4.6和谷歌Gemini 3.1 Pro的得分。不过分析师指出,这些基准测试基于受控环境,尚无法完全反映企业真实场景中的遗留系统、专有代码库等复杂情况,实际落地效果仍需结合具体业务验证。