看草图直出代码!实测智谱最新多模态Coding模型
创始人
2026-04-03 21:07:18
0

智东西

作者 | 江宇

编辑 | 漠影

智东西4月2日报道,今日,“国产大模型第一股”智谱发布了其首个多模态Coding基座模型GLM-5V-Turbo,将AI大模型的感知边界从纯文本推到视觉世界。这是继GLM-5-Turbo之后,智谱短时间内在Coding基座模型上的又一次快速迭代。

据官方新闻稿介绍,GLM-5V-Turbo不仅能读懂代码,还能“看懂画面再写代码”。给定一张设计稿截图,它能直接生成完整可运行的前端工程;在接入OpenClaw、AutoClaw等龙虾Agent之后,它也能看懂屏幕、读懂K线图、浏览各类网页,然后自主完成一整套长程任务

得益于出色的视觉编程性能,GLM-5V-Turbo在海外引发了广泛的关注,截至发稿前,其官方推文已经获得了130万+的浏览量,海外开发者甚至夸张地打趣道:“对Anthropic来说,现在游戏结束了。”

X网友@Zaid表示,“Anthropic现在的处境岌岌可危。”

如今,放眼整个行业来看,GLM-5V-Turbo推出的意义正变得越来越清晰:当Coding模型开始进入真实生产环境,光靠文本确实已经不够用了,而刚刚发布的GLM-5V-Turbo,将为「视觉编程」新范式提供一个全新的启示

一、上手实测:看见即复刻,图像即代码

说再多不如直接上手。我们用三个实测案例,看看GLM-5V-Turbo在不同输入方式下的前端复刻能力。

案例一:画个草图,也能复刻?

先从最离谱的场景开始,我们只给GLM-5V-Turbo画几个框框,让它做个酷炫的音乐播放器。结果模型还真搞得像模像样,布局合理、配色协调、连播放控件都安排得明明白白,让它改个配色也是言出法随。建议各位产品经理抓紧体验,以后改需求再也不用看前端的脸色了。

案例二:输入网址,直接复刻

这是GLM-5V-Turbo的主打功能之一。因为模型有强大的GUI Agent能力,只要给它一个目标网站URL,它就能自主浏览页面,梳理布局结构、采集视觉素材与交互细节,然后直接生成完整可运行的前端工程。不需要手动截图、不需要描述需求,一个链接就够了。

例如,我们让GLM-5V-Turbo复刻这个颇具设计感的网站:https://niore.webflow.io/

这是复刻效果,可以看到,不论是布局、字体,甚至是插图都非常相似。

案例三:输入录屏,还原动效

将一段网页操作录屏发给模型,GLM-5V-Turbo能从视频中理解页面的动态交互逻辑——滚动效果、弹窗切换、表单联动、按钮反馈等,然后将这些交互细节还原为可运行的代码。不只是”还原长什么样”,而是”还原怎么动”。

我们把这个美食网站的录屏发给GLM-5V-Turbo,让它复刻一下。

▲录屏

可以看到,网站的布局、照片、字体都比较还原,浮现动效和字体特效这类动态细节也基本复刻到位。

▲结果

二、技术探索:不是简单“加了个视觉模块”

与以往传统方法不同,GLM-5V-Turbo不是在一个纯文本Coding模型上“外挂”了一个视觉理解模块,而是从预训练阶段就开始进行文本与视觉能力的深度融合,解决了“视觉能力与纯文本编程和推理能力无法兼得”的问题。

具体来说,智谱团队研发了新一代CogViT视觉编码器,在通用物体识别、细粒度理解、几何与空间感知上均做到了领先水平,同时设计了一套兼容多模态输入且推理友好的MTP结构,在多模态场景下实现了较高的推理效率。

更关键的是,在强化学习阶段,智谱团队采用了30+任务类型的协同优化策略,覆盖STEM推理、视觉grounding、视频理解、GUI Agent等多个子领域。这种多任务协同强化学习的好处在于,它有效缓解了单领域训练容易出现的不稳定性,也就是说,不会因为某一项能力的提升而牺牲其他能力。

而且从评测数据来看,这套方案确实跑通了。

在多模态Coding维度,GLM-5V-Turbo在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。

而在纯文本Coding维度,GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三项核心测试中保持了稳定表现——也就是说,视觉能力的引入并没有拖累纯文本编程能力

用一句话总结:GLM-5V-Turbo不是在“看图”和“写代码”之间做取舍,而是“全都要”

结语:Coding基座模型的下一步,是“看见世界”

从GLM-5-Turbo到GLM-5V-Turbo,智谱在Coding基座模型上的迭代逻辑非常清晰:先让模型在文本世界里把任务跑通,再让它“看见”视觉世界,从而进入更广阔的应用空间。

这背后的判断是:Agent时代,模型能力不只由智能水平定义,还由它能处理的context容量定义。一个只能处理纯文本的模型,哪怕推理能力再强,在真实世界里的应用边界也是有限的。因为真实世界的信息,绝大多数以图片、视频、界面等视觉形式存在。

从这个角度来看,GLM-5V-Turbo不只是智谱的一次产品更新,更像是一个行业信号:Coding模型的竞争,正在从“谁的代码写得好”升级到“谁能看懂世界并写出代码”。

而随着越来越多的Coding模型开始进入真实生产环境,“看得懂、写得出、跑得通”这三项能力的整合程度,将成为区分模型之间差距的关键维度。

这场竞赛,才刚刚进入深水区。

相关内容

热门资讯

苏磁智能取得液冷式机壳专利,提... 国家知识产权局信息显示,苏州苏磁智能科技有限公司取得一项名为“液冷式机壳、磁悬浮电机及磁悬浮设备”的...
原创 H... 文字 | 朝乾 校对 | 朝乾 编辑 | 澄澈 最近半个月,石油涨价约15%,很多么?再看氦气,价格...
三安光通信连破三关!高端光芯片... 厦门2026年4月3日-- AI算力需求井喷之下,高速光芯片正成为制约数据中心升级的卡脖子环节。近日...
骊高电器取得吸顶扇专利,具有组... 国家知识产权局信息显示,广东骊高电器有限公司取得一项名为“一种吸顶扇”的专利,授权公告号CN2240...
看草图直出代码!实测智谱最新多... 智东西 作者 | 江宇 编辑 | 漠影 智东西4月2日报道,今日,“国产大模型第一股”智谱发布了其首...
谷歌发布开源模型Gemma 4 △资料图 当地时间4月2日,谷歌宣布推出新一代开源模型Gemma 4,称这是其迄今“最智能”的开源模...
西加云杉申请用户交互方法专利,... 国家知识产权局信息显示,成都西加云杉科技有限公司申请一项名为“一种用户交互方法、装置、电子设备及存储...
雷军在小米科技的持股比例提升至... 观点网讯:4月2日,小米集团发布公告,宣布终止现有合约安排并订立新合约安排,以提升相关境内控股公司的...
谷歌Gemma 4开源模型正式... 谷歌今日宣布,其DeepMind AI研究部门正式发布Gemma 4,这是最新一代开源大语言模型。该...
六大厂商仅华为苹果没涨价:安卓... 快科技4月3日消息,自今年3月起,多家手机品牌纷纷宣布上调产品价格。截至目前,在中国市场份额前六大的...