2026年春节前后,两起密集爆发的AI助手“失控”事件,给狂热的AI代理赛道泼了一盆冷水。
先是Meta超级智能团队的AI安全与对齐总监Summer Yue(夏梦)在X 平台(原推特)披露,其部署的OpenClaw智能体无视“确认后再操作”的指令,擅自删除200多封重要邮件,她需紧急赶回电脑前强制终止进程;
再回溯至1月29日,中国开发者屈江峰使用谷歌DeepMind旗下Antigravity AI清理项目文件时,一个路径空格引发系统误判,导致全盘数据不可逆丢失。
两起事件看似偶然,却精准击中了当前AI助手发展的核心病灶:当行业沉迷于“自动化提效”的叙事狂欢时,安全机制的构建正严重滞后于技术扩张的速度。
对于业内人士而言,这并非孤立的产品Bug,而是AI代理从实验室走向商业化过程中,必须直面的系统性安全挑战。
失控现场:两起惨案的共性与警示
两起事件的爆发场景,都是 AI 代理最常见的 “日常操作”,却最终酿成不可逆的损失,其背后的风险传导逻辑值得所有从业者警惕。
2026 年 2 月 23 日,Summer Yue 的遭遇极具戏剧性。作为 Meta 负责 AI 安全与对齐的核心人员,她对 OpenClaw 设置了明确的安全指令:提出归档或删除的邮件建议,在我指示之前不要执行任何操作。
但当 AI 读取海量邮箱数据时,因邮件文本挤爆大模型上下文窗口,系统触发内部上下文压缩机制,为腾出处理空间意外 “遗忘” 了这一核心安全约束,径直启动邮件清理操作,将 2 月 15 日前非保留列表的邮件批量删除。
更令人担忧的是,Summer Yue 在手机端发出的多次 “停止” 指令均无响应,最终只能通过物理方式中断电脑进程,而此时已有 200 多封邮件被批量删除。事后复盘显示,这并非 AI 的恶意行为,而是大语言模型上下文窗口有限导致的安全指令丢失,属于产品架构设计层面的原生缺陷。
无独有偶,一个月前的 “空格删库惨案” 同样暴露了基础安全机制的致命缺失。
2026 年 1 月 29 日 16 时 29 分,开发者屈江峰向 Antigravity AI 发出清理指定路径下冗余 node_modules 文件夹的常规维护指令。
由于目标路径 “Obsidian Vault” 中包含空格,而 AI 的指令转义逻辑存在漏洞,导致 Windows 系统对生成的 Shell 指令发生 “硬截断”,原本指向子文件夹的删除指令(rmdir /s/q)被误判为清空整个 E 盘。
更致命的是,该指令自带 “静默强制” 属性,跳过所有系统安全提示、直接绕过回收站,毫秒间便物理抹除了屈江峰积累数年的项目源码、知识库及 NAS 同步数据。
经三次独立沙盒测试验证,只要文件夹路径包含空格,该漏洞100% 触发,属于典型的系统性工程安全隐患,并非偶然的操作失误。
值得深思的是,两起事件的受害者都非普通用户:一个是深耕 AI 安全领域的行业专家,一个是熟悉技术操作的开发者,二者均已设置基础安全约束,却仍未能幸免。这恰恰说明,当前 AI 助手的安全风险已突破 “用户操作不当” 的范畴,演变为产品设计、技术底层逻辑层面的行业普遍性问题。
底层病灶:AI安全的三大核心缺失
两起失控事件看似由不同原因引发——一个是上下文压缩导致的指令遗忘,一个是路径解析缺陷引发的作用域逃逸——但本质上都指向AI代理安全体系的三大核心缺失,这也是行业必须正视的底层问题。
1. 安全护栏让位于效率优先的产品逻辑
当前AI代理的设计普遍陷入“效率至上”的误区,将安全机制视为可妥协的附加功能。
Antigravity为追求清理速度,直接调用Windows原生的rmdir /s /q指令,这种被称为“文件夹推土机”的指令兼具递归删除、静默执行、绕过回收站三大致命属性,却未设置任何缓冲机制;OpenClaw则为实现“全自动邮件管理”,赋予AI直接操作邮箱的高权限,却未对核心安全指令设置“不可压缩”的保护机制。
这种设计逻辑的根源,是行业对“AI提效”的过度追捧。开发者往往默认AI能精准理解指令,却忽视了AI在复杂环境下的逻辑缺陷——它能写出复杂算法,却解不开Windows系统的路径空格转义;能处理海量邮件,却无法在上下文压缩时保留关键安全约束。
这种“高维能力与低维安全的失衡”,让AI助手沦为“没有保险栓的工具”。
2. 语义层安全校验机制的集体缺位
AI助手的核心风险,在于其缺乏对“操作后果”的人类级理解,即语义层安全拦截能力。
Antigravity无法区分“删除10MB依赖文件”与“删除100GB全盘数据”的本质差异,执行删除操作前未进行文件规模、路径层级的校验;OpenClaw则无法理解“建议删除”与“执行删除”的权限边界,在未获得明确授权的情况下擅自行动。
这种缺失并非技术不可行,而是行业对安全校验的重视不足。
事实上,简单的路径指纹校验、操作规模预判就能避免大部分风险——比如让AI在执行删除前展示解析后的绝对路径,或对超过一定规模的操作强制要求人工确认。但在“端到端自动化”的产品叙事下,这些关键校验环节被有意或无意地省略,最终导致风险失控。
3. 平台适配的“技术偏见”与场景盲区
AI模型的训练数据普遍带有“Linux中心主义”色彩,对Windows等复杂操作系统的适配存在明显短板。
Antigravity 的路径解析漏洞,本质上是模型对 Windows 特有的空格路径、反斜杠转义、Shell 调用交互等逻辑缺乏足够的鲁棒性训练;而 OpenClaw 在邮件处理中暴露的指令遗忘问题,则反映了 AI 在 “多任务、长上下文、高权限” 复合场景下的能力边界。
更值得警惕的是,这种场景盲区正随着AI代理的应用扩张而持续扩大。
从本地文件处理到邮箱管理,从代码开发到供应链调度,AI代理的操作场景日益复杂,但行业的适配测试却往往局限于理想环境,对真实场景中的特殊字符、复杂指令、权限边界缺乏充分验证。这种“实验室安全”与“真实场景风险”的脱节,让AI助手的安全隐患被严重低估。
破局之道:人机协同的安全重构
两起失控事件并非否定AI代理的技术价值,而是提醒行业:AI的终极目标是“安全提效”,而非“无底线自动化”。对于业内人士而言,破局的关键不在于拒绝技术进步,而在于重构以“人机协同”为核心的安全体系,让人类始终掌握最终决策权。
就像前文()探讨过的尽管其AI生成代码的比例已突破90%,但在核心逻辑、高风险操作环节,应始终保留“人类无缝接手”的机制。2026 年更需要的,是 AI 时代下的“自主基建” ,即“Spec Coding”(规约编程)范式。
当AI遇到无法逾越的逻辑障碍或高风险操作时,系统会自动暂停并触发人工审核,确保每一个关键决策都有人类参与。这种模式的核心,是承认AI的局限性,将“人机协同”而非“AI自主”作为产品设计的底层逻辑。
具体来看,行业需从三个层面构建安全防线:
其一,在技术层面强制设置安全缓冲,如禁用高风险原生指令、建立虚拟回收站、执行前强制展示操作路径与规模;
其二,在产品层面确立“安全优先”的设计原则,将语义层校验、权限分级管理作为核心功能,而非可选模块;
其三,在行业层面建立AI代理安全标准,明确高风险操作的校验规范、场景适配的测试要求,避免企业无序竞争导致的安全滑坡。
从Antigravity的“空格删库”到OpenClaw的“邮件误删”,两起事件如同行业的“安全警钟”,撕开了AI代理赛道的繁荣假象。
当前AI助手的发展,正站在“效率与安全”的十字路口:若继续沉迷于“全自动提效”的叙事,忽视底层安全机制的构建,类似的失控事件只会愈发频繁;若能正视技术局限性,重构人机协同的安全体系,AI代理才能真正成为赋能行业的可靠工具。
对于业内人士而言,这两起事件的警示意义远超事件本身:AI的价值从来不是替代人类,而是成为人类的“协作伙伴”。
所谓的安全,并非追求AI零错误,而是建立“错误可防、风险可控”的机制。当AI代理的每一次高风险操作都能被校验、被追溯、被终止时,技术的提效价值才能真正落地。
AI的进步从不在于规避错误,而在于从错误中建立更完善的体系。这两起失控惨案,理应成为AI安全发展史上的重要路标,推动行业从“速度竞赛”转向“质量竞争”——毕竟,没有安全兜底的提效,终究是镜花水月。(本文首发钛媒体App , 作者|AGI-Signal,编辑|秦聪慧)