周四,Anthropic和OpenAI推出了基于相同理念的产品:用户不再是与单个AI助手聊天,而是管理分工协作、并行运行的AI智能体团队。这些同步发布标志着整个行业从AI作为对话伙伴向AI作为代理劳动力的逐步转变,而据报道,这一概念在本周导致软件股蒸发2850亿美元市值。
这种监督管理模式在实践中是否有效仍是一个开放问题。当前的AI智能体仍需要大量人工干预来捕捉错误,目前还没有独立评估证实这些多智能体工具能够可靠地超越单独开发人员的表现。
尽管如此,这些公司仍在全力押注智能体技术。Anthropic的贡献是Claude Opus 4.6,这是其最先进AI模型的新版本,配备了Claude Code中名为"智能体团队"的功能。智能体团队让开发人员可以启动多个AI智能体,将任务分解为独立部分,自主协调并并发运行。
在实践中,智能体团队看起来像一个分屏终端环境:开发人员可以使用Shift+Up/Down在子智能体之间跳转,直接接管任何一个,并观察其他智能体继续工作。Anthropic将此功能描述为最适合"分解为独立的、以读取为主的工作,如代码库审查"的任务。该功能作为研究预览版提供。
同时,OpenAI发布了Frontier,这是一个企业平台,公司将其描述为"雇佣AI同事,承担人们在计算机上已经在做的许多任务"的方式。Frontier为每个AI智能体分配自己的身份、权限和记忆,并连接到现有的业务系统,如客户关系管理系统、票务工具和数据仓库。"我们根本上在做的是将智能体转变为真正的AI同事,"OpenAI商业对商业总经理Barret Zoph对CNBC表示。
尽管关于这些智能体成为同事的宣传很热烈,但根据我们的经验,如果将这些智能体视为放大现有技能的工具,而不是营销语言暗示的自主同事,它们往往工作得最好。它们能快速产生令人印象深刻的草稿,但仍需要持续的人工纠正。
Frontier的发布距离OpenAI发布Codex新macOS桌面应用仅三天,OpenAI高管将其描述为"智能体的指挥中心"。Codex应用让开发人员可以并行运行多个智能体线程,每个都通过Git工作树在代码库的隔离副本上工作。
OpenAI周四还发布了GPT-5.3-Codex,这是一个为Codex应用提供动力的新AI模型。OpenAI声称,Codex团队使用GPT-5.3-Codex的早期版本来调试模型自身的训练运行、管理其部署和诊断测试结果,这与OpenAI在12月接受Ars Technica采访时所说的类似。
"我们的团队对Codex能够加速自身开发的程度感到震惊,"公司写道。在Terminal-Bench 2.0(智能体编程基准测试)上,GPT-5.3-Codex得分77.3%,比Anthropic刚发布的Opus 4.6高出约12个百分点。
所有这些产品的共同特点是用户角色的转变。开发人员或知识工作者不再只是输入提示并等待单一回应,而是更像一个监督者,分派任务、监控进度,并在智能体需要指导时介入。
在这种愿景中,开发人员和知识工作者实际上成为AI的中层管理者。也就是说,他们不是自己编写代码或进行分析,而是委派任务、审查输出,并希望他们下属的智能体不会悄悄搞砸事情。这是否会实现(或者是否真的是一个好想法)仍在广泛辩论中。
Claude背后的新模型
Opus 4.6是对Anthropic旗舰模型的重大更新。它继承了Anthropic在11月发布的Claude Opus 4.5。在Opus模型系列中首次支持高达100万Token的上下文窗口(测试版),这意味着它可以在单个会话中处理更大量的文本或代码。
在基准测试中,Anthropic表示Opus 4.6在多项评估中超越了OpenAI的GPT-5.2(比今天发布的模型更早)和Google的Gemini 3 Pro,包括Terminal-Bench 2.0(智能体编程测试)、人类最后考试(多学科推理测试)和BrowseComp(在线查找难以定位信息的测试)。
应该注意的是,OpenAI当天发布的GPT-5.3-Codex似乎在Terminal-Bench上重新夺回了领先地位。在ARC AGI 2(试图测试解决对人类来说容易但对AI模型来说困难的问题的能力)上,Opus 4.6得分68.8%,相比之下Opus 4.5为37.6%,GPT-5.2为54.2%,Gemini 3 Pro为45.1%。
像往常一样,对AI基准测试要持保留态度,因为客观衡量AI模型能力是一门相对较新且未定的科学。
Anthropic还表示,在名为MRCR v2的长上下文检索基准测试中,Opus 4.6在100万Token变体上得分76%,相比之下其Sonnet 4.5模型为18.5%。这种差距对智能体团队使用案例很重要,因为在大型代码库中工作的智能体需要跟踪数十万Token的信息而不丢失线索。
API定价与Opus 4.5保持相同,每百万输入Token 5美元,每百万输出Token 25美元,超过20万Token的提示按10美元/37.50美元的溢价收费。Opus 4.6在claude.ai、Claude API和所有主要云平台上可用。
市场外部的冲击
这些发布发生在软件股异常波动的一周内。1月30日,Anthropic为Cowork发布了11个开源插件,这是其在1月12日推出的智能体生产力工具。Cowork本身是一个通用工具,让Claude能够访问本地文件夹进行工作任务,但插件将其扩展到特定的专业领域:法律合同审查、保密协议分类、合规工作流程、财务分析、销售和营销。
据报道,到周二,投资者对这一发布的反应是抹去了软件、金融服务和资产管理股票约2850亿美元的市值。高盛美国软件股票篮子当天下跌6%,这是自4月关税驱动抛售以来最陡峭的单日跌幅。汤森路透领跌18%,痛苦蔓延到欧洲和亚洲市场。
投资者据称担心AI模型公司打包完整工作流程与现有软件即服务供应商竞争,尽管这些工具是否能够实现这些任务的结论仍未确定。
OpenAI的Frontier可能会加深这种担忧:其既定设计让AI智能体登录应用程序、执行任务并以最少的人工参与管理工作,《财富》杂志将此描述为成为"企业操作系统"的努力。OpenAI应用首席执行官Fidji Simo反驳了Frontier取代现有软件的想法,告诉记者:"Frontier实际上是对我们不会自己构建一切的认识。"
无论这些协作应用是否真的达到其宣传效果,趋同性都难以忽视。Anthropic的企业产品负责人Scott White给这种做法起了一个可能让人翻白眼的名字。"每个人都看到软件工程在过去一年半中发生了这种转变,氛围编程开始作为一个概念存在,人们现在可以用他们的想法做事情,"White对CNBC说。"我认为我们现在几乎正在过渡到氛围工作。"
Q&A
Q1:Anthropic的智能体团队功能是什么?它如何工作?
A:智能体团队是Claude Code中的一项功能,让开发人员可以启动多个AI智能体,将任务分解为独立部分,自主协调并并发运行。在实践中看起来像分屏终端环境,开发人员可以在子智能体之间跳转,直接接管任何一个,并观察其他智能体继续工作。
Q2:OpenAI的Frontier平台有什么特点?
A:Frontier是OpenAI的企业平台,旨在"雇佣AI同事"承担人们在计算机上的许多任务。它为每个AI智能体分配独立的身份、权限和记忆,并连接到现有业务系统如客户关系管理系统、票务工具和数据仓库,让AI智能体能够登录应用程序、执行任务并管理工作。
Q3:Claude Opus 4.6相比前代有什么提升?
A:Opus 4.6支持高达100万Token的上下文窗口,可以在单个会话中处理更大量的文本或代码。在多项基准测试中表现优异,特别是在ARC AGI 2测试中得分68.8%,相比前代的37.6%有显著提升。在长上下文检索基准测试中,100万Token变体得分76%。