支撑我们生活和工作方式的云架构确实是复杂性的现代奇迹。但即使在当今软件系统提供强大功能的情况下,仍然存在难以发现和修复的故障风险。据估计,IT系统中断的平均成本超过14000美元——每分钟宕机时间。
这些故障之所以成本如此之高,是因为它们很难准确定位。云系统通常具有迷宫般的软件层次结构,堆栈的不同部分或多或少地处于不同的更新状态。即使在堆栈深处进行小小的调整,当涉及到依赖给定系统的数千或数百万客户时,也可能产生巨大的影响。想象一下银行正在经历大规模中断的情况。服务中断让客户感到沮丧,并使IT运维团队陷入忙乱。使用传统的可观察性工具,他们可以获得有关事件的指标、日志和跟踪信息,但实际原因仍然难以捉摸。
如果不花时间深入整个堆栈,解决问题可能需要数小时甚至数天时间——这会影响公司的盈利能力,并让客户考虑转向竞争对手。大约27%的计划外中断是由软件更新导致的,仅在去年,我们就看到这些中断让公司损失了数十亿美元。
随着智能体AI的出现,IT工程师看到了智能体的潜力,它们可以独立工作,系统性地排除问题并确保软件按预期运行。人类工程师不再需要花费数小时筛选日志来寻找问题,而是可以专注于更复杂或更具战略性的任务,系统可以自主保持正常运行。
这就是ALICE项目的用武之地。ALICE是"事件和代码错误消除的智能体逻辑"的缩写,它是IBM研究院开发的新型多智能体系统,旨在自动化解决此类IT挑战。它汇集了IT运维的两个关键领域:站点可靠性工程(SRE)和软件开发。当系统发生事件时,工程师可以部署ALICE来调查问题。
ALICE使用多个IBM设计的工具和智能体,协调工作并按顺序处理软件调试中一些最耗时的任务。首先,它将使用事件分析智能体启动调查,收集可观察性数据。接下来,代码上下文智能体将为相互连接的软件组件生成依赖关系图,并确定应用程序中哪些微服务最可能与问题相关。然后,部分由IBM的CodeLLM DevKit驱动的代码分析智能体将定位错误位置,并生成报告作为GitHub问题发送给人类工程师。团队现在拥有确切的可观察性信息和代码问题详细信息,可以尽快解决问题。
这些智能体通过开放的模型上下文协议(MCP)进行通信,使它们能够协调工作,并与使用该协议的任何外部模型良好配合。长期目标是让ALICE能够独立识别、制定策略并修复错误,甚至在事件发生之前寻找潜在的故障点。IBM自己的SRE团队已经开始在他们的工作流程中验证ALICE。早期结果令人鼓舞,显示在ALICE中添加智能体代码分析后,识别问题根本原因的能力提高了10%到25%。团队使用ITBench场景来衡量他们的进展,这项工作刚刚在本月的NeurIPS 2025会议上发表。
ALICE背后的团队计划开发未来版本,可以在代码库发生更改时进行检测,有可能在几秒钟内解决事件,防止其演变成灾难。这项工作是IBM研究院更大努力的一部分,旨在构建自动化工具,为工程师、实体工厂管理员或几乎任何使用软件监控物理或数字系统健康状况的人员提供便利。该团队最近为像ALICE这样仍在学习寻找解决问题最佳方法的智能体构建了"撤销按钮"功能,并与Kaggle合作,将其开放的IT运维基准转化为排行榜,帮助工程师确定哪些模型和智能体最适合解决他们的问题。
Q&A
Q1:ALICE项目是什么?它能解决什么问题?
A:ALICE是"事件和代码错误消除的智能体逻辑"的缩写,是IBM研究院开发的新型多智能体系统,专门用于自动化解决IT系统故障检测和修复挑战。它能够自动调查系统问题,定位错误位置,并生成详细报告,大大减少了传统人工排查故障所需的时间和成本。
Q2:ALICE如何工作?它的工作流程是怎样的?
A:ALICE通过多个智能体协调工作:首先使用事件分析智能体收集可观察性数据,然后代码上下文智能体生成依赖关系图并确定相关微服务,最后代码分析智能体定位错误并生成GitHub问题报告。这些智能体通过开放的模型上下文协议进行通信,能够系统性地处理软件调试任务。
Q3:使用ALICE能带来多大的效果提升?
A:早期测试结果显示,在ALICE中添加智能体代码分析后,识别问题根本原因的能力提高了10%到25%。考虑到IT系统中断的平均成本超过每分钟14000美元,这种效率提升可以为企业节省大量成本,并减少客户因服务中断而产生的不满。