智能体团队助力解决IT故障检测难题,降低系统宕机成本
创始人
2026-01-23 00:00:41
0

支撑我们生活和工作方式的云架构确实是复杂性的现代奇迹。但即使在当今软件系统提供强大功能的情况下,仍然存在难以发现和修复的故障风险。据估计,IT系统中断的平均成本超过14000美元——每分钟宕机时间。

这些故障之所以成本如此之高,是因为它们很难准确定位。云系统通常具有迷宫般的软件层次结构,堆栈的不同部分或多或少地处于不同的更新状态。即使在堆栈深处进行小小的调整,当涉及到依赖给定系统的数千或数百万客户时,也可能产生巨大的影响。想象一下银行正在经历大规模中断的情况。服务中断让客户感到沮丧,并使IT运维团队陷入忙乱。使用传统的可观察性工具,他们可以获得有关事件的指标、日志和跟踪信息,但实际原因仍然难以捉摸。

如果不花时间深入整个堆栈,解决问题可能需要数小时甚至数天时间——这会影响公司的盈利能力,并让客户考虑转向竞争对手。大约27%的计划外中断是由软件更新导致的,仅在去年,我们就看到这些中断让公司损失了数十亿美元。

随着智能体AI的出现,IT工程师看到了智能体的潜力,它们可以独立工作,系统性地排除问题并确保软件按预期运行。人类工程师不再需要花费数小时筛选日志来寻找问题,而是可以专注于更复杂或更具战略性的任务,系统可以自主保持正常运行。

这就是ALICE项目的用武之地。ALICE是"事件和代码错误消除的智能体逻辑"的缩写,它是IBM研究院开发的新型多智能体系统,旨在自动化解决此类IT挑战。它汇集了IT运维的两个关键领域:站点可靠性工程(SRE)和软件开发。当系统发生事件时,工程师可以部署ALICE来调查问题。

ALICE使用多个IBM设计的工具和智能体,协调工作并按顺序处理软件调试中一些最耗时的任务。首先,它将使用事件分析智能体启动调查,收集可观察性数据。接下来,代码上下文智能体将为相互连接的软件组件生成依赖关系图,并确定应用程序中哪些微服务最可能与问题相关。然后,部分由IBM的CodeLLM DevKit驱动的代码分析智能体将定位错误位置,并生成报告作为GitHub问题发送给人类工程师。团队现在拥有确切的可观察性信息和代码问题详细信息,可以尽快解决问题。

这些智能体通过开放的模型上下文协议(MCP)进行通信,使它们能够协调工作,并与使用该协议的任何外部模型良好配合。长期目标是让ALICE能够独立识别、制定策略并修复错误,甚至在事件发生之前寻找潜在的故障点。IBM自己的SRE团队已经开始在他们的工作流程中验证ALICE。早期结果令人鼓舞,显示在ALICE中添加智能体代码分析后,识别问题根本原因的能力提高了10%到25%。团队使用ITBench场景来衡量他们的进展,这项工作刚刚在本月的NeurIPS 2025会议上发表。

ALICE背后的团队计划开发未来版本,可以在代码库发生更改时进行检测,有可能在几秒钟内解决事件,防止其演变成灾难。这项工作是IBM研究院更大努力的一部分,旨在构建自动化工具,为工程师、实体工厂管理员或几乎任何使用软件监控物理或数字系统健康状况的人员提供便利。该团队最近为像ALICE这样仍在学习寻找解决问题最佳方法的智能体构建了"撤销按钮"功能,并与Kaggle合作,将其开放的IT运维基准转化为排行榜,帮助工程师确定哪些模型和智能体最适合解决他们的问题。

Q&A

Q1:ALICE项目是什么?它能解决什么问题?

A:ALICE是"事件和代码错误消除的智能体逻辑"的缩写,是IBM研究院开发的新型多智能体系统,专门用于自动化解决IT系统故障检测和修复挑战。它能够自动调查系统问题,定位错误位置,并生成详细报告,大大减少了传统人工排查故障所需的时间和成本。

Q2:ALICE如何工作?它的工作流程是怎样的?

A:ALICE通过多个智能体协调工作:首先使用事件分析智能体收集可观察性数据,然后代码上下文智能体生成依赖关系图并确定相关微服务,最后代码分析智能体定位错误并生成GitHub问题报告。这些智能体通过开放的模型上下文协议进行通信,能够系统性地处理软件调试任务。

Q3:使用ALICE能带来多大的效果提升?

A:早期测试结果显示,在ALICE中添加智能体代码分析后,识别问题根本原因的能力提高了10%到25%。考虑到IT系统中断的平均成本超过每分钟14000美元,这种效率提升可以为企业节省大量成本,并减少客户因服务中断而产生的不满。

相关内容

热门资讯

推荐十款!八闽辅助,多乐辅助a... 推荐十款!八闽辅助,多乐辅助app,wepoke教程(有挂规律)1、下载安装好多乐辅助app,进入游...
重磅来袭!友乐广西南宁透视,多... 重磅来袭!友乐广西南宁透视,多乐找刺激辅助,解密教程(确实有挂);无需打开直接搜索加薇1367043...
交流学习经验!九江讨赏插件,丽... 交流学习经验!九江讨赏插件,丽水都莱脚本辅助视频,第三方教程(有挂方针)1、下载安装好丽水都莱脚本辅...
一分钟秒懂!佛手十三道破解版安... 一分钟秒懂!佛手十三道破解版安卓,超圣大厅可控是什么意思,解密教程(有挂实锤);无需打开直接搜索加薇...
推荐十款!赣牌圈科技有没有挂,... 您好:赣牌圈科技有没有挂这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的...
重大通报!!指尖四川小程序破解... 重大通报!!指尖四川小程序破解器,快玩炸翻天辅助工具,介绍教程(有挂功能)1、下载安装好指尖四川小程...
总算了解!挂机大菠萝辅助挂机,... 总算了解!挂机大菠萝辅助挂机,葫芦娃七子降妖破解版,黑科技教程(有挂教程)1、下载安装好挂机大菠萝辅...
一分钟了解!!边锋小程序跑的快... 一分钟了解!!边锋小程序跑的快外挂,心悦填大坑辅助,必胜教程(有挂方法);无需打开直接搜索加薇136...
一起来讨论!填大坑小程序辅助器... 一起来讨论!填大坑小程序辅助器,朱雀开心罗松辅助器,必胜教程(了解有挂);无需打开直接搜索加薇136...
分享认知!开心赢三张自建房有挂... 分享认知!开心赢三张自建房有挂吗,新超凡辅助,第三方教程(确实有挂)1、下载安装好开心赢三张自建房有...