智能体团队助力解决IT故障检测难题,降低系统宕机成本
创始人
2026-01-23 00:00:41
0

支撑我们生活和工作方式的云架构确实是复杂性的现代奇迹。但即使在当今软件系统提供强大功能的情况下,仍然存在难以发现和修复的故障风险。据估计,IT系统中断的平均成本超过14000美元——每分钟宕机时间。

这些故障之所以成本如此之高,是因为它们很难准确定位。云系统通常具有迷宫般的软件层次结构,堆栈的不同部分或多或少地处于不同的更新状态。即使在堆栈深处进行小小的调整,当涉及到依赖给定系统的数千或数百万客户时,也可能产生巨大的影响。想象一下银行正在经历大规模中断的情况。服务中断让客户感到沮丧,并使IT运维团队陷入忙乱。使用传统的可观察性工具,他们可以获得有关事件的指标、日志和跟踪信息,但实际原因仍然难以捉摸。

如果不花时间深入整个堆栈,解决问题可能需要数小时甚至数天时间——这会影响公司的盈利能力,并让客户考虑转向竞争对手。大约27%的计划外中断是由软件更新导致的,仅在去年,我们就看到这些中断让公司损失了数十亿美元。

随着智能体AI的出现,IT工程师看到了智能体的潜力,它们可以独立工作,系统性地排除问题并确保软件按预期运行。人类工程师不再需要花费数小时筛选日志来寻找问题,而是可以专注于更复杂或更具战略性的任务,系统可以自主保持正常运行。

这就是ALICE项目的用武之地。ALICE是"事件和代码错误消除的智能体逻辑"的缩写,它是IBM研究院开发的新型多智能体系统,旨在自动化解决此类IT挑战。它汇集了IT运维的两个关键领域:站点可靠性工程(SRE)和软件开发。当系统发生事件时,工程师可以部署ALICE来调查问题。

ALICE使用多个IBM设计的工具和智能体,协调工作并按顺序处理软件调试中一些最耗时的任务。首先,它将使用事件分析智能体启动调查,收集可观察性数据。接下来,代码上下文智能体将为相互连接的软件组件生成依赖关系图,并确定应用程序中哪些微服务最可能与问题相关。然后,部分由IBM的CodeLLM DevKit驱动的代码分析智能体将定位错误位置,并生成报告作为GitHub问题发送给人类工程师。团队现在拥有确切的可观察性信息和代码问题详细信息,可以尽快解决问题。

这些智能体通过开放的模型上下文协议(MCP)进行通信,使它们能够协调工作,并与使用该协议的任何外部模型良好配合。长期目标是让ALICE能够独立识别、制定策略并修复错误,甚至在事件发生之前寻找潜在的故障点。IBM自己的SRE团队已经开始在他们的工作流程中验证ALICE。早期结果令人鼓舞,显示在ALICE中添加智能体代码分析后,识别问题根本原因的能力提高了10%到25%。团队使用ITBench场景来衡量他们的进展,这项工作刚刚在本月的NeurIPS 2025会议上发表。

ALICE背后的团队计划开发未来版本,可以在代码库发生更改时进行检测,有可能在几秒钟内解决事件,防止其演变成灾难。这项工作是IBM研究院更大努力的一部分,旨在构建自动化工具,为工程师、实体工厂管理员或几乎任何使用软件监控物理或数字系统健康状况的人员提供便利。该团队最近为像ALICE这样仍在学习寻找解决问题最佳方法的智能体构建了"撤销按钮"功能,并与Kaggle合作,将其开放的IT运维基准转化为排行榜,帮助工程师确定哪些模型和智能体最适合解决他们的问题。

Q&A

Q1:ALICE项目是什么?它能解决什么问题?

A:ALICE是"事件和代码错误消除的智能体逻辑"的缩写,是IBM研究院开发的新型多智能体系统,专门用于自动化解决IT系统故障检测和修复挑战。它能够自动调查系统问题,定位错误位置,并生成详细报告,大大减少了传统人工排查故障所需的时间和成本。

Q2:ALICE如何工作?它的工作流程是怎样的?

A:ALICE通过多个智能体协调工作:首先使用事件分析智能体收集可观察性数据,然后代码上下文智能体生成依赖关系图并确定相关微服务,最后代码分析智能体定位错误并生成GitHub问题报告。这些智能体通过开放的模型上下文协议进行通信,能够系统性地处理软件调试任务。

Q3:使用ALICE能带来多大的效果提升?

A:早期测试结果显示,在ALICE中添加智能体代码分析后,识别问题根本原因的能力提高了10%到25%。考虑到IT系统中断的平均成本超过每分钟14000美元,这种效率提升可以为企业节省大量成本,并减少客户因服务中断而产生的不满。

相关内容

热门资讯

电牌照明取得弧形线条灯专利,提... 国家知识产权局信息显示,电牌(广东)照明有限公司取得一项名为“一种弧形线条灯”的专利,授权公告号CN...
南京:开启“十五五” 科创“打... 这是坐落于江苏南京的紫金山实验室展厅入口。图据新华社客户端 南钢集团JIT+C2M智能工厂。图据新...
【产业风口】机器人租赁风口来袭 从商业表演到进场“打工”、生活服务,从轮式、四足到双足行走,各式各样的机器人走进了我们的生产、生活。...
华为申请电路板组件及其制备方法... 国家知识产权局信息显示,华为技术有限公司申请一项名为“电路板组件及其制备方法、电子设备”的专利,公开...
Anthropic CEO 谈... 来源:市场资讯 (来源:君实财经) 访谈:Anthropic CEO 谈AI竞赛 Anthropic...
华为申请通信方法专利,实现终端... 国家知识产权局信息显示,华为技术有限公司申请一项名为“一种通信方法、装置及系统”的专利,公开号CN1...
未来衣服会“思考”?会“计算”... 1月22日,记者从复旦大学获悉,一项可能改变未来穿衣体验的技术突破问世。该校彭慧胜/陈培宁团队成功制...
从芯片到终端,山东电子信息产业... 山东省工业和信息化厅等部门近日联合印发《山东省电子信息制造业稳增长工作方案》。根据《方案》,今年,以...
太空旅游来了,票价300万!可... 据证券时报报道,1月22日,北京穿越者载人航天科技有限公司(以下简称“穿越者”)举行“太空旅游全球发...
AI数智化赋能全产业链升级 温... 近年来,农业农村部采取切实措施,深入实施智慧农业行动,为智慧农业发展按下“加速键”。在畜牧业向规模化...