OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

“人工智能+”迈向规模化落地 “人工智能+”正从单点技术应用,转向开源模型破局、开放生态成势的规模化落地。开源模型打破了少数闭源模...
2026美图影像节:用8款AI... 来源:市场资讯 (来源:网易智能) 6月23日消息,近日,2026美图影像节在厦门举办,美图公司发布...
原创 我... 抬头望天,看不见的地方正在打仗。 这不是科幻片,是真真切切发生在五六百公里高空的资源争夺。 一边是马...
原创 一... 不知道大家是否还记得红米14C这款手机?在2014年的最后一天,小米悄无声息的突然上架了该机,因为起...
华为申请调整参数方法专利,提高... 国家知识产权局信息显示,华为技术有限公司申请一项名为“调整参数的方法、装置、电子设备和计算机程序产品...
第四届链博会:人工智能赋能千行... 6月22日至26日,第四届中国国际供应链促进博览会在北京举办。链博会是以供应链为主题的国家级展会,本...
马云率阿里众高管下田插秧,这次... 据说,阿里内网今天又被一篇帖子刷屏了。 发帖人是阿里合伙人、高德董事长刘振飞,标题起得颇有意思——《...
未来已来:科技如何重塑你的日常... 清晨时分, 智能闹钟按照你的睡眠状态轻柔唤醒, 窗帘自行拉启, 能煮咖啡的机器已煮好了一杯香气浓郁的...
618水桶机推荐:26年6月高... 618水桶机推荐:26年6月高性价比神机盘点,全能无短板 618水桶机推荐:26年6月高性价比神机盘...
原创 宇... 这是我们宇宙的虚无禁区,直径 3.3 亿光年,本该挤着上千个星系,实际却只有孤零零 60 个,它就是...