OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

海光DCU完成腾讯混元Hy3 ... 来源:市场资讯 (来源:北京商报) 北京商报讯(记者 陶凤 王天逸)5月8日,海光信息宣布,其自主研...
工信部正式批复6G试验频率 我... 来源:市场资讯 (来源:证券时报) 5月8日,工业和信息化部正式发布《工业和信息化部批复第六代移动通...
大庆钻探自主研发MWD系统完成... 近日,大庆钻探工程技术研究院自主研发的DQZY多参数随钻连续测斜MWD系统,在新站油田11口井完成大...
中国科学家“造出”数字虚拟宇宙... 文|李咏瑾 宇宙有多大?也许大至你我无法企及的120亿光年,也许仅仅小至你指尖的芯片—— 近日,中国...
3GPP NTN从R14到R2... 回顾移动通信的发展历程,每一代技术更迭背后都有其驱动力与演进逻辑。从1G到5G,传输速率持续提升,通...
利元亨获得发明专利授权:“多工... 证券之星消息,根据天眼查APP数据显示利元亨(688499)新获得一项发明专利授权,专利名为“多工位...
原创 性... 昨天小智也是给大家回顾了曾经的性价比之王,唯一没有背靠大树的realme真我。这些年来,真我推出了不...
原创 荣... 荣耀畅玩70C突然上架官网和电商平台,主打大屏大电池和流畅好品质,是一款入门级别的百元机,4GB+6...
利好!三部门发文,智能体顶层设... 来源:市场资讯 (来源:证券时报) 安全可控是底线,19个场景全面开花。 智能体,正以前所未有的速度...
中国移动董事长陈忠岳:将开放万... IT之家 5 月 8 日消息,在今天召开的中国移动 2026 移动云大会主论坛上。中国移动董事长陈忠...