OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

李开复对话苏姿丰:2026年,... 来源:中国经营报 中经记者 秦枭 上海报道 2026年5月19日,AMD AI开发者日2026在上海...
美聚商盟取得移动电子商务交易终... 国家知识产权局信息显示,广州市美聚商盟数码科技股份有限公司取得一项名为“一种移动电子商务交易终端”的...
阿里巴巴发布新款AI芯片 可同... 来源:商业周刊 阿里巴巴发布可同时承担训练和推理任务的新款人工智能(AI)芯片,进一步增强人工智能各...
中国联通唐雄燕:面向Token... 在2026年世界电信和信息社会日大会的技术研讨会上,中国联通研究院副院长、首席科学家唐雄燕发表了题为...
中信科移动蔡月民:AI赋能,加... 在通信技术迭代的关键窗口期,5G-A规模商用、6G研发冲刺,生态协同代际贯通已成产业共识。 在世界电...
如何鼓励AI创新同时防范伦理安... 5月19日,2026年中国网络文明大会人工智能赋能网络文明建设论坛在广西南宁举行。 会上,全国网络安...
透视分享!wejoker内置辅... 透视分享!wejoker内置辅助,wepoker透视挂底牌-都是真的是有辅助脚本(哔哩哔哩)在进入e...
透视详细!德普软件,德扑圈有透... 透视详细!德普软件,德扑圈有透视吗-确实存在有辅助脚本(哔哩哔哩)一、可以开透视的定义与意义1、是不...
透视了解!wpk是真的还是假的... 透视了解!wpk是真的还是假的,wpk辅助器-果然一直都是有辅助app(哔哩哔哩)1、让任何用户在无...
透视辅助!德普之星私人局辅助器... 透视辅助!德普之星私人局辅助器,德普之星辅助器app-果然一直都是有辅助方法(哔哩哔哩)1、游戏颠覆...