OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

将用于飞机部件运输!我国新型滚... 6月6日,我国建造的用于运输飞机部件的滚装船在中船集团武昌造船厂顺利下水。这艘船交付后,将主要用于飞...
大模型管控太空天基太阳能发电人... 大模型管控太空天基太阳能发电人工智能AI系统平台软件 北京华盛恒辉大模型管控的太空天基太阳能发电系统...
三峡集团首个无人机智能巡检管理... IT之家 6 月 7 日消息,近日,三峡集团首个无人机智能巡检管理体系在内蒙古投入运行,首批覆盖 1...
黄仁勋给韩国带来的“惊喜”,原... 据韩联社报道,当地时间6月5日,正在韩国访问的英伟达首席执行官(CEO)黄仁勋表示,此次他为韩国带来...
MLCC需求暴涨,或成为“下一... (本文作者为 半导体产业纵横,钛媒体经授权发布) 文 | 半导体产业纵横 MLCC(Multi...
人形机器人有了“身份证” 国家人工智能应用中试基地(具身智能)展厅内的机器人为参观者递上咖啡。新华社记者 樊雨晴摄 人形机器人...
健康老人手表厂家推荐指南:沃普... 导语:随着中国老龄化进程加速,中老年群体对智能穿戴设备的需求持续释放。据行业白皮书显示,健康监测类智...
6月9日起精彩天幕“连续剧”将... 6月9日开始,“天幕剧场”将上演多场热闹的天体“盛会”。届时,金星、木星、水星、月亮等天体将在黄昏西...
画风清奇!Meta搭“帐篷机房... 【环球网科技综合报道】6月7日消息,据外媒Futurism报道,在全球AI算力极度紧缺、数据中心建设...
黄仁勋押注Token经济:你用... 新智元报道 【新智元导读】Dario Amodei预言AI行业奔万亿,黄仁勋偏说太保守。你每天在...