OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

卧龙电驱50Mvar分布式调相... 大象新闻记者 魏广宝/图文 5月15日,卧龙电驱旗下卧龙电气南阳防爆集团股份有限公司50Mvar分...
全省100家营业厅同步“科普秀... 极目新闻记者 兰莎 通讯员 许国胜 章明慧 5月17日,2026世界电信和信息社会日大会在武汉召开。...
就去了趟厕所,人类险些输给机器... 刚刚,一场人类尊严保卫战以险胜告终。 事情是这样的。当地时间上周三开始,一家名叫 Figure A...
A2A能力网络平台UUMit正... 2026年5月18日,全新AI能力交易平台UUMit(小龙人) 正式启动上线,定位全球A2A(Age...
微软Xbox发起更名投票:近6... 来源:市场资讯 (来源:三言科技) 据快科技,微软Xbox部门新任负责人Asha Sharma在社交...
山西企业研制!它,凭啥上太空? AI导读 News Today 这款光疗仪可模拟阳光助力人体合成维生素D,解决航天员太空健康难题。企...
郑州造环保型避雷器达国际先进水... 原标题: 通过行业最高级鉴定以技术创新赋能电网绿色发展 郑州造环保型避雷器达国际先进水平 5月16日...
“爱达·花城号”开启试航 为何... 5月16日,第二艘国产大型邮轮“爱达·花城号”从中船集团上海外高桥造船5号码头启航,开始为期12天的...
汽车圈最夯打工人:一个接住马斯... 这一次随特朗普访华,马斯克又一次成了社交平台上的流量中心。 跟雷军自拍,带小儿子X亮相人民大会堂,...
无锡大动作!一边建大规模“To... 无锡,将建立一座大规模“Token工厂”。 据无锡日报报道,5月15日,国内AI算力龙头企业弘信电子...