OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

2026互联网优质内容创作盛典... 5月30日晚,2026互联网优质内容创作盛典在上海举行。全球数百位互联网创作者代表及行业领军人物齐聚...
不止伴舞还开嗓演唱!宇树机器人... 快科技5月30日消息,5月29日晚,王力宏杭州演唱会迎来特别嘉宾 —— 宇树 G1人形机器人登台献艺...
这个周末,他们在重庆科技馆“种... 当国家大科学装置“人造太阳”走出实验室,与青少年的奇思妙想相遇,会擦出怎样的火花?5月30日,正值第...
2026年上海科技节闭幕,“科... 随着一段AI媒体播报带领观众重温科学红毯秀、科技传播大会等精彩瞬间,5月30日,2026年上海科技节...
荣登CCTV民族品牌,青岛海大... 近日,青岛海大生物集团股份有限公司成功入选CCTV《铸造民族品牌 传承工匠精神》项目,同步登陆CCT...
看不懂华为韬定律?拆解中国芯片... 2026年5月25日,上海IEEE国际电路与系统研讨会的现场,一张写着“韬(τ)定律”的幻灯片,瞬间...
互联网信息内容多渠道分发服务管... 国家互联网信息办公室 中华人民共和国公安部 中华人民共和国文化和旅游部 国家市场监督管理总局 国家广...
2026年5月新手充电宝避坑指... 一、选宝焦虑终结者:科学选购充电宝,拒绝盲目跟风 多数消费者选购充电宝都有踩坑经历:高价大牌产品普遍...
小程序UV科普全攻略:揭秘独立... 对于许多刚踏入微信小程序生态的开发者或运营新手来说,后台数据面板上密密麻麻的指标往往让人摸不着头脑。...
易达天车取得小型天车的驱动机构... 国家知识产权局信息显示,深圳市易达天车智造有限公司取得一项名为“小型天车的驱动机构”的专利,授权公告...