OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

AI终端“有尺可量” 业内话产... 中新网北京5月30日电 (记者 刘亮)工信部、市场监管总局等多部门近期发布《人工智能终端智能化分级》...
十款顶级拍照手机推荐,荣耀60... 在这个随手拍就能记录生活的时代,一部影像实力强劲的手机已经成为每个人的必备品。今天我们就来盘点当前市...
龙岗区机器人大道开街 沿街设多... 5月30日下午,龙岗区机器人大道落地启用仪式在星河WORLD园区举行,“All in AI”再迈出关...
从工具到核心 解码制造+AI的... 【环球网科技报道 记者 张阳】“AI给我们带来的是一场不折不扣的全面变革。”5月15日,在合肥举办的...
浙江丽水:一块合成革的“低碳炼... 人民网记者 郭扬 机器匀速转动,一张带花纹的离型纸缓缓前行。水性浆料涂上,烘干,贴合,剥离,一块水性...
20亿美元机器人独角兽将民宿当... IT之家 5 月 31 日消息,旧金山一家估值 20 亿美元的初创企业“The Bot Compan...
龙搭子登场、政策升级……龙岗A... 聚焦电子、模具、汽车、具身机器人四大行业的AI搭子“龙师傅”、为学生提供AI学伴的“龙老师”,可以自...
【新思想引领新征程】矢志创新勇... 央视网消息(新闻联播):科技立则民族立,科技强则国家强。今天(5月30日)是第十个全国科技工作者日。...
钱学森之子:钱学森从未说过“人... “人再笨还学不会微积分吗?”这句话近年来在网络上热传,声称其出自“两弹一星”元勋钱学森先生。还有网友...
原创 一... 雷达财经出品 文|丁禹 编|孟帅 净利润由盈转亏、毛利率暴跌,一季度的理想汽车过得并不“舒坦”。 今...