OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

1U服务器机箱厂家梳理 数据中... 导语:基于2026年服务器硬件行业白皮书及公开市场数据,1U服务器机箱选型需聚焦散热效率、扩展兼容性...
2026年石家庄高新区学生手机... 随着智能手机全面融入学生群体的学习与日常生活,选购一款适配需求的高性价比防水手机,成为不少石家庄高新...
防爆扬声器厂家梳理 工业场景安... 导语:在工业生产环境中,防爆扬声器作为安全通讯的核心设备,其防爆性能、抗噪能力及稳定性直接影响作业安...
在世界屋脊聆听宇宙之声   6月20日拍摄的羊八井国际宇宙射线观测站(无人机照片)。   在西藏当雄县羊八井镇海拔4300米...
IBM宣称推出全球首个亚纳米芯... IBM推出的全新芯片架构,可在指甲盖大小的芯片上集成近1000亿个晶体管,晶体管密度约为该公司上一代...
福州九举措“力挺”人工智能产业 市政府办公厅近日印发《福州市促进人工智能产业发展若干措施》,涵盖模型开发、研发创新、场景应用等九条举...
区投促中心组织召开“投资朝阳”... 近日, “投资朝阳”小程序升级为中英双语版,并已上线试运行。为进一步发挥小程序作用,6月24日,区投...
荣耀Magic V6斩获亚洲最... 2026MWC上海展会期间,全球移动大奖·亚洲(GLOMO Awards Asia)正式揭晓。荣耀最...
怎么选择沈阳沃方宽安装合作方 随着数字化生活的普及,宽带已经成为居民日常用网、企业办公运营的刚需配套,沈阳本地的宽带服务市场供给充...
原创 美... 芯片制造离不开各种设备,按照专业说法,从砂子变成芯片,中间需要几千道工序,几百种设备,比如光刻机、刻...