OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

以科学阅读抵御“数字泔水”的侵... 当前,人工智能技术以前所未有的广度与深度融入日常生活,甚至有可能带来颠覆性的变革。从信息传播的角度来...
财经观察:缺核心技术,印度新能... 【环球时报驻巴基斯坦特约记者 黄晓娜 环球时报记者 丁雅栀】编者的话:彭博社日前引述知情人士的消息称...
媒体看云霄丨云霄:无人机“空中... -广告- 近日,云霄县低空无人机遥感数据运营中心正式揭牌,一期投资1500万元,部署24个自动巡航无...
从数字现金升级为数字存款货币 ... 1月1日起,新一代数字人民币计量框架、管理体系、运行机制和生态体系正式启动实施,数字人民币升级为2....
破局与进阶:年轻律师从10万到... 关注本号: 核心摘要 在法律服务市场从“卖方市场”转向“买方市场”的今天,年轻律师面临着前所未有的案...
怀化市本级开展人工智能训练师培... 为切实提升怀化市人工智能训练师教师的授课能力,优化培训机构的管理服务水平,1月19日,怀化市本级开展...
从“隔城”到“比邻” 长泰智能... 福建新梦智能家居有限公司新增的床垫自动化生产线(林珠荣 摄) 依托龙头企业的牵引,将会激发怎样的连锁...
机器人将再上春晚 量产及应用引... 本报记者 郭冀川 据中央广播电视总台消息,2026年春节联欢晚会“科技+艺术”再度进阶,将“科技智造...
高职院校“造星”路登上艺术舞台 “看,夜空中最亮的那颗星,是‘南京号’科普卫星!”1月14日至16日,原创话剧《夜空中最亮的星》在南...
开发区一家算力中心投用 机房内机柜整齐排列,指示灯有序闪烁,数据在190台服务器中流动,技术人员正调试参数,实时监测算力资源...