OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

市级重点项目力能机械新产线投产 10日,市级重点建设项目力能机械的半导体零部件生产线全面投产。 2015年,力能机械在北京成立,专门...
Meta裁员8000人,开发与... 据《商业内幕》,Meta上月裁撤约8000个岗位,其中加州与华盛顿州共4665名受影响员工的岗位名称...
Vlog丨逐浪津门 外籍友人邂...   6月7日,“人权行动看中国·2026”天津行活动举行。新华社记者随同外籍专家、友人一同实地参访,...
人社部门为高校毕业生 配“职业... 近日,沈阳市沈河区人社局联合企业在万达广场成功举办“梦想新起点·技能助就业”高校毕业生就业护航活动。...
累计有效专利221件!知识产权... 在创新驱动发展战略的引领下,知识产权正日益成为企业构筑核心竞争力、实现高质量发展的关键引擎。6月9日...
Linux内核惊现高危漏洞:一... 安全研究人员近日对Linux系统中一个高危漏洞展开深入分析。该漏洞可利用内核代码中一个罕见的错误字符...
长信科技(300088)新增【... 证券之星消息,根据市场公开信息整理,6月10日长信科技(300088)新增【先进封装】概念。 新增概...
智能体时代,中兴AI云电脑正在... 上世纪80年代,从微软以Windows定义个人电脑以来,这台“机器”就成了人类生产力的延伸。它从早期...
阿里合伙人委员会点名批评钉钉团... 6月10日,阿里巴巴合伙人委员会在内网发布帖文《有情有义有成长,才是阿里文化》,对连日来《置身钉内》...
2026年二手iPhone 1... 一、为什么iPhone 13至今仍是二手市场宠儿? 在2026年的智能手机市场,iPhone 13...