OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

科技揭秘!新道游辅助软件,超级... 科技揭秘!新道游辅助软件,超级三加一辅助,插件教程(果真有挂);超级三加一辅助AI智能教程细节普及超...
玩家必用!互游辅助518,人海... 玩家必用!互游辅助518,人海大厅辅助插件,揭秘教程(有挂神器);人海大厅辅助插件是一款益智类棋牌手...
分享开挂内幕!赣湘互娱辅助,火... 分享开挂内幕!赣湘互娱辅助,火神工作室辅助大全,德州教程(有人有挂);火神工作室辅助大全最新版本免费...
玩家必看教程!樱花之盛挂,樱花... 玩家必看教程!樱花之盛挂,樱花之盛正版辅助器免费,必备教程(发现有挂);1.樱花之盛正版辅助器免费 ...
推荐一款!新超圣辅助器,新九游... 推荐一款!新超圣辅助器,新九游辅助器软件激活码,靠谱教程(有挂技术)是一款可以让一直输的玩家,快速成...
重大消息!518互游辅助,椰子... 重大消息!518互游辅助,椰子乐动软件辅助,AI教程(真的有挂);重大消息!518互游辅助,椰子乐动...
实测必看!新星游辅助软件,新蛮... 《实测必看!新星游辅助软件,新蛮王辅助器,存在挂教程(有挂辅助)》 新星游辅助软件软件透明挂更新公告...
探访雄安具身智能机器人训练 中新社记者 韩冰 摄 1月8日,河北雄安新区中国雄安集团数字城市科技有限公司(简称“数城公司”)具身...
科普常识!鸿狐拼十辅助,新财神... 科普常识!鸿狐拼十辅助,新财神辅助器,必赢教程(有挂讲解);鸿狐拼十辅助AI智能教程细节普及鸿狐拼十...
黑猫投诉公布2025年日用电器... IT之家 2 月 3 日消息,新浪旗下黑猫投诉今天公布了 2025 年日用电器领域投诉数据报告,去年...