OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

原创 2... 一、性能与颜值兼具的均衡旗舰 在2026年的智能手机市场中,vivo S50系列凭借其 第三代骁龙...
贝斯特(300580)如何卡位... 贝斯特(300580.SZ)凭借其在反向式行星滚柱丝杠上的精准布局,已成为特斯拉、华为等人形机器人产...
演唱会、户外直播:2026年4... 演唱会、户外直播:2026年4K实况手机盘点 2026年,4K Live实况拍摄成为手机影像的新赛道...
2026年高颜值轻薄手机推荐:... 在2026年的智能市场,消费者对手机的要求愈发全面:既要外观出众、轻薄便携,又要系统流畅、性能可靠,...
山西:抢抓5G机遇,激活产业转... 在中煤平朔集团有限公司东露天矿,无人驾驶的运煤卡车沿预设路线平稳行驶,自动避让、精准装卸(资料照片)...
京东方A回应“存储涨价对显示行... IT之家 6 月 7 日消息,京东方 A 现已发布最新一期投资者关系活动记录表,该公司于本月 4 日...
国产光刻新突破!我国首台光芯片... 快科技6月8日消息,璞璘科技近日向深圳力策科技正式交付型号为PL-AS的半导体级真空气压式纳米压印光...
氧化锆锆球:高性能材料中的璀璨... 这是(Ceramic-Millingball)整理的信息,希望能帮助到大家 氧化锆锆球:高性能材料中...
Anthropic 80%代码... 新智元报道 【新智元导读】9650亿估值的IPO野心,与全球AI急刹车的公开呼吁,Anthropi...
2026Q2东莞手机店推荐榜实... 最近跟几个朋友聊天,发现大家换手机的观念全变了。搁在以前,新机一出闭眼冲首发,但到了2026年Q2,...