OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

驾驶辅助:这4个中文字 真的是... 驾驶辅助,这几个字,真的是很难理解吗? 我一直以为,只要上过小学,看到它,都应该知道它所表达的意思。...
李想谈新能源车纯电和增程技术线... 凤凰网科技讯 6月17日,理想汽车创始人、董事长兼CEO李想发文,谈到纯电与增程汽车的区别。 李想表...
五谷寄期许、科创谢师恩,中国农... 6月17日,中国农业大学8000余名2026届毕业生迎来拨穗礼。毕业典礼上演了一场特别的“双向奔赴”...
三大运营商“杀熟”,搞区别对待... 评论员 陈柯旭 手机套餐越用越贵,流量却越来越少,专挑老用户下手? 最近,央视曝光三大运营商“杀熟”...
原创 雷... 有些手机,第一眼看上去不是参数,而是一种气质。像夏天傍晚街边橱窗里的一束光,明明不张扬,却会让人忍不...
索尼宣布开发Rialto 65... 【CNMO科技消息】6月17日,索尼宣布正在开发一款用于数字电影拍摄的大尺寸传感器模块Rialto ...
阿里、字节再加码具身,互联网大... 6月16日,阿里巴巴发布千问具身智能大模型Qwen-Robot系列,包含 VLA 操作模型Qwen-...
领拓创新取得具有分层散热风道的... 国家知识产权局信息显示,深圳市领拓创新电子有限公司取得一项名为“具有分层散热风道的电脑主板”的专利,...
原创 人... 一台超级计算机给出了一个让人脊背发凉的数字——2.5亿年。这不是科幻小说里的桥段,而是英国布里斯托大...
8GB内存也能流畅运行,微软T... IT之家 6 月 17 日消息,科技媒体 Windows Latest 昨日(6 月 16 日)发布...