OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

消息称亚马逊AWS为降低AI推... IT之家 6 月 14 日消息,据 Wccftech 报道,富国银行 (Wells Fargo) 的...
2026年6月荣耀600系列,... 2026年6月的手机市场,荣耀600系列以“同价位段最好用好玩”的姿态强势登场,它凭借2亿像素AI超...
为南极永久月面基地铺路,美国 ... 感谢IT之家网友 的线索投递! 6 月 14 日消息,据外媒 New Atlas 昨天报道,美国 N...
Meta向旗下Quest 2/... IT之家 6 月 14 日消息,据外媒 UploadVR 报道,Meta 旗下全新 Navigato...
中国第二大手机系统!鸿蒙6终端... 快科技6月14日消息,在华为开发者大会上,华为正式发布新一代鸿蒙7操作系统。 据介绍, 鸿蒙已成为中...
海信取得换热器和空调器专利,有... 国家知识产权局信息显示,海信(广东)空调有限公司取得一项名为“换热器和空调器”的专利,授权公告号CN...
原创 日... 2026年6月12日,日本种子岛航天中心的清晨带着海风特有的潮湿气息,H3火箭六号机在轰鸣声中成功升...
华为正式发布鸿蒙7开发者Bet... 北京商报讯(记者 金朝力) 6月12日,在华为开发者大会2026(HDC2026)上,Harmony...
我国气象科研团队巧解融化层雷达... 进入夏季,降水频频。气象雷达作为监测降水的利器,靠发射电磁波、接收回波来“看”雨的走势和规模。然而,...
原创 美... 神舟二十号是在2025年4月24日从酒泉卫星发射中心点火升空的,乘组由陈冬、陈中瑞、王杰三人组成。起...