OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

绿联DXP4800 GT深度体... 近年来,移动设备性能的飞速提升,伴随而来的是个人数据量的急剧膨胀。曾经 64GB 的手机存储空间就足...
【科普】科技名词|贝尼奥夫带 科技名词 贝尼奥夫带 名词解释 贝尼奥夫带 Benioff zone 定义:自海沟向岛弧或大陆倾斜的...
AI涌入文博会,腾讯搬出“文化... 深圳商报·读创客户端首席记者 袁静娴 5月21日,第二十二届中国(深圳)国际文化产业博览交易会在深...
纳赛尔·梅蒙:人工智能时代,何... 本文为纳赛尔·梅蒙(Nasir Memon)教授(上海纽约大学计算机科学、数据科学与工程学部代理主任...
阿里云首批官方Skills正式... 5月20日,阿里云正式发布云Skills官网门户及首批官方Skills产品,这是国内云厂商首次系统性...
湖北出台措施支持人工智能OPC... 武汉5月20日电 (记者 梁婷)湖北培育“AI+超级个体”新型创业模式,该省近日正式出台系列措施,支...
AMD 2nm芯片量产,性能要... IT之家 5 月 21 日消息,AMD 今天宣布,第六代霄龙处理器(代号“Venice”)在中国台湾...
2026年6月企业管理工作手机... 2026年,企业数字化管理进入深度落地阶段,兼具AI全链路赋能、合规安全管控、硬件稳定适配的工作手机...
临沂企业这样做无效?问题不在没... 很多临沂企业在问GEO优化时,第一句话往往都差不多:能不能把我们做上去,能不能尽快见效果。真到沟通细...
无智联不AI,无安全不智联|华... 【中国,深圳,2026年5月18日】备受行业瞩目的华为2026星河AI网络商业峰会,在深圳市工信局、...