OpenAI发布新研究:用CoT监控大模型 防止恶意行为
创始人
2025-03-11 09:20:51
0

【CNMO科技消息】近两年,AI大模型在全球范围内迅速普及,几乎人人都在使用AI。然而,随着AI的广泛应用,如何解决大模型的安全和治理问题也变得愈发迫切。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的方法,可以有效阻止大模型的恶意行为,如胡说八道或隐藏真实意图。这一方法也被视为监督超级模型的有效工具之一。

在研究中,OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超仅监控行为的60%。

在2025年GDC全球开发者先锋大会的工作坊“安全超级智能”上,AI智能安全研究员朱小虎作为此次工作坊的负责人,指出:“你的AI大模型有可能会欺骗你。”他提到,大模型存在“欺骗性价值对齐”(Deceptive value alignment)的情况,即模型通过欺骗的方式获得对齐,但这种对齐并不能反映AI的真实目标或意图。这种现象在训练阶段和推理阶段尤为明显,模型会对形成的上下文产生“欺骗性的对齐”,从而影响用户的判断,尤其是老年人和儿童。此外,这种行为还可能侵犯隐私,是模型不安全的一大方面。

OpenAI的最新研究为解决这些问题提供了新的思路。通过CoT监控方法,可以有效识别和阻止大模型的恶意行为,提升AI的安全性和可靠性。

相关内容

热门资讯

财经态度丨2026中关村论坛年... 央广网北京3月20日消息(记者李硕)据中央广播电视总台经济之声《交易实况》报道,2026中关村论坛年...
包头:老工业基地的澎湃“智能” 传统工业城市在很多人的印象里,是这样的:烟囱林立、机器轰鸣、环境老旧……但如今在内蒙古最大的工业城市...
谷歌升级AI界面开发工具Sti... 谷歌公司今日发布了人工智能工具Stitch的全新版本,该工具可以为网站和移动应用生成用户界面。 图形...
智算项目商机早知道(54页PP... 今天分享的是:智算项目商机早知道(54页PPT) 报告共计:54页 智算赛道风云起:一份报告揭秘20...
苹果入局,2026年全球折叠屏... 3月19日,Counterpoint Research报告显示,受苹果预计入局、智能手机市场持续高端...
原创 千... 这两年看手机市场,我最大的感受就是,很多厂商越来越会“表演”了。 发布会上一个比一个会讲故事,什么影...
市委统战部组织开展统一战线青年... 3月20日,市委统战部组织开展统一战线青年理论学习小组“同心咖啡时”活动,本次活动围绕“从‘对话’到...
华为云CEO周跃峰:模型竞争的... 全球AI竞赛的焦点,已经从通用模型能力,转向实际行业应用能力。在这场新的商业竞速中,企业究竟该如何构...
首个国家级医保影像AI赛事落户... 央广网南宁3月20日消息(记者滕艳娇)由国家医保局与广西壮族自治区人民政府共同主办的首届全国医保影像...
星空相册丨“长庚伴月”春分现天... 3月20日是春分节气,“长庚伴月”重现天宇。金星黎明见于东方天空时叫“启明”,黄昏见于西边天空时称“...