OpenAI 发布全新安全推理模型:GPT-OSS-Safeguard
创始人
2025-10-30 07:40:25
0

OpenAI 今日正式发布两款全新开源安全模型 GPT-OSS-Safeguard-120B 与 GPT-OSS-Safeguard-20B,这是基于 GPT-OSS 系列微调的 “安全分类推理模型(Safety Reasoning Models)”,主要用于内容审核、政策分类与信任安全系统的自动化推理。

OpenAI 表示,该系列模型可让开发者自定义政策规则(custom policy),模型会根据这些规则对消息、回复、对话进行分类和判断。模型在多策略(multi-policy)准确率评估中,超越 GPT-5-Thinking 与原版 GPT-OSS 模型,在内部测试中取得 52.2% 的最高准确率。

模型亮点

开源可调:基于 GPT-OSS 开源底模微调,遵循 Apache 2.0 许可证,可自由商用与再训练。

多策略推理(Multi-policy Reasoning):能同时处理不同合规或内容标准(如不同国家政策或平台规范)。

深度政策理解:通过“policy prompts”机制,让开发者可定义更复杂的安全规则与分类逻辑。

透明与安全并行:OpenAI 表示该系列是“以安全为中心的开源实验”,旨在帮助开发者理解并构建更透明的 AI 安全系统。

OpenAI Cookbook 指南同步上线,指导开发者如何:

编写高效的政策提示(policy prompts),最大化 Safeguard 的推理能力;

选择合适的策略长度(policy length)以支持深度分析;

将 Safeguard 输出整合至生产级 Trust & Safety 系统中。

OpenAI 指出,这份“安全食谱”旨在让更多团队能直接在自家产品中实现自定义安全推理逻辑。

此次模型发布由 OpenAI 与 ROOST 团队联合开发,ROOST 参与了模型需求定义、测试与开发者文档撰写。目前模型已上线 Hugging Face,并在 OpenAI Cookbook 平台开放技术说明。

“我们希望通过开源,让开发者真正理解模型的安全推理机制,并能将安全标准以代码形式落地。”——OpenAI 团队官方声明

性能对比(内部评估)

在多策略准确率(Multi-Policy Accuracy)测试中,模型表现如下:

可见 Safeguard 在推理一致性与政策分类的表现均显著领先。

这是 OpenAI 在“模型安全开源化”上的一次重要动作。与其说 Safeguard 是个模型,不如说它是 OpenAI 在“让 AI 理解人类规则”上的实验场。它可能预示着未来安全标准将不再靠人工审核,而是靠“可解释的 AI 守门人”。

模型与文档链接:

• Hugging Face 集合页: huggingface.co/collections/openai/gpt-oss-safeguard

• 官方 Cookbook 说明书: cookbook.openai.com/articles/gpt-oss-safeguard(转自AI普瑞斯)

相关内容

热门资讯

润之达取得可调节高度的稳定塔专... 国家知识产权局信息显示,武汉市润之达石化设备有限公司取得一项名为“一种可调节高度的稳定塔”的专利,授...
开平远航取得螺旋桨翻转装置专利... 国家知识产权局信息显示,开平市远航螺旋桨制造有限公司取得一项名为“一种螺旋桨翻转装置”的专利,授权公...
榆小司和你学党史丨400斤小米... 他的名字曾绝密28年 他的研究填补了中国原子核理论空白 他和众多科研工作者齐心协力 以世界上最快的速...
物联网赋能工厂智慧监管:从数据... 在工业4.0浪潮的推动下,传统工厂依赖人工巡检、分散管控的模式已难以应对设备复杂度提升、生产环境动态...
扎克伯格亲手杀死元宇宙 文|象先志 2026年1月的拉斯维加斯,CES(国际消费电子展)正如火如荼,场馆的空气里飘浮着一种...
景嘉微:两类产品的研发均需攻克... 证券之星消息,景嘉微(300474)01月16日在投资者关系平台上答复投资者关心的问题。 投资者:董...
滁州的“新导航”②丨产业强市:... 人民网记者 周坤 1月15日,走进滁州市的安徽康佳电子有限公司,大屏幕上的数据实时跳动,AGV机器人...
换手机建议不要跟风,2026可... 选手机这事儿,有时候真不用追着最新、最贵的型号跑,关键还得看核心配置和实际体验是不是真的对上了你的需...
耳夹式骨传导耳机推荐:按预算与... 快速选购总览:30秒看懂怎么选 1.1 核心结论速览 在 2026 年选购骨传导耳机,核心逻辑不再是...
智造之巅:光明政群CNC五轴培... 五轴机床的刀尖在钛合金工件上划出精准弧线,一个用于高端医疗设备的关节植入物逐渐成形,这是深圳市光明区...