奥特曼自诩：达到或接近天才水平！OpenAI，重磅发布！_科技动态

奥特曼自诩：达到或接近天才水平！OpenAI，重磅发布！

创始人

2025-04-17 21:00:49

0次

OpenAI迄今最智能的推理模型发布。

今日，OpenAI发布了最新两款o系列推理模型，分别是o3和o4-mini，这也是o系列中首次可以使用图像进行思维链推理、实现“看图思考”的模型。其中，o3是其最强大的推理旗舰模型，在编程、数学、科学、视觉感知等多个维度的基准测试中都处于领先位置；o4-mini是一个针对快速高效、成本效益推理进行优化的较小模型，更具性价比。

在两款o系列推理模型发布后，OpenAI首席执行官萨姆·奥特曼转发一名体验者的推文，并表示新模型“达到或接近天才水平”。此外，奥特曼还表示，预计会在未来几周内将o3升级到专业版o3-pro。

视觉推理能力“首秀”，具备自主执行任务能力

据OpenAI介绍，最新发布的o3和o4-mini经过训练后，可以在做出反应前进行更长时间的思考。这是公司迄今为止发布的最智能的模型，代表着ChatGPT能力的一次重大飞跃。

记者注意到，在半小时的线上发布会直播中，此前曾长期休假的OpenAI总裁GregBrockman（格雷格·布洛克曼）也作为发布者，向观众介绍和演示o3和o4-mini。

根据介绍及演示，o3和o4-mini主要有以下亮点：

一是性能更强大。作为OpenAI迄今最强大的推理模型，o3和o4-mini在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。在STEM问答（MMMU、MathVista）、图表阅读和推理（CharXiv）、感知原语（VLMsareBlind）和视觉搜索（V*）方面均达到了新的最先进性能。

此外，在外部专家的评估中，o3在困难的现实任务中比OpenAIo1犯的重大错误少20%，尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini作为一款体型更小的模型，则以其尺寸和成本实现了卓越的性能，是AIME2024和2025基准测试中表现最佳的模型。而且o4-mini支持比o3高得多的使用限制，具备高容量、高吞吐量的优势。

二是具备图像思考和推理能力，可实现“看图思考”。与前代模型相比，o3和o4-mini模型可以直接将图像整合到思维链中，用图像来进行思考，并在多模态基准测试中展现出顶尖性能。

OpenAI称，人们可以上传白板照片、教科书图表或手绘草图，即使图像模糊、反转或质量低下，模型也能对其进行解读。借助工具，模型可以动态操作图像，在推理过程中进行旋转、缩放或变换。

三是可调动ChatGPT中的工具，自主执行任务。据介绍，o3和o4-mini可以完全访问ChatGPT中的工具，以及通过API中的函数调用访问用户自己的自定义工具。例如，用户可能会问：“加州夏季的能源使用量与去年相比如何？”该模型可以搜索网络公共事业数据，编写Python代码进行预测，生成图表或图像，并解释预测背后的关键因素，并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。

新模型“小步快跑”，GPT-5依然不见踪影

最近一段时间以来，OpenAI在新模型、新功能的发布上保持着密集的节奏，以层出不穷的新模型展现技术的最新实力。

值得注意的是，在推出o3系列最新模型的前一天，OpenAI还推出三款GPT-4.1系列模型，包含标准版GPT-4.1、轻量款GPT-4.1mini，以及超小型版本GPT-4.1nano。事实上，此前GPT系列模型已进化至4.5版本，而此次的“倒退”则是OpenAI在面对全球大模型厂商激烈的价格竞争而采取的策略，以更具性价比的4.1版本吸引更多用户。

据介绍，GPT-4.1最大优势在于多模态处理、代码能力、指令遵循和成本方面实现显著提升。价格方面，GPT-4.1比GPT-4o价格降低26%，GPT-4.1Nano作为最小、最快的模型，价格也最便宜，每百万token的成本仅为12美分。

相比于这些新模型，公众一直更为期待的是GPT-5，但GPT-5的发布时间却一直在延迟。去年年底，华尔街日报报道称，GPT-5正面临重重困难，该项目已开发超过18个月，成本花费巨大，却仍未取得预期成果。

奥特曼此前也曾经表示，由于计算能力的限制，公司无法按预期频率推出GPT-5。今年4月初，奥特曼在社交媒体上发文称，GPT-5的发布比预期要晚，因为“顺利整合所有内容比我们预想的要困难得多。”他表示，将在未来几周内发布o3和o4-mini，未来几个月将发布GPT-5，并强调GPT-5发布后会非常受欢迎，可能会有大量的用户使用，所以需要提前做好准备。

与备受关注的GPT-5一样，目前大家也对DeepSeek的下一代推理模型R2充满期待。市场预期R2将于今年5月推出。前不久，DeepSeek与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文，提出自我原则点评调优（SPCT）与元奖励模型（MetaRewardModel）两项核心技术，为提升大语言模型的推理能力提供了全新方法论，被视为下一代推理模型R2的重要技术铺垫。

责编：叶舒筠

校对：祝甜婷

上一篇：苹果Vision Air头显曝光采用深蓝配色和轻量化设计

下一篇：机器狗都在杭州忙什么？

奥特曼自诩：达到或接近天才水平！OpenAI，重磅发布！

相关内容

热门资讯