奥特曼自诩:达到或接近天才水平!OpenAI,重磅发布!
创始人
2025-04-17 21:00:49
0

OpenAI迄今最智能的推理模型发布。

今日,OpenAI发布了最新两款o系列推理模型,分别是o3和o4-mini,这也是o系列中首次可以使用图像进行思维链推理、实现“看图思考”的模型。其中,o3是其最强大的推理旗舰模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都处于领先位置;o4-mini是一个针对快速高效、成本效益推理进行优化的较小模型,更具性价比。

在两款o系列推理模型发布后,OpenAI首席执行官萨姆·奥特曼转发一名体验者的推文,并表示新模型“达到或接近天才水平”。此外,奥特曼还表示,预计会在未来几周内将o3升级到专业版o3-pro。

视觉推理能力“首秀”,具备自主执行任务能力

据OpenAI介绍,最新发布的o3和o4-mini经过训练后,可以在做出反应前进行更长时间的思考。这是公司迄今为止发布的最智能的模型,代表着ChatGPT能力的一次重大飞跃。

记者注意到,在半小时的线上发布会直播中,此前曾长期休假的OpenAI总裁GregBrockman(格雷格·布洛克曼)也作为发布者,向观众介绍和演示o3和o4-mini。

根据介绍及演示,o3和o4-mini主要有以下亮点:

一是性能更强大。作为OpenAI迄今最强大的推理模型,o3和o4-mini在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。在STEM问答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知原语(VLMsareBlind)和视觉搜索(V*)方面均达到了新的最先进性能。

此外,在外部专家的评估中,o3在困难的现实任务中比OpenAIo1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini作为一款体型更小的模型,则以其尺寸和成本实现了卓越的性能,是AIME2024和2025基准测试中表现最佳的模型。而且o4-mini支持比o3高得多的使用限制,具备高容量、高吞吐量的优势。

二是具备图像思考和推理能力,可实现“看图思考”。与前代模型相比,o3和o4-mini模型可以直接将图像整合到思维链中,用图像来进行思考,并在多模态基准测试中展现出顶尖性能。

OpenAI称,人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下,模型也能对其进行解读。借助工具,模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。

三是可调动ChatGPT中的工具,自主执行任务。据介绍,o3和o4-mini可以完全访问ChatGPT中的工具,以及通过API中的函数调用访问用户自己的自定义工具。例如,用户可能会问:“加州夏季的能源使用量与去年相比如何?”该模型可以搜索网络公共事业数据,编写Python代码进行预测,生成图表或图像,并解释预测背后的关键因素,并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。

新模型“小步快跑”,GPT-5依然不见踪影

最近一段时间以来,OpenAI在新模型、新功能的发布上保持着密集的节奏,以层出不穷的新模型展现技术的最新实力。

值得注意的是,在推出o3系列最新模型的前一天,OpenAI还推出三款GPT-4.1系列模型,包含标准版GPT-4.1、轻量款GPT-4.1mini,以及超小型版本GPT-4.1nano。事实上,此前GPT系列模型已进化至4.5版本,而此次的“倒退”则是OpenAI在面对全球大模型厂商激烈的价格竞争而采取的策略,以更具性价比的4.1版本吸引更多用户。

据介绍,GPT-4.1最大优势在于多模态处理、代码能力、指令遵循和成本方面实现显著提升。价格方面,GPT-4.1比GPT-4o价格降低26%,GPT-4.1Nano作为最小、最快的模型,价格也最便宜,每百万token的成本仅为12美分。

相比于这些新模型,公众一直更为期待的是GPT-5,但GPT-5的发布时间却一直在延迟。去年年底,华尔街日报报道称,GPT-5正面临重重困难,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。

奥特曼此前也曾经表示,由于计算能力的限制,公司无法按预期频率推出GPT-5。今年4月初,奥特曼在社交媒体上发文称,GPT-5的发布比预期要晚,因为“顺利整合所有内容比我们预想的要困难得多。”他表示,将在未来几周内发布o3和o4-mini,未来几个月将发布GPT-5,并强调GPT-5发布后会非常受欢迎,可能会有大量的用户使用,所以需要提前做好准备。

与备受关注的GPT-5一样,目前大家也对DeepSeek的下一代推理模型R2充满期待。市场预期R2将于今年5月推出。前不久,DeepSeek与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(MetaRewardModel)两项核心技术,为提升大语言模型的推理能力提供了全新方法论,被视为下一代推理模型R2的重要技术铺垫。

责编:叶舒筠

校对:祝甜婷

相关内容

热门资讯

鑫捷顺取得异形空心管夹具专利,... 金融界2025年6月28日消息,国家知识产权局信息显示,苏州鑫捷顺精密科技股份有限公司取得一项名为“...
“科学家精神百场讲坛”走进西藏... 本网巴宜6月28日电(记者 李菲 光明网记者 宋雅娟 肖春芳)6月28日,“科学家精神百场讲坛”宣讲...
小米申请快捷键操作控制方法等专... 金融界2025年6月30日消息,国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“快捷键...
突破多项技术壁垒 博众仪器20... 上证报中国证券网讯(记者 仲茜)探索科技前沿、论证材料性能、拓展创新应用,这些科学研究都离不开电子透...
PC鲜辣报:RTX 5050正... 上周,英伟达正式发布了RTX 5050系列显卡,包含桌面和笔记本版本;英特尔或将推大缓存版Nova ...
“合成生物智能研发平台”正式启... 6月28日,安徽师范大学与中国科学技术大学、芜湖市弋江区共建的“合成生物智能研发平台(AI4S)”正...
柔韧的手撕钢、会写毛笔字的机器... 6月27日,第二十届中国国际中小企业博览会在广州开幕。作为我国目前规模最大、规格最高、专门面向和服务...
原创 搞... 最近知名机构Canalys发布了一份AI手机数据,表示2025年预计AI手机渗透率会达到34%,并且...
重庆NO.1|重医附一院 × ... 近年来,随着“健康中国2030”战略的深入推进,国家卫健委相继出台《医院信息互联互通标准化成熟度测评...
原创 华... 美国《时代周刊》在6月26日公布了2025年“全球100大最具影响力企业”榜单。中国科技领军企业华为...