奥特曼自诩:达到或接近天才水平!OpenAI,重磅发布!
创始人
2025-04-17 21:00:49
0

OpenAI迄今最智能的推理模型发布。

今日,OpenAI发布了最新两款o系列推理模型,分别是o3和o4-mini,这也是o系列中首次可以使用图像进行思维链推理、实现“看图思考”的模型。其中,o3是其最强大的推理旗舰模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都处于领先位置;o4-mini是一个针对快速高效、成本效益推理进行优化的较小模型,更具性价比。

在两款o系列推理模型发布后,OpenAI首席执行官萨姆·奥特曼转发一名体验者的推文,并表示新模型“达到或接近天才水平”。此外,奥特曼还表示,预计会在未来几周内将o3升级到专业版o3-pro。

视觉推理能力“首秀”,具备自主执行任务能力

据OpenAI介绍,最新发布的o3和o4-mini经过训练后,可以在做出反应前进行更长时间的思考。这是公司迄今为止发布的最智能的模型,代表着ChatGPT能力的一次重大飞跃。

记者注意到,在半小时的线上发布会直播中,此前曾长期休假的OpenAI总裁GregBrockman(格雷格·布洛克曼)也作为发布者,向观众介绍和演示o3和o4-mini。

根据介绍及演示,o3和o4-mini主要有以下亮点:

一是性能更强大。作为OpenAI迄今最强大的推理模型,o3和o4-mini在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。在STEM问答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知原语(VLMsareBlind)和视觉搜索(V*)方面均达到了新的最先进性能。

此外,在外部专家的评估中,o3在困难的现实任务中比OpenAIo1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini作为一款体型更小的模型,则以其尺寸和成本实现了卓越的性能,是AIME2024和2025基准测试中表现最佳的模型。而且o4-mini支持比o3高得多的使用限制,具备高容量、高吞吐量的优势。

二是具备图像思考和推理能力,可实现“看图思考”。与前代模型相比,o3和o4-mini模型可以直接将图像整合到思维链中,用图像来进行思考,并在多模态基准测试中展现出顶尖性能。

OpenAI称,人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下,模型也能对其进行解读。借助工具,模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。

三是可调动ChatGPT中的工具,自主执行任务。据介绍,o3和o4-mini可以完全访问ChatGPT中的工具,以及通过API中的函数调用访问用户自己的自定义工具。例如,用户可能会问:“加州夏季的能源使用量与去年相比如何?”该模型可以搜索网络公共事业数据,编写Python代码进行预测,生成图表或图像,并解释预测背后的关键因素,并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。

新模型“小步快跑”,GPT-5依然不见踪影

最近一段时间以来,OpenAI在新模型、新功能的发布上保持着密集的节奏,以层出不穷的新模型展现技术的最新实力。

值得注意的是,在推出o3系列最新模型的前一天,OpenAI还推出三款GPT-4.1系列模型,包含标准版GPT-4.1、轻量款GPT-4.1mini,以及超小型版本GPT-4.1nano。事实上,此前GPT系列模型已进化至4.5版本,而此次的“倒退”则是OpenAI在面对全球大模型厂商激烈的价格竞争而采取的策略,以更具性价比的4.1版本吸引更多用户。

据介绍,GPT-4.1最大优势在于多模态处理、代码能力、指令遵循和成本方面实现显著提升。价格方面,GPT-4.1比GPT-4o价格降低26%,GPT-4.1Nano作为最小、最快的模型,价格也最便宜,每百万token的成本仅为12美分。

相比于这些新模型,公众一直更为期待的是GPT-5,但GPT-5的发布时间却一直在延迟。去年年底,华尔街日报报道称,GPT-5正面临重重困难,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。

奥特曼此前也曾经表示,由于计算能力的限制,公司无法按预期频率推出GPT-5。今年4月初,奥特曼在社交媒体上发文称,GPT-5的发布比预期要晚,因为“顺利整合所有内容比我们预想的要困难得多。”他表示,将在未来几周内发布o3和o4-mini,未来几个月将发布GPT-5,并强调GPT-5发布后会非常受欢迎,可能会有大量的用户使用,所以需要提前做好准备。

与备受关注的GPT-5一样,目前大家也对DeepSeek的下一代推理模型R2充满期待。市场预期R2将于今年5月推出。前不久,DeepSeek与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(MetaRewardModel)两项核心技术,为提升大语言模型的推理能力提供了全新方法论,被视为下一代推理模型R2的重要技术铺垫。

责编:叶舒筠

校对:祝甜婷

相关内容

热门资讯

微信更新“面对面收照片和文件”... 【太平洋科技快讯】2月25日消息,微信员工“客村小蒋”昨天在微博发文,详解微信最近更新的“面对面收照...
创新赋能发展!临空4项创新案例... 创新犹如一把金钥匙,能够开启新的发展机遇之门,为区域经济腾飞注入源源不断的活力。2025年,首都机场...
开源兼容层Wine 11.3发... IT之家 2 月 25 日消息,科技媒体 Linuxiac 昨日(2 月 24 日)发布博文,报道称...
春晚同款机器人表演咨询量激增,... 马年春晚上一场《武BOT》的表演,机器人以兼具丝滑和力量的武术动作“震撼”全国观众。 舞台上机器人...
大族数控获得发明专利授权:“光... 证券之星消息,根据天眼查APP数据显示大族数控(301200)新获得一项发明专利授权,专利名为“光束...
AI会增加人类智商!清华大学专... 快科技2月25日消息,近日,中国工程院外籍院士、清华大学智能产业研究院(AIR)创始院长张亚勤预测表...
道氏技术获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示道氏技术(300409)新获得一项发明专利授权,专利名为“一种...
原创 开... 当美国科技巨头甩出亿美元级别的天价筹码一周内闪电挖走四名中国籍AI顶尖工程师时,这场看似简单的人才流...
开箱体验:实测心系天下三星W2... 对于商务精英而言,被海量信息裹挟,保持自身节奏与秩序、在信息洪流之中从容自处,堪称必备素养。对我来说...
PCB产业升级红利凸显 瑞丰高... AI技术迭代推动PCB(印刷电路板)产业向高性能、高密度升级,叠加高端电子材料国产替代进程的深化,上...