奥特曼自诩:达到或接近天才水平!OpenAI,重磅发布!
创始人
2025-04-17 21:00:49
0

OpenAI迄今最智能的推理模型发布。

今日,OpenAI发布了最新两款o系列推理模型,分别是o3和o4-mini,这也是o系列中首次可以使用图像进行思维链推理、实现“看图思考”的模型。其中,o3是其最强大的推理旗舰模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都处于领先位置;o4-mini是一个针对快速高效、成本效益推理进行优化的较小模型,更具性价比。

在两款o系列推理模型发布后,OpenAI首席执行官萨姆·奥特曼转发一名体验者的推文,并表示新模型“达到或接近天才水平”。此外,奥特曼还表示,预计会在未来几周内将o3升级到专业版o3-pro。

视觉推理能力“首秀”,具备自主执行任务能力

据OpenAI介绍,最新发布的o3和o4-mini经过训练后,可以在做出反应前进行更长时间的思考。这是公司迄今为止发布的最智能的模型,代表着ChatGPT能力的一次重大飞跃。

记者注意到,在半小时的线上发布会直播中,此前曾长期休假的OpenAI总裁GregBrockman(格雷格·布洛克曼)也作为发布者,向观众介绍和演示o3和o4-mini。

根据介绍及演示,o3和o4-mini主要有以下亮点:

一是性能更强大。作为OpenAI迄今最强大的推理模型,o3和o4-mini在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。在STEM问答(MMMU、MathVista)、图表阅读和推理(CharXiv)、感知原语(VLMsareBlind)和视觉搜索(V*)方面均达到了新的最先进性能。

此外,在外部专家的评估中,o3在困难的现实任务中比OpenAIo1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini作为一款体型更小的模型,则以其尺寸和成本实现了卓越的性能,是AIME2024和2025基准测试中表现最佳的模型。而且o4-mini支持比o3高得多的使用限制,具备高容量、高吞吐量的优势。

二是具备图像思考和推理能力,可实现“看图思考”。与前代模型相比,o3和o4-mini模型可以直接将图像整合到思维链中,用图像来进行思考,并在多模态基准测试中展现出顶尖性能。

OpenAI称,人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下,模型也能对其进行解读。借助工具,模型可以动态操作图像,在推理过程中进行旋转、缩放或变换。

三是可调动ChatGPT中的工具,自主执行任务。据介绍,o3和o4-mini可以完全访问ChatGPT中的工具,以及通过API中的函数调用访问用户自己的自定义工具。例如,用户可能会问:“加州夏季的能源使用量与去年相比如何?”该模型可以搜索网络公共事业数据,编写Python代码进行预测,生成图表或图像,并解释预测背后的关键因素,并将多个工具调用串联起来。推理功能使模型能够根据遇到的信息做出反应和调整。

新模型“小步快跑”,GPT-5依然不见踪影

最近一段时间以来,OpenAI在新模型、新功能的发布上保持着密集的节奏,以层出不穷的新模型展现技术的最新实力。

值得注意的是,在推出o3系列最新模型的前一天,OpenAI还推出三款GPT-4.1系列模型,包含标准版GPT-4.1、轻量款GPT-4.1mini,以及超小型版本GPT-4.1nano。事实上,此前GPT系列模型已进化至4.5版本,而此次的“倒退”则是OpenAI在面对全球大模型厂商激烈的价格竞争而采取的策略,以更具性价比的4.1版本吸引更多用户。

据介绍,GPT-4.1最大优势在于多模态处理、代码能力、指令遵循和成本方面实现显著提升。价格方面,GPT-4.1比GPT-4o价格降低26%,GPT-4.1Nano作为最小、最快的模型,价格也最便宜,每百万token的成本仅为12美分。

相比于这些新模型,公众一直更为期待的是GPT-5,但GPT-5的发布时间却一直在延迟。去年年底,华尔街日报报道称,GPT-5正面临重重困难,该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。

奥特曼此前也曾经表示,由于计算能力的限制,公司无法按预期频率推出GPT-5。今年4月初,奥特曼在社交媒体上发文称,GPT-5的发布比预期要晚,因为“顺利整合所有内容比我们预想的要困难得多。”他表示,将在未来几周内发布o3和o4-mini,未来几个月将发布GPT-5,并强调GPT-5发布后会非常受欢迎,可能会有大量的用户使用,所以需要提前做好准备。

与备受关注的GPT-5一样,目前大家也对DeepSeek的下一代推理模型R2充满期待。市场预期R2将于今年5月推出。前不久,DeepSeek与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(MetaRewardModel)两项核心技术,为提升大语言模型的推理能力提供了全新方法论,被视为下一代推理模型R2的重要技术铺垫。

责编:叶舒筠

校对:祝甜婷

相关内容

热门资讯

地球生命起源有新解 或诞生于水... 王信强 斯坦福大学的一项研究显示,生命可能起源于水滴中的“微闪电”。也就是说,构成地球生命的第一个分...
优刻得与数道智算达成智算中心战... 近日,优刻得与智能计算领域创新企业北京数道智算科技有限公司(下称:数道智算)正式签署战略合作协议,双...
马化腾三大战略揭秘:从差点卖 ... 文 / 大力财经 作者 / 魏力 站在AI 时代的十字路口回望,腾讯的成功绝不是偶然。从 QQ 到微...
游戏ios系统管理:便宜好用且... **一、云手机在游戏群控管理中的重要性** 在当今的游戏世界里,特别是对于那些需要多账号操作或者...
局域网监控软件哪家好?5款高端... 你是否遇到过这样的烦恼: 公司网络突然变慢,却找不到原因? 员工上班时间刷视频、打游戏,工作效率低下...
钦州市中医医院引入联影AI影像... 进入2025年,人工智能(AI)技术在医疗领域的应用得到持续深化。为推进医院医疗服务从“信息化”向“...
魔法原子举办2025场景战略发... 3月26日,魔法原子举办「原子双生」2025场景战略发布会,正式推出人形机器人和四足机器人,并首次推...
西湖大学开发出精准定位脑疾病细... 2025-03-20 08:41:52 作者:狼叫兽 近日,西湖大学杨剑教授团队在脑疾病研究领域...
时隔两月半,微信内测爆更! 在多个新功能灰度放量后,微信官方终于发布了新版本更新。 就在昨晚(3 月 10 日), 微信安卓平台...
学而思“上新”,学习机的“参数... 来源:雪豹财经社 在小红书上,“学习机哪个牌子好用推荐”的相关笔记超过130万篇。面对市面上大量同质...