机器之心报道
编辑:冷猫
人工智能真是日新月异。早上看到网友的评论:我们已经 0 天没有吸引注意的 AI 领域新突破了。
记得三个月前,OpenAI 官宣了他们的推理模型在国际数学奥林匹克(IMO)竞赛中获得了金牌。
现在看,大模型不仅仅在数学领域具有很强的推理泛化能力,也在很多其他科学研究领域中出彩。
值得关注的是,目前顶尖的大模型们都能在各类奥赛中取得令人惊叹的成绩。
就在最近,一篇全新发布的论文中,将国际天文学和天体物理学奥林匹克竞赛 (IOAA) 作为基准测试,证明了 GPT-5 和 Gemini 2.5 Pro 两大模型能够在天文和天体物理学中取得奥赛金牌成绩。
OpenAI 的总裁兼联合创始人 Greg Brockman 转发了这项工作,激动的连 GPT 的名字都打错了:
终有一天,人类走向星辰大海的那一刻,也会有 AI 大模型的痕迹。
为什么选择 IOAA
大型语言模型的出现为人工智能在科学研究,特别是天文学和天体物理学领域带来了新的可能性。虽然传统的天文学机器学习方法在模式识别任务(如目标分类和异常检测)方面表现出色,但它们往往缺乏解决复杂科学问题所需的通用性和复杂推理能力。
当前用于评估天文学领域 LLM 的基准,如 AstroBench 和 Astro-QA,主要侧重于简单的问答形式,通过多项选择或简答题来测试天文学知识。这些评估未能评估真实天文学研究中必不可少的复杂推理、创造性问题解决和扩展推导能力。本研究通过引入一个更严格、更全面的评估框架来解决这一关键差距。
研究人员选择 2022 年至 2025 年的国际天文奥林匹克竞赛(IOAA)试题作为主要基准。这一选择是基于三个关键因素:
首先,不同于 AstroMLab 的 AstroBench 和 Astro-QA 这类主要依赖选择题、简答题或判断题来检测天文知识的现有基准,IOAA 试题具备更高的生态有效性,因为其考查的是实际天文研究中所需的复杂推理、创新性问题求解以及多步推导能力。
其次,根据官方大纲 ,IOAA 题目覆盖了广泛的天文主题,包括宇宙学、球面三角、恒星天体物理、天体力学、光度测量以及观测仪器学,从而保证了评测的全面性。
最后,IOAA 将理论物理、观测约束以及真实天文数据与数学推导结合在一起,提供了一种区别于 IMO、IPhO 和 IOI 等其他奥赛的新型评估方式,可用于检验 LLM 在科学问题求解方面的综合能力。
评估重点关注 IOAA 的两个组成部分:理论问题(共 49 个)和数据分析问题(共 8 个)。理论问题分为第一类(几何 / 空间,需要天球几何和球面三角学)和第二类(物理 / 数学,侧重天体物理计算,无需几何可视化)。由于 LLM 的数字性质,观测部分被排除在外。
金牌结果
不同难度类别下,LLM 在 IOAA 理论题与数据分析题中的表现。所有分数均为相对于总分的标准化百分比。
理论考试
如表所示,GPT-5 和 Gemini 2.5 Pro 在理论考试中表现最为突出,比分领先其他模型 7~25 个百分点。具体来说,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 则在 2024 年以 83.0% 位列第一。
尽管表现整体强势,但我们注意到 GPT-5 在难题上的表现反而优于简单题与中等难度题。我们的分析显示,这种看似反常的波动主要由三方面因素造成:
1. 每个难度等级的问题数量较少,导致模型表现的自然波动。简单题仅有 10 题,中等难度有 11 题,总分分别约为 185 分和 151 分,而总分为 1200 分,因此仅少量失误就会显著影响该难度区间的得分比例。
2. GPT-5 在 2024 年试题中出现了多次关键性错误,其中很大一部分集中在需要几何推理与空间想象的问题(见第 3.2 节)。
3. GPT-5 偶尔会在天体物理概念题上出错。例如,在 2024 年试题的第 9 题(归为简单题)中,GPT-5 因一次概念性错误叠加一次计算错误丢失了 18 分,而这相当于简单题总分的近 10%。
其他模型也展现出一定竞争力:OpenAI o3 总体得分为 77.5%,并稳定领先 Claude 系列 13~17 个百分点,其中 Claude Opus 4.1 得分为 64.7%,Claude Sonnet 4 为 60.6%。此外,它们的表现均随着难度提升而下降。尽管这三款模型在 AstroMLab 这类更简单的多选题基准上表现接近甚至亮眼,我们的评测结果揭示了在复杂问题求解上仍存在显著能力差异。该结果提示:要真正评估 LLM 在天文学领域的科研潜力,必须超越知识回忆型任务,构建更全面的能力评估框架。
数据分析考试
虽然 LLM 在理论考试中接近顶尖人类水平,但数据分析考试更能揭示其细粒度的能力结构与局限。GPT-5 在数据分析部分取得了 88.5% 的平均分,反而高于其理论考试表现(84.2%)。这种提升与其他模型形成鲜明对比 —— 其他 LLM 的数据分析得分普遍比理论试题下降了 10~15 个百分点。
这种分化主要来自数据分析试题高度依赖图像阅读、曲线理解与数据可视化推理的特点。GPT-5 拥有更强的多模态理解能力,在图像解析和绘图推理错误率方面显著更低,这直接支撑了其优势表现。
为了进一步推动 LLM 在天体物理领域向科研级智能体迈进,我们的结果强调:除了整体性评估外,还迫切需要具有生态效度的、多模态数据分析基准来全面检验模型在真实科研流程中的问题求解能力。
对比人类成绩
为更好地理解 LLM 的表现,我们将其得分与 IOAA 的奖牌评定标准下的人类参赛者成绩进行比较。具体而言,奖牌依据与中位数成绩的比值来颁发(中位数按理论、数据分析与观测三部分成绩之和计算):若得分在中位数的 100%–130% 之间为铜牌,130%–160% 为银牌,高于 160% 则为金牌。由于我们的评测范围不包括观测(observational)试题,因此我们分别根据理论考试与数据分析考试计算了对应的奖牌门槛。
大多数 LLM 的表现均超过金牌门槛。唯一例外是 Claude Sonnet 4,在 2023 年考试中仅获银牌。尤其值得注意的是,GPT-5 在 2022、2023 与 2025 年的表现优于当届 IOAA 的最佳学生,而 Gemini 2.5 Pro 在 2022 与 2023 年也达到相同水平。
LLM 与人类参赛者在 IOAA 理论考试(2022–2025)中的表现对比。
LLM 与人类参赛者在 IOAA 数据分析考试(2022–2025)中的表现对比。
IOAA 理论考试中不同题目类别下的模型表现。类别 I 为几何 / 空间类问题,类别 II 为物理 / 数学类问题。所有分数均以百分比形式表示。
错误分析
在理论考试中,大型语言模型在第二类(物理 / 数学)问题上的表现(67-91% 的准确率)明显优于第一类(几何 / 空间)问题(49-78% 的准确率),性能差异为 15-26 个百分点。
最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷。这表明在实现深刻的物理理解方面存在根本性挑战。几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和 3D 可视化方面尤其吃力。
在数据分析考试中,错误在不同类别中分布更为均匀。主要的故障模式包括绘图和图表 / 图像阅读,这在 OpenAI o3 和 Claude 模型中尤为突出。由于对大型数据集进行大量计算,计算错误比理论考试中更常见。
按错误类型划分的丢分分布:(a)IOAA 理论考试 2022–2025;(b)IOAA 数据分析考试 2022–2025。
更多信息,请参考原论文。