AI已在所有领域达到人类博士水平!那么,教育该走向何方?
创始人
2025-07-17 02:20:32
0

AI是知识工作者的挖掘机,大幅提升教学与科研生产力。

——————————————

这几天颇不宁静。

——更准确地说,这两年一直不宁静。

因为,AI的发展实在太快了,

快到所有研究者、开发者都始料未及

更不用说老师等“外行”了!

有一个说法:

人间一天,AI一年。

最近一周以来,

王珏老师连续看到AI的最新发展

其发展速度、其能力实在是 令人震惊

以及令人 对人类前途感到心忧

长期以来,人类对大模型的认知都是:

  • 大模型只是知识复读机,它没有创造力,不能像人类那样解决复杂问题

然而,7月10日马斯克发布的Grok 4,却公然宣称:

Grok 4在所有学术领域的表现均已达到博士级水平

将用它重写人类知识库添加缺失信息,删除错误内容!

——人类知识,居然需要用AI来重写,如果真能做到的话,就实在太让人震惊了!

以下是Grok 4在数学、科学方面的测试得分:

AIME美国数学邀请赛,满分!

USAMO美国数学奥林匹克竞赛,61.9分!(这个分低了点?不过要知道国际数学奥林匹克竞赛中,金牌线是29分!)

GPQA博士级别科学问题解决,88.9分!

看看这些炸眼的数字,

你有否像我一样 震惊、忧虑?

而且,什么AIME、GPQA之类的竞赛,早就不足以测试出大模型超强的知识和能力了。

2025年初,由全球近千名专家联合打造的 “人类终极测试”Humanity’s Last Exam》 (HLE)横空出世,被誉为“人类最后一场闭卷考试”。 这项包含100个领域、3000道高难度题目的多模态基准测试。

所有问题既无法在网络上搜到,也不能用简单方法解决,并且即便对于人类专家研究起来也是相当困难的。比如,

  • 数学题:要求计算高阶范畴论 中的自然协变换数量。
  • 化学题:解析热周环反应 中电环化与环加成类型。
  • 语言学题:基于古希伯来语 发音传统划分闭音节。

这些问题不仅需要深度推理,还需结合领域内最新研究成果,确保答案的唯一性和前沿性。

如此广泛和困难的问题,让人类来做,即便是专家恐怕也只能得到个位数,对于普罗大众来说,恐怕个个是零蛋吧……

那么,大模型表现如何呢?

简单说,不到半年的时间里,大模型的最好成绩由2.7分,已经提升到了25.4分!

以下是一些重要大模型的测试成绩:

  • 大名鼎鼎的GPT-4o(2024年5月份发布),其HLE成绩是可怜的2.7分!

  • 今年1月20号发布的DeepSeek R1的HLE成绩,快速提升到了7.5分!

  • 今年5月28号发布的DeepSeek R1-0528,HLE成绩则大幅上升到了14分

  • 到了今年6月5号发布的Google Gemini 2.5 Pro,将其提升到了惊人的21.6分!

  • 而刚刚发布的Grok4,又打破了新的纪录,达到了25.4分。

(以上数据均来自于HLE网址:https://lastexam.ai/

而在允许“工具调用”(比如通过编程来解决问题)

Grok 4 heavy模式则可达到惊人的44.4分!

远超著名的OpenAI o3的24.9分

以及Google Gemini 2.5 pro的26.9分

Grok 4就够让人震惊的了,

其发布至今还不超过一周,

昨天,更让人震惊的 GPT-5也爆出消息来了!

(中间还有7月12日的Kimi发布了K2版大模型,也是相当炸裂,很多性能超越了DeepSeek R1。不过,和Grok 4、GPT 5相比,实在也算不得什么了,只能说Kimi有点身不逢时了……)

当然,现在GPT-5还没有发布,不过其CEO Sam Altman在6月18日的访谈中明确表示:

GPT-5将在2025年夏季正式发布

据爆料,GPT-5在所有方面几乎都超过了Grok 4。

比如:AIME25美国数学邀请赛2025版,GPT-5普通模式和推理模式,都能得到100分!和Grok 4一样,委实太厉害了!

GPQA博士级别问题解决,GPT-5分别得到了90分(普通模式)和95分(推理模式),得分超过了Grok 4:

在HLE人类终极测试中,GPT-5再一次将成绩提升到了50分(普通模式)和56分(推理模式),把Grok 4远远甩在了后面:

——————————————

看了以上数据,不知道您是否产生和我相同的感受:

AI对教育教学的最大影响和挑战

从来不是什么“AI赋能教学”

而是:

AI的智能水平已超过了绝大多数人

而且它还在不断快速发展,

也许会有一天真的成为知识上帝

——就像AlphaGO成为“围棋上帝”那样

在这样的局面下

人类的命运将向何处去?

以及,

我们该如何教育下一代?

这就是王珏老师在很多场合不断重申的观点:

如果仍按照当下的教育目标、教学方法、学习内容

教育教学仍然以“书面考试”、“找到正确解”作为唯一目标

我们将无法培养出应对AI挑战的下一代

因为,

只要是有正确答案、甚至唯一答案的

绝大多数人肯定干不过AI!

而为了应付中考、高考

老师、学生大多采用大量记忆、刷题的方法

以提高解题能力和熟练度

而这些,

正是AI时代最不重要的能力!

——这句话是上海交大 沈辛成老师提出来的,详见:

因此,

教育需要尽快改变人才培养目标、培养方式、更改学习内容,

——这倒是与“新课改”的精神非常吻合!

当然,

不考试、不刷题不能应付当下的考试

可是,

只刷题、只会解题,又不能应对未来世界的挑战

——这才是当下教育中最难解决的问题!

需要老师、家长更有智慧、更有长远眼光,

能够做到既兼顾当下的学习与考试

又能帮助孩子建立适应AI时代长远挑战的能力与素养!

在这方面,新课改确实可以成为教育的指针

——老师不能满足教“知识”,更要教“专家思维方式”

——大力培养学生的思维能力、创造能力、批判性思维能力、洞察力

——大力培养学生在情境中应用知识、解决实际问题的能力

关于这一点,王珏老师也写了一篇文章,或可参考:

相关内容

热门资讯

C-Gen.AI推出GPU编排... 人工智能基础设施初创公司C-Gen.AI今日正式发布,推出一个全新平台,帮助数据中心运营商自动化部署...
一种新型激酶抑制剂可有效对抗多... 新华社赫尔辛基7月15日电(记者朱昊晨 徐谦)东芬兰大学参与的一项国际研究发现,一种新型双靶点脂质激...
出版社如何建强专业学术数据库? 电子工业出版社融合创新发展研究院 专业学术数据库研究 徐 静 电子工业出版社党委委员、总编辑 随着...
奥克斯取得空调器专利,出风模式... 金融界2025年7月16日消息,国家知识产权局信息显示,宁波奥克斯电气有限公司、奥克斯空调股份有限公...
明月湖实验室将聚焦这些方向,打... 7月16日, 作为我市布局打造的4大重庆实验室之一, 明月湖实验室在两江新区揭牌。 明月湖实验室将聚...
朗安智能取得电机壳体气密性检测... 金融界2025年7月16日消息,国家知识产权局信息显示,朗安(天津)智能装备有限公司取得一项名为“电...
AI已在所有领域达到人类博士水... AI是知识工作者的挖掘机,大幅提升教学与科研生产力。 —————————————— 这几天颇...
技术“硬核力”驱动南城奔赴工业... 江西零碳未来能源发展有限公司成功研发出固固相变材料,填补了国内空白,其研发的27℃空调服装全面上市;...
科技动态 | 云南省政府发布2... 近日,省政府发布关于2024年度科学技术奖励的决定,对为我省科学技术进步、经济社会发展作出突出贡献的...
一文了解TOLL封装功率器件获... 前言 TOLL封装尺寸相比TO263封装,其PCB占板面积占用更少,高度更低,体积更小。同时其寄生...