AI已在所有领域达到人类博士水平!那么,教育该走向何方?
创始人
2025-07-17 02:20:32
0

AI是知识工作者的挖掘机,大幅提升教学与科研生产力。

——————————————

这几天颇不宁静。

——更准确地说,这两年一直不宁静。

因为,AI的发展实在太快了,

快到所有研究者、开发者都始料未及

更不用说老师等“外行”了!

有一个说法:

人间一天,AI一年。

最近一周以来,

王珏老师连续看到AI的最新发展

其发展速度、其能力实在是 令人震惊

以及令人 对人类前途感到心忧

长期以来,人类对大模型的认知都是:

  • 大模型只是知识复读机,它没有创造力,不能像人类那样解决复杂问题

然而,7月10日马斯克发布的Grok 4,却公然宣称:

Grok 4在所有学术领域的表现均已达到博士级水平

将用它重写人类知识库添加缺失信息,删除错误内容!

——人类知识,居然需要用AI来重写,如果真能做到的话,就实在太让人震惊了!

以下是Grok 4在数学、科学方面的测试得分:

AIME美国数学邀请赛,满分!

USAMO美国数学奥林匹克竞赛,61.9分!(这个分低了点?不过要知道国际数学奥林匹克竞赛中,金牌线是29分!)

GPQA博士级别科学问题解决,88.9分!

看看这些炸眼的数字,

你有否像我一样 震惊、忧虑?

而且,什么AIME、GPQA之类的竞赛,早就不足以测试出大模型超强的知识和能力了。

2025年初,由全球近千名专家联合打造的 “人类终极测试”Humanity’s Last Exam》 (HLE)横空出世,被誉为“人类最后一场闭卷考试”。 这项包含100个领域、3000道高难度题目的多模态基准测试。

所有问题既无法在网络上搜到,也不能用简单方法解决,并且即便对于人类专家研究起来也是相当困难的。比如,

  • 数学题:要求计算高阶范畴论 中的自然协变换数量。
  • 化学题:解析热周环反应 中电环化与环加成类型。
  • 语言学题:基于古希伯来语 发音传统划分闭音节。

这些问题不仅需要深度推理,还需结合领域内最新研究成果,确保答案的唯一性和前沿性。

如此广泛和困难的问题,让人类来做,即便是专家恐怕也只能得到个位数,对于普罗大众来说,恐怕个个是零蛋吧……

那么,大模型表现如何呢?

简单说,不到半年的时间里,大模型的最好成绩由2.7分,已经提升到了25.4分!

以下是一些重要大模型的测试成绩:

  • 大名鼎鼎的GPT-4o(2024年5月份发布),其HLE成绩是可怜的2.7分!

  • 今年1月20号发布的DeepSeek R1的HLE成绩,快速提升到了7.5分!

  • 今年5月28号发布的DeepSeek R1-0528,HLE成绩则大幅上升到了14分

  • 到了今年6月5号发布的Google Gemini 2.5 Pro,将其提升到了惊人的21.6分!

  • 而刚刚发布的Grok4,又打破了新的纪录,达到了25.4分。

(以上数据均来自于HLE网址:https://lastexam.ai/

而在允许“工具调用”(比如通过编程来解决问题)

Grok 4 heavy模式则可达到惊人的44.4分!

远超著名的OpenAI o3的24.9分

以及Google Gemini 2.5 pro的26.9分

Grok 4就够让人震惊的了,

其发布至今还不超过一周,

昨天,更让人震惊的 GPT-5也爆出消息来了!

(中间还有7月12日的Kimi发布了K2版大模型,也是相当炸裂,很多性能超越了DeepSeek R1。不过,和Grok 4、GPT 5相比,实在也算不得什么了,只能说Kimi有点身不逢时了……)

当然,现在GPT-5还没有发布,不过其CEO Sam Altman在6月18日的访谈中明确表示:

GPT-5将在2025年夏季正式发布

据爆料,GPT-5在所有方面几乎都超过了Grok 4。

比如:AIME25美国数学邀请赛2025版,GPT-5普通模式和推理模式,都能得到100分!和Grok 4一样,委实太厉害了!

GPQA博士级别问题解决,GPT-5分别得到了90分(普通模式)和95分(推理模式),得分超过了Grok 4:

在HLE人类终极测试中,GPT-5再一次将成绩提升到了50分(普通模式)和56分(推理模式),把Grok 4远远甩在了后面:

——————————————

看了以上数据,不知道您是否产生和我相同的感受:

AI对教育教学的最大影响和挑战

从来不是什么“AI赋能教学”

而是:

AI的智能水平已超过了绝大多数人

而且它还在不断快速发展,

也许会有一天真的成为知识上帝

——就像AlphaGO成为“围棋上帝”那样

在这样的局面下

人类的命运将向何处去?

以及,

我们该如何教育下一代?

这就是王珏老师在很多场合不断重申的观点:

如果仍按照当下的教育目标、教学方法、学习内容

教育教学仍然以“书面考试”、“找到正确解”作为唯一目标

我们将无法培养出应对AI挑战的下一代

因为,

只要是有正确答案、甚至唯一答案的

绝大多数人肯定干不过AI!

而为了应付中考、高考

老师、学生大多采用大量记忆、刷题的方法

以提高解题能力和熟练度

而这些,

正是AI时代最不重要的能力!

——这句话是上海交大 沈辛成老师提出来的,详见:

因此,

教育需要尽快改变人才培养目标、培养方式、更改学习内容,

——这倒是与“新课改”的精神非常吻合!

当然,

不考试、不刷题不能应付当下的考试

可是,

只刷题、只会解题,又不能应对未来世界的挑战

——这才是当下教育中最难解决的问题!

需要老师、家长更有智慧、更有长远眼光,

能够做到既兼顾当下的学习与考试

又能帮助孩子建立适应AI时代长远挑战的能力与素养!

在这方面,新课改确实可以成为教育的指针

——老师不能满足教“知识”,更要教“专家思维方式”

——大力培养学生的思维能力、创造能力、批判性思维能力、洞察力

——大力培养学生在情境中应用知识、解决实际问题的能力

关于这一点,王珏老师也写了一篇文章,或可参考:

相关内容

热门资讯

科创001 | “算力上天”赛... 深圳商报·读创客户端首席记者 王海荣 6月29日,持续两天的2026全球数字经济大会首届全球太空算力...
分拆可灵再造一个新快手?程一笑... 可灵的表现,将是衡量程一笑时代快手的重要指标。 2026年智谱暴涨的市值,让很多互联网巨头陷入了尴尬...
华为Mate 40 Pro早期... IT之家 6 月 29 日消息,B站 UP 主 @才羽モモイMomoi 昨晚(6 月 28 日)发布...
甘肃工程咨询集团科学技术协会成... 新甘肃客户端讯(新甘肃客户端记者 李杨 万及敏)6月26日,甘肃工程咨询集团股份有限公司科学技术协会...
市政协召开“聚焦智慧场景应用 ... 6月29日,市政协召开“聚焦智慧场景应用 推进数字营口建设”专题协商会。市政协主席李红莉参加会议并讲...
大数据与AI如何真正进入医疗现... “在这里,医疗AI已不是概念,我看见AI进入真实诊疗流程。”6月29日,在复旦大学附属中山医院举行的...
AI算力建设提速拉动上游需求,... 来源:界面新闻 近日,香港科技园公司与商汤科技签署合作备忘录,围绕AI算力基础设施搭建、AI产业生态...
杨燕青:AI正在改写经济学底层... 来源:第一财经 经济学界必须重新评估传统的内生增长模型、劳动力市场出清机制以及现有的社会财富契约。 ...
原创 众... 众泰汽车,又有了新动静。 近日,印尼BPKN主席穆罕默德·穆夫提·穆巴拉克博士带队商务考察团,专程到...
存储三巨头合谋制造“内存末日”... 6月29日消息,据报道,三星、SK海力士和美光6月25日在美国加利福尼亚联邦法院被提起集体诉讼,被控...