阿里千问最强推理模型问世:采用全新测试时扩展机制,性能比肩GPT-5.2
创始人
2026-01-27 13:41:26
0

来源:市场资讯

(来源:澎湃新闻)

阿里正式发布千问最强AI(人工智能)模型。

1月26日晚间,阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍,该模型创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新:自适应工具调用能力和测试时扩展技术(Test-Time Scaling)。

从参数来看,千问新模型总参数超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。

此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。

在多项关键性能基准测试中,千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。

千问在多项关键性能基准测试中的表现。来源:阿里云

据介绍,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

此外,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供和专业人士一样水平的回答。同时,模型幻觉也大为降低。

目前,普通用户可以通过千问PC端和网页端试用模型,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。据了解,千问APP也即将接入新模型,所有用户都可免费体验。

阿里Qwen大模型的研发始于2022年,已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月,是通义千问家族中最大、最强的基础模型。

26日当天,阿里巴巴美股(NYSE:BABA)跌1.07%收于每股171.38美元,总市值4091亿美元;港股(9988.HK)27日盘前涨超2%。

澎湃新闻记者 胡含嫣

相关内容

热门资讯

全国人大代表王俊峰:强化基础研... 来源:中国工业报 中国工业报记者 霍悦 当前,我国正处于从制造大国迈向制造强国的关键关口。作为制造业...
欧洲航天局:“危险小行星”20... IT之家 3 月 8 日消息,去年 3 月,科学家曾得知 2024 YR4 小行星在未来七年内有 3...
龙华企业组团出海 “龙华智造”... 龙华区企业组团出海全球移动通信领域顶级盛会——2026世界移动通信大会,15家龙华优质企业组团参展,...
坚定信心 勇挑大梁丨邯郸市钢铁... (来源:邯郸网络广播电视台) 转自:邯郸网络广播电视台 从依靠经验“看火炼钢”,到数据驱动“一键出...
原创 油... 兄弟们,油价又要大涨了! 据最新信息透露:新一轮成品油调价窗口将于3月9日24时开启,3月6日,布...
三八节送礼推荐!21天超长续航... 每到3月8日前后,关于“女性成长”与“爱自己”的话题总能引起无数共鸣。对于当代的女生来说,三八妇女节...
展知电器取得防倾倒电热油汀专利... 国家知识产权局信息显示,宁波展知电器有限公司取得一项名为“一种防倾倒的电热油汀”的专利,授权公告号C...
本然有开挂"大菠萝提... 您好:这款大菠萝提高好牌几率游戏是可以开挂的,确实是有挂的,很多玩家在这款大菠萝提高好牌几率游戏中打...
原先有开挂"soho... 原先有开挂"sohoo竞技联盟辅助"开挂(透视)辅助平台(AI教程有挂总结) 了解更多开挂安装加(1...
原生有辅助"酷玩联盟... 原生有辅助"酷玩联盟破解版下载"开挂(透视)辅助平台(扑克教程了解有挂) 了解更多开挂安装加(136...