阿里千问最强推理模型问世:采用全新测试时扩展机制,性能比肩GPT-5.2
创始人
2026-01-27 13:41:26
0

来源:市场资讯

(来源:澎湃新闻)

阿里正式发布千问最强AI(人工智能)模型。

1月26日晚间,阿里正式发布预告已久的千问旗舰推理模型Qwen3-Max-Thinking。据介绍,该模型创下数项权威评测全球新纪录,性能媲美GPT-5.2、Gemini 3 Pro,成为迄今为止最接近国际顶尖模型的国内最强AI大模型。通义团队还为其引入了两项核心创新:自适应工具调用能力和测试时扩展技术(Test-Time Scaling)。

从参数来看,千问新模型总参数超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。该模型进行了更大规模的强化学习后训练,并通过推理技术的系列创新,最终完成模型性能的大幅飞跃。

此前,预览版Qwen3-Max-Thinking已斩获数学推理AIME 25和HMMT 25的国内首个双满分。在此基础上,阿里通义团队进行了更大规模的强化学习后训练,全面提升了正式版Qwen3-Max-Thinking性能。

在多项关键性能基准测试中,千问表现超过了GPT-5.2、Claude Opus 4.5和Gemini 3 Pro等顶尖模型,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。

千问在多项关键性能基准测试中的表现。来源:阿里云

据介绍,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制。业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

此外,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。模型能够自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供和专业人士一样水平的回答。同时,模型幻觉也大为降低。

目前,普通用户可以通过千问PC端和网页端试用模型,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。据了解,千问APP也即将接入新模型,所有用户都可免费体验。

阿里Qwen大模型的研发始于2022年,已经成为全球排名第一的开源大模型。大模型Qwen3-Max发布于2025年9月,是通义千问家族中最大、最强的基础模型。

26日当天,阿里巴巴美股(NYSE:BABA)跌1.07%收于每股171.38美元,总市值4091亿美元;港股(9988.HK)27日盘前涨超2%。

澎湃新闻记者 胡含嫣

相关内容

热门资讯

三星发布2026冬奥会与冬残奥... IT之家 1 月 27 日消息,作为国际奥委会官方全球合作伙伴,三星电子今日发布了 2026 年米兰...
二手鱼里145元的海信老咕噜棒... 你是不是也常在二手鱼上刷到那种“白菜价”数码产品,心动却不敢下手?我最近就刷到了一款145元包邮海信...
风行在线携手阿里云通义大模型,... 2026年1月15日,由阿里云主办的AI创新应用火花大会,在上海成功召开。大会聚焦大模型技术赋能产业...
春运数字迁徙背后,第一线DYX... 2026 年春运将于2月2日开始拉开帷幕,至3月13日结束。这场为期40天的年度“大迁徙”,全国铁路...
NASA展示下一代宇航服:为登... IT之家 1 月 26 日消息,随着 NASA “阿尔忒弥斯二号”载人绕月任务临近,为后续登月计划准...
华宝新能获得外观设计专利授权:... 证券之星消息,根据天眼查APP数据显示华宝新能(301327)新获得一项外观设计专利授权,专利名为“...
国科大星际航行学院正式成立 1月27日上午,中国科学院大学星际航行学院揭牌仪式在中国科学院与“两弹一星”纪念馆举行,标志该学院正...
原创 美... 本文章已经通过区块链技术进行版权认证,禁止任何形式的改编转载抄袭,违者追究法律责任。 冷战时期,世界...
数据或成“生物炸弹”原料!跨国... 跨国生物合作能有效整合全球资源、共享技术成果,推动破解科技难题。但合作共享中,人类遗传基因、珍稀物种...
2026年腾讯元宝GEO优化怎... 一、GEO服务商综合评估框架 本次调研围绕服务商在腾讯元宝等特定平台上的优化能力展开评估,采用四维评...