AI云狂飙持续,百度亮出了全栈 AI Infra底牌
创始人
2025-11-21 21:00:55
0

智东西

作者 | 陈骏达

编辑 | 漠影

算力,正成为大模型时代名符其实的“新石油”。

上周三,国际能源署发布的报告为这一观点提供了有力佐证。2025年,全球数据中心的投资预计将达到约5800亿,远超今年5400亿美元的全球石油供应投资额。这一400亿美元的投资差额,折射出市场对AI发展潜力的认可。

越来越多的企业开始意识到,算力不仅是支撑AI模型训练和推理的基础资源,更是推动产业创新与智能化升级的核心要素。传统的基础设施体系在模型规模爆炸式增长、推理需求多样化以及实时性要求更高的趋势下,已逐渐显露瓶颈。伴随应用场景的不断丰富与技术体系的快速迭代,以算力为核心的AI Infra(AI基础设施)体系必须顺势升级。

正是在这一大背景下,百度在刚刚落幕的百度世界大会上,系统展示了其在AI Infra上的最新探索。

从今年上半年点亮的昆仑芯P800三万卡集群,到支撑万卡集群实现98%有效训练时长的百舸平台,再到会上最新发布的昆仑芯最新一代产品、天池256/天池512超节点。百度已构建起一个覆盖芯片、集群到平台的全栈式、规模化AI Infra解决方案。

在竞争日益激烈的AI云战场上,谁能率先构建起稳定、可扩展、成本可控的全栈AI Infra体系,谁就有望在未来的竞争中占据更主动的战略高地。而百度在本届百度世界大会展示的全栈AI Infra能力,或许正是其在下一轮AI云竞争中亮出的底牌。

一、AI云建设热潮持续,全栈能力成关键竞争力

构建覆盖芯片、集群、平台等领域的全栈AI Infra能力,正在成为AI行业头部玩家竞相投入的核心方向。

在海外市场,这一趋势尤为明显。谷歌依托长期发展的TPU(张量处理单元),形成了以TPU为核心的高度定制化AI算力体系,使其在大模型训练与推理服务中形成独特的技术优势。

亚马逊AWS多年来持续押注自研芯片,并与其云服务深度绑定,以实现更高能效比和更低成本。

模型厂商OpenAI的动作同样具有标志性,他们联手博通自研AI加速器,还布局独立AI云服务业务。这不仅是为了提升未来模型迭代效率,更是为了减少对外部算力供应链的依赖,确保核心竞争力的可持续性。

与此同时,作为全球AI产业链最关键的算力供应商之一,英伟达也在不断构建自己的AI能力版图。除了不断提升GPU性能外,英伟达还深入高速互联等关键领域,并向云端延伸,推出NIM推理微服务等。英伟达越来越像一家完整的AI基础设施公司,而不仅仅是芯片供应商。

这些案例共同指向一个明确趋势:AI云竞争的本质正在从单一算力供应,转向对底层硬件、系统架构、编译优化、算力调度、模型服务等全链路的深度整合。在这一全栈体系中,芯片提供底层算力支撑,并需与云端的系统设计、模型框架和软件生态保持紧密协同。上下层在架构、调度与优化上的合力,才能让AI云体系在性能、资源利用和扩展性上实现更优的整体表现。

视角转向国内,百度是国内较早开启自研AI芯片的厂商之一。早在2011年,昆仑芯团队便启动了FPGA AI加速器项目,是国内最早源⾃真实业务场景的AI芯⽚研发团队,2018年,百度正式启动昆仑芯研发,并完成了3次迭代。

不仅如此,百度还是国内最早提出AI云概念的厂商之一。早在2020年,百度智能云便开启了“云智一体”战略,将云计算和AI紧密融合。根据IDC今年发布的《中国AI公有云服务市场份额,2024》报告,去年,中国AI公有云服务市场规模达195.9亿元,百度智能云以24.6%的市场份额位居第一,连续六年、累计十次蝉联中国AI公有云市场冠军。

凭借从芯片、集群到平台的全栈布局,百度不仅在算力供给上建立了坚实优势,也在AI云服务中形成了独特的竞争壁垒。

二、新架构新应用层出不穷,百度AI Infra能力如何持续演进?

然而,在快速变化的AI领域,没有玩家能在固守现有技术和模式的情况下持续领先。随着新模型架构和应用不断涌现,算力需求和系统复杂性呈指数级增长,传统技术和算力体系很容易被更灵活、高效、全栈化的竞争者超越。

百度世界大会分论坛上,昆仑芯认为在大模型“新应用”的背景下,越来越多“非计算任务”正被“计算化”,很多AI Agent或应用就是把以前非计算的任务用计算实现。

当前涌现的大量新应用正在改变传统任务的执行方式,从AI编程、智能搜索,到具备规划能力Al Agent,过去依赖人工决策与操作的任务,如今正逐步交由机器自动完成。以往用户需耗费大量时间检索、比较与判断,而现在仅需Agent消耗数万至十万级Token即可自动实现。随着Agent商业化的加速,应用生态规模迅速扩大,最直观的体现是Token消耗量的激增。

未来,Token将像水电一样,作为不可或缺的基础要素,深度融入社会生活的各个领域。百度智能云混合云部总经理杜海认为,未来的算力需求短期内可能达到现有推理算力几十倍甚至百倍的规模。面对这些挑战,国产AI Infra该如何升级?

芯片层面,在百度世界大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖亮出了昆仑芯未来五年的路线图。今年,昆仑芯已实现单集群三万卡点亮,并发布了百度天池32超节点和64超节点;2026年-2027年,两款昆仑芯新品和百度天池256超节点、百度天池512超节点都将陆续上市。

上述硬件的优化方向,与当前AI模型的演进路径高度契合。本次发布的昆仑芯新品重点面向大规模推理以及超大规模多模态训练与推理场景进行优化,而这些正是当下大模型发展的关键方向。天池超节点则专门针对大规模训推场景。

天池256超节点相比其今年4月发布的超节点方案,卡间互联总带宽提升4倍,主流大模型推理任务单卡tokens吞吐提升3.5倍。天池512超节点最高支持512卡极速互联,卡间互联总带宽提升1倍,单节点可完成万亿参数模型训练。

然而,光凭硬件本身,也支撑大规模AI训练需求,配套的计算平台、供应链和团队都需要同步优化,以满足新架构、新应用带来的新需求。

百度已经在打造三万卡集群的过程中,深刻把握到万卡级AI Infra的复杂性。杜海称,这一系统性工程不仅要解决由服务器、光模块到机房节奏在内的超大规模供应链协同,还需依托研发、运维和调度体系的全链路协作与技术优化,确保集群能力的线性提升、稳定性和故障自愈能力。

百度智能云AI计算首席科学家王雁鹏认为,训练和推理的差异,使硬件稳定性成为首要挑战。推理可以容忍单机故障,但训练往往涉及上万块GPU的同步计算。王雁鹏指出:“如果百卡训练的有效计算时间是99%,扩展到万卡,有效训练时间可能归零。”为此,百度智能云建立了全面的故障检测体系,通过通信库实现对慢节点和故障卡的精准定位。

从百卡扩展到千卡乃至万卡,网络拓扑、任务调度和通信策略都需要相应变化。百度智能云的思路是结合自身芯片和网络特点,进行软硬件协同优化。他们提出了XPU驱动的通信模式,实现跳过CPU的高效XPU直通通信,并通过多平面高算出的网络设计和优化的通信策略实现万卡带宽有效性达95%,几乎接近理想线性扩展。

随着AI模型架构不断迭代,国产AI芯片的生态也面临更高要求。英伟达显卡的CUDA生态支持百种模型架构,形成了国产算力追赶路上难以绕开的“护城河”。王雁鹏认为,国产算力若要在大模型时代迎头赶上,必须建立高泛化算子体系,在小规模验证中确保大规模训练的精度和性能,最终保证算子覆盖度和正确性。

此外,随着上千亿、万亿参数的MoE模型出现,以及多模态模型(视觉、语音等)的引入,系统通信占比上升、显存压力增大、负载高度异构。面对这些挑战,百度智能云团队通过分层存储等方式,让国产集群运行MoE模型的效率接近GPU集群。而异构并行通信策略则将多模态模型算力利用率提升至50%左右,与传统的稠密模型类似。

百度在百舸平台上将上述一整套能力进行了整合。用户可以通过百舸平台以标准化、产品化的方式,使用国产优质算力和上述各种技术手段,建设高效的基础设施、提升模型训练效果,并加速推理性能。

三、自研算力基座支撑文心训推,获行业头部企业采用

这套全栈AI Infra能力,已经广泛应用在百度的内部业务中。经过十余年技术积累和三次迭代,百度的国产化算力底座如今不仅能稳定支持搜索、推荐等百度核心业务,还逐步成为承载百度⼤模型训练与推理的核心算力引擎。

例如,Qianfan 70B VL、Qianfan 30B-A3B-VL这两款主打OCR全场景识别和复杂版面文档理解两大能力的SOTA级模型,正是在5000卡的昆仑芯集群上,利用百度的全栈AI Infra能力训练而来的。支持“无限时长”生成的百度蒸汽机视频生成模型,是全球首个中文音视频一体化生成模型,发布时在权威榜单VBench-12V上位列全球第一。这一模型,是在6000卡的昆仑芯集群上炼成的。

▲百度蒸汽机生成了今年百度世界大会的开场视频

除了支持百度内部业务之外,百度智能云已经基于百舸平台和昆仑芯,对外规模化提供算力服务。基于“百度百舸AI计算平台+昆仑芯P800”构建的国产万卡集群,率先成为首家通过信通院《面向大规模智算服务集群的稳定运行能力要求》测评的国产万卡级别集群,且在基础设施、集群调度、模型训练保障等核心测评维度上,获得最高等级“五星级”。

在算力规模化应用的过程中,硬件是基础,但远非全部。百度百舸作为软硬一体、全栈优化的计算平台,通过整合AI基础设施、资源管理、工程与模型训推加速等关键服务,帮助企业解决“有硬件却用不好”的痛点,充分释放算力的潜能,将其转化为真实场景中的生产力。

百舸平台不仅适用于昆仑芯,也能帮助广大企业根据自身需求打造稳定、可靠的算力底座。分论坛上,北京人形机器人创新中心大模型负责人鞠笑竹分享了团队在百舸平台上开发机器人大模型的经历。双方合作最初围绕数据展开,随后扩展到VLM等多类大模型的训练,覆盖数据与算力的全链条支持。在构建并开源RoboMind数据集的过程中,创新中心基于百舸平台完成了模型训练与真机部署测试,形成“数据—训练—验证”的完整闭环。

同时,百舸的算力环境不仅加速了“慧思开物具身智能平台”的研发,还支撑创新中心成功训练了72B的开源具身多模态大模型Pelican-VL 1.0,整体训练效率得到显著提升。Pelican-VL 1.0可帮助人形机器人更好地感知空间与时间,实现自然的具身交互,并在训练过程中实现自我纠错与持续迭代,在多项基准测试中达到国际领先水平。

鞠笑竹表示,Pelican-VL在基线基础上性能提升20.3%,超过同级别开源模型10.6%,成为开源具身性能最好的大脑模型。

▲Pelican-VL开源链接:pelican-vl.github.io

从某种意义上来说,百舸平台让创新中心可以专注科学探索本身,而无需担忧算力基础设施这一老大难问题。百度智能云也是首家全面适配RDT、π0和GR00T N1.5三大主流开源具身VLA模型的云厂商。通过针对性的训推工程优化,世界模型的推理性能可提升超过36%、训练加速20%以上;视觉语言模型(VLM)训练则提超40%。

除此之外,百度智能云还帮助招商银行、国家电网、中国钢研、同济大学、北京大学等头部机构与企业实现国产算力的规模化部署,成为众多⾏业智能化转型的底层算力支撑。

结语:上下游整合成大势所趋,百度抢先交卷全栈方案

在百度世界大会的分论坛上,百度智能云混合云部总经理杜海分享了一个颇为有趣且深刻的观察:与传统CPU时代“层层标准化、相互独立”的技术结构不同,当下的大模型体系从芯片、云基础设施、框架到模型与应用之间存在极强的耦合度——不同厂商的芯片在设计模式、指令和调用方式上差异巨大,要想充分发挥性能,算子、框架乃至模型本身都必须深度感知底层拓扑。

这意味着AI产业正在形成从应用到模型、框架、云基础设施再到芯片的端到端垂直结构,各领域的头部公司为了掌控能力和效率,不可避免地走向上下游深度整合。在新一轮AI云竞争全面打响之时,全栈AI Infra能力的建设,不再是一种可选项,而是面向未来竞争的“必答题”。百度,已经率先交出了自己的答卷。

相关内容

热门资讯

一起来讨论!wepoker脚本... 自定义hhpoker真的假的系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用辅助器...
终于清楚!wepoker免费脚... 自定义wepoker免费脚本弱密码系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微扑克专用...
山农大破解白菜远缘“通婚”难题 11月21日凌晨,《科学》杂志在线发表了山东农业大学段巧红教授团队的重要成果。研究首次鉴定出触发白菜...
2024教程!wepoker辅... 这是一款非常优秀的拱趴大菠萝万能辅助器 ia辅助检测软件,能够让你了解到拱趴大菠萝万能辅助器中牌率当...
热门推荐!wepoker怎么获... 热门推荐!wepoker怎么获得好牌,pokemomo辅助软件,AI教程(有挂攻略);wepoker...
记者发布!wepoker黑侠辅... 记者发布!wepoker黑侠辅助器,wepoker有没有挂,2025新版技巧(有挂透视)1、不需要A...
必看攻略!wepoker分析,... 必看攻略!wepoker分析,约局吧德州可以透视吗,力荐教程(有挂透明);大神普及一款德州ai内幕,...
今日公布!wepoker科技辅... 今日公布!wepoker科技辅助器,菠萝德州透视脚本,wpk教程(有挂透明)科技教程也叫必备教程,这...
分享认知!德州私人局怎么透视,... 分享认知!德州私人局怎么透视,pokemmo手机脚本,新2025教程(有挂方法),支持语音通讯、好友...
实测分享!pokemmo手机版... 这是一款非常优秀的pokemmo手机版修改器 ia辅助检测软件,能够让你了解到pokemmo手机版修...