几天前,英伟达再一次创造了历史。
7 月 3 日,英伟达市值短暂攀上 3.92 万亿美元,超越了苹果此前保持的 3.915 万亿美元纪录,成为有史以来市值最高的上市公司。AI 算力的狂飙猛进,把这家 GPU 厂商推向了前所未有的高点。
尤其是自 2024 年底,性能与能效双双跃进的 Blackwell 平台开始出货后的销售表现,打破了外界的疑虑,英伟达创始人兼 CEO 黄仁勋在最新财报电话会议上表示,仅在 2025 年第一季度,这套新平台就已经贡献了英伟达数据中心收入的近七成。
但就在英伟达市值冲顶、光环加身之时,来自生态内部的裂缝也在浮现。最典型的例子,正是英伟达的重要客户—— OpenAI。几乎就在英伟达市值达到高峰的同时,The Information 援引 OpenAI 内部人士称,OpenAI 正在使用谷歌自主研发的 TPU 芯片来为 ChatGPT 及其其他产品提供算力支持。
TPU 服务器,图/谷歌
虽然后续的回应中 OpenAI 刻意淡化了「转向」,强调是测试且「暂无大规模采用计划」。但对于一家曾亲手定义 AI 新时代的公司来说,哪怕只是「测试」,也足以引发市场的高度敏感。
与此同时,这也让谷歌稍早前发布的第七代 TPU —— Ironwood 再次成为焦点,这是一颗为推理场景量身打造的专用 AI 芯片,不仅在每瓦性能上直指 Blackwell,更在成本与部署灵活性上展现出颇强的吸引力。
更重要的是,真正让英伟达面对结构性挑战的,是那些比起「通用」,更强调「效率」的 ASIC 芯片阵营。谷歌、亚马逊、Meta 等云巨头正持续加码自研加速器,绕开英伟达 GPU 的高成本;而如 Cerebras、Graphcore 等初创企业,则从芯片架构和系统设计层面重新定义「AI 专用计算」,试图构建一条完全不同于 GPU 的技术路径。
对于英伟达来说,世界第一的宝座,并不安稳。
进击的 ASIC,正在成为英伟达的「心腹大患」
俗话说得好,最了解一个人的,往往是他的对手。
5 月 19 日,英伟达发布了全新互联架构 NVLink Fusion,这套架构被定义为「AI 工程合作平台」,通过授权 NVLink 芯片间互联(C2C)和整合交换模块,使第三方厂商能将自研加速器或 CPU 接入英伟达主导的算力系统。
相比过去 NVLink 的封闭式设计,Fusion 的「半开放」姿态看似包容,但本质依然要求合作方依附在英伟达的生态轨道上,任何定制芯片都必须连接到英伟达的产品,同时也只是选择性地开放了 900GB/s 的 NVLink-C2C 接口。所以 NVLink Fusion 尽管表面上展现了英伟达的开放姿态,实则更多是一次防御性出招:
为了防御 UALink 联盟。
图/ UALink 联盟
2024 年 10 月,由 AMD、Intel、谷歌、Meta、微软、AWS 等联合发起的 UALink 联盟就已悄然成型,随后又加入了苹果、阿里云、新思科技等,迅速扩张为一个囊括芯片设计、云服务、IP 供应链的庞大阵营。
今年 4 月,UALink 发布了 1.0 版本互联标准,支持高达 1024 个加速器节点、800Gbps 带宽互联、以及开放的 memory-semantics 协议——这不止是一项通信技术,而是一次瞄准「去英伟达化」的系统性布局。在 AI 芯片互联架构这件事上,英伟达或许比任何人都明白:
真正值得警惕的,不是某一家厂商,而是一整条开始摆脱 GPU 依赖、试图重建硬件秩序的 ASIC 阵营。
不同于通用的 GPU 架构,ASIC 是为特定任务定制的芯片,在 AI 时代意味着它们可以针对推理、训练、推流等核心计算路径进行极致优化。这种理念如今已在微软、Meta 和亚马逊等巨头内部深度落地,都在探索从英伟达 GPU 平台向自研 AI ASIC 芯片迁移。
谷歌就是最好的例子,TPU 系列自发布以来已进化至第七代 Ironwood,专为推理任务而设计,每瓦性能直接超越了英伟达 Blackwell。OpenAI 研究员在 X 平台上更认为 Ironwood 与 GB200 性能相当,甚至略胜一筹。更重要的是,TPU 系列已经支撑起了 Gemini 大模型从训练到推理的大规模应用。
图/谷歌
与此同时,除了老对手 AMD,包括 Meta、AWS 等新晋芯片厂商也在试图「赶超」英伟达 GPU。基于与博通的合作,Meta 首款 AI ASIC 芯片 MTIA T-V1 就被曝规格可能超过英伟达的下一代 Rubin 芯片,AWS 则是在与 Marvell 合作的基础上,启动了不同版本的 Trainium v3 开发,预计于 2026 年陆续量产。
而据野村证券稍早前发布的最新报告指出,2025 年谷歌 TPU 出货量预估 150 万至 200 万,AWS Trainium 和 Inferentia 预估 140 万至 150 万,等到 Meta 与微软开始大规模部署,有望 2026 年在出货量上首次超越英伟达 GPU(500 万至 600 万)。
初创公司方面,研发出全球最大芯片的 AI 芯片「独角兽」Cerebras,以 Wafer‑Scale Engine(WSE)引领训练芯片架构的革新,在多个政府和科研超算项目中落地;软银收购的 Graphcore 虽经历波折,但仍坚持在神经网络处理架构(IPU)上寻求突破;Tenstorrent、Rebellions 等新秀则在 AI 推理、边缘计算等细分领域持续积累客户与出货量。
全球最大芯片,图/ Cerebras
英伟达当然看懂了这股暗流,所以选择用 NVLink Fusion 做出回应。但现实是,越来越多的玩家已经不再满足于做配角。ASIC 的崛起,不只是一次技术路线的迭代,更是一场由巨头主导、由联盟推动、由生态背书的系统性挑战。英伟达固然强大,但面对这样的对手,仍然警惕。
巅峰之下,英伟达的三个软肋
市值冲上 3.92 万亿美元的那一刻,英伟达站上了全球资本市场的顶点。但在这个耀眼的高度之下,越来越多的问题开始浮出水面。从产业依赖,到产品结构,再到生态策略,英伟达仍然存在可能,被它自己一手打造的成功逻辑反噬。
其一在于超大规模客户的集中依赖。英伟达目前约 88% 的营收来自数据中心业务,而其中大头集中在极少数几家云计算巨头手中:微软、AWS、阿里、Meta、谷歌,以及越来越有野心的 OpenAI。也正是这些客户不仅自研 AI 芯片,还组建了 UALink 联盟,正在亲手削弱英伟达 GPU 的统治力。
谷歌有 TPU,亚马逊有 Trainium,Meta 和微软分别推出了 MTIA 与 Maia 系列加速器。OpenAI 也在测试谷歌 TPU 的同时,自研 AI 芯片的消息不断流出。这些客户不是不需要英伟达,而是不想「只」依赖英伟达。
其二在于性价比。Blackwell 平台带来了几乎碾压式的算力提升,特别是 GB200 架构在训练和推理性能上的跃升。但与此同时,这一代产品的复杂性、功耗和成本也大幅攀升。据汇丰银行消息,一套 GB200 NVL72 服务器售价高达 300 万美元左右,让许多客户望而却步。
GB200 NVL72,图/英伟达
这种极致设计策略确实锁定了高端市场,但也带来了两个副作用:一是把中小客户甩在了门外,二是推动客户寻找更便宜、更省电的替代品。当 AI 推理成为主流任务,性价比往往比绝对性能更重要,而这正是 ASIC 等专用芯片擅长的领域。
此外针对云厂商等大客户,早期愿意为性能付费。但随着部署规模扩大、模型标准化、预算紧缩,即便是大型厂商也越来越希望能有更多自主权和谈判空间。当英伟达变成「不得不用」,也就意味着产业链已经开始寻找「有没有可能不用」的选项,而谷歌 TPU 的成功更是一种激励。
其三在于英伟达的生态壁垒。英伟达 CUDA 是目前业界最强大的 AI 编程生态,但它的高度封闭也让它逐渐成为一个「属于英伟达」的世界。在 UALink 联盟、OneAPI、MLIR 等开放生态兴起的背景下,越来越多开发者和系统设计者开始追求跨平台兼容、异构协同,而不是将命运绑定在一家公司的工具链上。
CUDA 一度是英伟达的护城河,但如今也在一定程度上成为了限制开发者自由流动的「生态高墙」。当更多厂商期望在不同架构间灵活切换,CUDA 的壁垒也可能成为他们转身的理由。
回头来看,英伟达固然仍然是今天最强的 AI 芯片厂商,站在技术、产品和市值的巅峰。但巅峰从来不是终点,它只是更多挑战的起点。更关键的是,英伟达面对的不是一次技术换代的风险,而是一次由客户主导的去中心化。正如前文所言:英伟达的世界第一,并不稳。