算力与存储涨声一片，大模型厂商反而打响“价格战”？_科技动态

算力与存储涨声一片，大模型厂商反而打响“价格战”？

创始人

2026-05-29 04:46:23

0次

5月27日，小米宣布MiMo-V2.5系列模型API永久降价，最高降幅达99%，不再区分上下文窗口长度，且同等价格下用量提升至原来的5~8倍。而此前不久，DeepSeek刚宣布其V4-Pro模型API永久降价75%。

当前，算力和存储芯片正经历着前所未有的价格暴涨，这组两组数据放在当下格外引人注目。反其道而行之，大模型厂商们凭借的是什么？随着运营商套餐频出，Token市场又迎来了怎样的洗牌？

模型价格K型分化

小米并非第一个降价的玩家。一个月前，DeepSeek V4上线后便宣布Pro版本模型优惠低至2.5折，随后缓存命中价格降至原价的1折。两轮降价后，DeepSeek又在5月22日宣布临时折扣永久有效。

而与之相反的情况是，不少大模型多次涨价。今年3月以来，阿里云和腾讯云相继宣布，受AI需求爆发及算力、存储芯片价格暴涨影响，部分模型API服务价格上调，有些涨幅翻了一倍以上。智谱经过多轮涨价后，API价格已与GPT、Claude等海外顶尖大模型看齐。

字节跳动的豆包更是开始试水付费模式，推出标准版、加强版、专业版三个付费层级，包月价格从68元到500元不等，连续包年最高达5088元，远超国内主流互联网会员定价体系。

AI视频生成领域也成为价格涨幅最明显的重灾区，目前国内视频生成模型已形成字节Seedance 2.0、快手可灵、MiniMax海螺、阿里HappyHorse等头部玩家，收费模式也逐步从“按会员收费”转向“云GPU租赁逻辑”。

值得关注的是，从按量计费到“套餐制”，再到平台积分制，Token计费模式日益多元。三大通信运营商纷纷推出Token套餐，如中国电信套餐价格最低仅为每月9.9元，包含1000万Token。云服务商尝试Token积分（credits）计费，如千问3.6-Plus大模型输入8349Token相当于抵扣1.67积分。此外，支付宝还上线了业内首个“词元支付”服务，促进Token支付自主化，MiniMax和阶跃星辰已率先接入试点。

总体来看，目前行业已形成“通用模型降价走量、高端模型溢价保值”的新格局。这也意味着降价不再是单纯的市场营销手段，而是底层算法优化、推理技术升级、算力成本下行共同驱动的必然结果。

从拼算力到拼技术

在一片涨价声中，小米和DeepSeek逆势降价，关键在于技术升级推动API调用成本降低。

小米团队表示，本次调价源于大模型团队在推理系统上的持续优化。基于SGLang HiCache完整支持SWA，将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降低至优化前的近1/7，并将可缓存token数量提升至优化前的近5倍，显著提升了缓存命中率和推理效率。

据了解，大模型在生成回答时是逐字逐句进行的。如果没有缓存机制，每次生成都需要重新回溯所有历史信息，既消耗算力，又拖慢速度。缓存机制有效解决了这一问题，生成内容时可直接调用已缓存的数据。当AI需要生成内容时，如果这一内容恰好存储在芯片缓存中，便称为“缓存命中”。命中率越高，AI计算量越小，整体运行速度越快，相当于节约了昂贵的算力成本。

业内专家表示，小米和DeepSeek的降价，意在通过极低的价格吸引更多开发者调用，由此积累大量缓存数据，进一步提升命中率、降低调用成本，从而再吸引更多开发者加入，形成良性循环。

此外，“国模+国芯”的混合算力方案也有望进一步降低API调用成本。如DeepSeek同时将华为昇腾与英伟达并列写入硬件验证清单，底层代码也从英伟达CUDA全面迁移到了华为CANN框架。结果显示，DeepSeek-V4在华为昇腾芯片上的推理速度较初期版本提升35倍，华为CANN框架与英伟达CUDA框架的代码兼容性已逼近95%。

小米MiMo-V2.5大模型在开源首日就完成了和国内外多家主流推理芯片的深度适配，如阿里平头哥、天数智芯、燧原科技、沐曦和昆仑芯等国产芯片均已完成适配。

Token市场三方角力

当前，Token已成为运营商继短信、流量之后的新量纲。近日，中国电信、中国移动、中国联通相继推出面向个人和企业的Token套餐，以类似“流量包”的形式销售，与云厂商和大模型厂商正面交锋。

具体来看，5月17日，中国电信推出试商用Token套餐，提供面向个人和开发者的多档选择，套餐最低价格为9.9元每月1000万词元；4月以来，中国移动在北京、湖北、河南等地推出Token套餐；5月16日，上海联通宣布向本地OPC用户提供Token服务，每位用户可免费领取3000万Token测试额度。

随着运营商入场，目前整个Token市场逐渐形成三大派系，即云厂商、大模型厂商、运营商。

阿里云、腾讯云、火山引擎等主流云厂商，目前已相继推出Token Plan计划，主打“模型超市+开发工具+企业级服务”。比如阿里云百炼推出的Token Plan团队版，按坐席收费（198元/坐席/月起），提供多模型调度、Agent开发框架、企业级安全。

云厂商优势在于有算力设施、大模型以及云计算生态，开发者一旦接入，换平台的迁移成本很高，先发优势强劲。IDC报告显示，2025年中国公有云上大模型调用量达1944万亿Tokens。其中，火山引擎以49.5%的市场占比排名第一，排名第二、第三的阿里云和百度智能云分别拿下28%、10% 的市场份额，三家企业共同占到了接近九成的份额。

运营商最后入场，拥有庞大的用户基础、线下网点、套餐体系经验，以及过硬的算力基础设施和政企客户关系。但目前运营商Token套餐中均为调用第三方模型，模型生态的短板、内部准备不足，使其目前难以对云厂商和大模型厂商造成冲击，尤其是在企业用户和开发者群体当中。

整体来看，云厂商具备“平台粘性”，模型厂商具备“模型实力”，运营商则有流量时代的种种积累，三者似乎都走在合适的位置上，Token市场格局演进仍需看来日。

上一篇：小米是在蓄能还是失血？一季度净利润同比降43%，智能电动汽车及AI创新业务经营亏损31亿元

下一篇：刚刚！清华“新生”黄仁勋请吃“兆元宴”，一桌值17万亿

算力与存储涨声一片，大模型厂商反而打响“价格战”？

相关内容

热门资讯