5月27日,小米宣布MiMo-V2.5系列模型API永久降价,最高降幅达99%,不再区分上下文窗口长度,且同等价格下用量提升至原来的5~8倍。而此前不久,DeepSeek刚宣布其V4-Pro模型API永久降价75%。
当前,算力和存储芯片正经历着前所未有的价格暴涨,这组两组数据放在当下格外引人注目。反其道而行之,大模型厂商们凭借的是什么?随着运营商套餐频出,Token市场又迎来了怎样的洗牌?
模型价格K型分化
小米并非第一个降价的玩家。一个月前,DeepSeek V4上线后便宣布Pro版本模型优惠低至2.5折,随后缓存命中价格降至原价的1折。两轮降价后,DeepSeek又在5月22日宣布临时折扣永久有效。
而与之相反的情况是,不少大模型多次涨价。今年3月以来,阿里云和腾讯云相继宣布,受AI需求爆发及算力、存储芯片价格暴涨影响,部分模型API服务价格上调,有些涨幅翻了一倍以上。智谱经过多轮涨价后,API价格已与GPT、Claude等海外顶尖大模型看齐。
字节跳动的豆包更是开始试水付费模式,推出标准版、加强版、专业版三个付费层级,包月价格从68元到500元不等,连续包年最高达5088元,远超国内主流互联网会员定价体系。
AI视频生成领域也成为价格涨幅最明显的重灾区,目前国内视频生成模型已形成字节Seedance 2.0、快手可灵、MiniMax海螺、阿里HappyHorse等头部玩家,收费模式也逐步从“按会员收费”转向“云GPU租赁逻辑”。
值得关注的是,从按量计费到“套餐制”,再到平台积分制,Token计费模式日益多元。三大通信运营商纷纷推出Token套餐,如中国电信套餐价格最低仅为每月9.9元,包含1000万Token。云服务商尝试Token积分(credits)计费,如千问3.6-Plus大模型输入8349Token相当于抵扣1.67积分。此外,支付宝还上线了业内首个“词元支付”服务,促进Token支付自主化,MiniMax和阶跃星辰已率先接入试点。
总体来看,目前行业已形成“通用模型降价走量、高端模型溢价保值”的新格局。这也意味着降价不再是单纯的市场营销手段,而是底层算法优化、推理技术升级、算力成本下行共同驱动的必然结果。
从拼算力到拼技术
在一片涨价声中,小米和DeepSeek逆势降价,关键在于技术升级推动API调用成本降低。
小米团队表示,本次调价源于大模型团队在推理系统上的持续优化。基于SGLang HiCache完整支持SWA,将KV Cache在GPU显存、CPU内存、SSD等多级存储之间的数据搬运量降低至优化前的近1/7,并将可缓存token数量提升至优化前的近5倍,显著提升了缓存命中率和推理效率。
据了解,大模型在生成回答时是逐字逐句进行的。如果没有缓存机制,每次生成都需要重新回溯所有历史信息,既消耗算力,又拖慢速度。缓存机制有效解决了这一问题,生成内容时可直接调用已缓存的数据。当AI需要生成内容时,如果这一内容恰好存储在芯片缓存中,便称为“缓存命中”。命中率越高,AI计算量越小,整体运行速度越快,相当于节约了昂贵的算力成本。
业内专家表示,小米和DeepSeek的降价,意在通过极低的价格吸引更多开发者调用,由此积累大量缓存数据,进一步提升命中率、降低调用成本,从而再吸引更多开发者加入,形成良性循环。
此外,“国模+国芯”的混合算力方案也有望进一步降低API调用成本。如DeepSeek同时将华为昇腾与英伟达并列写入硬件验证清单,底层代码也从英伟达CUDA全面迁移到了华为CANN框架。结果显示,DeepSeek-V4在华为昇腾芯片上的推理速度较初期版本提升35倍,华为CANN框架与英伟达CUDA框架的代码兼容性已逼近95%。
小米MiMo-V2.5大模型在开源首日就完成了和国内外多家主流推理芯片的深度适配,如阿里平头哥、天数智芯、燧原科技、沐曦和昆仑芯等国产芯片均已完成适配。
Token市场三方角力
当前,Token已成为运营商继短信、流量之后的新量纲。近日,中国电信、中国移动、中国联通相继推出面向个人和企业的Token套餐,以类似“流量包”的形式销售,与云厂商和大模型厂商正面交锋。
具体来看,5月17日,中国电信推出试商用Token套餐,提供面向个人和开发者的多档选择,套餐最低价格为9.9元每月1000万词元;4月以来,中国移动在北京、湖北、河南等地推出Token套餐;5月16日,上海联通宣布向本地OPC用户提供Token服务,每位用户可免费领取3000万Token测试额度。
随着运营商入场,目前整个Token市场逐渐形成三大派系,即云厂商、大模型厂商、运营商。
阿里云、腾讯云、火山引擎等主流云厂商,目前已相继推出Token Plan计划,主打“模型超市+开发工具+企业级服务”。比如阿里云百炼推出的Token Plan团队版,按坐席收费(198元/坐席/月起),提供多模型调度、Agent开发框架、企业级安全。
云厂商优势在于有算力设施、大模型以及云计算生态,开发者一旦接入,换平台的迁移成本很高,先发优势强劲。IDC报告显示,2025年中国公有云上大模型调用量达1944万亿Tokens。其中,火山引擎以49.5%的市场占比排名第一,排名第二、第三的阿里云和百度智能云分别拿下28%、10% 的市场份额,三家企业共同占到了接近九成的份额。
运营商最后入场,拥有庞大的用户基础、线下网点、套餐体系经验,以及过硬的算力基础设施和政企客户关系。但目前运营商Token套餐中均为调用第三方模型,模型生态的短板、内部准备不足,使其目前难以对云厂商和大模型厂商造成冲击,尤其是在企业用户和开发者群体当中。
整体来看,云厂商具备“平台粘性”,模型厂商具备“模型实力”,运营商则有流量时代的种种积累,三者似乎都走在合适的位置上,Token市场格局演进仍需看来日。
上一篇:小米是在蓄能还是失血?一季度净利润同比降43%,智能电动汽车及AI创新业务经营亏损31亿元
下一篇:没有了