美团新音频模型开源,音色克隆能力拉满
创始人
2026-04-02 20:07:36
0

IT之家 4 月 2 日消息,美团昨天发布 LongCat-AudioDiT 音频生成模型,彻底抛弃梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS),号称“突破零样本 TTS 音色克隆上限”。

据介绍,业界主流 TTS 引擎长期受困于“多阶段”的复杂流程:先预测中间声学特征(如梅尔频谱),再依赖一个独立的神经声码器将特征“翻译”成最终波形。这种流程本质上是在两个不同空间里“传话”,必然会累积误差,导致最终合成的声音丢失了高保真、个性化的细节。

而 LongCat-AudioDiT 的核心架构逻辑非常简单,只用一个波形变分自编码器(Wav-VAE)和一个扩散 Transformer(DiT),在波形隐空间里完成声音的压缩、建模与重建。拥有高效的下采样与多尺度建模、非参数捷径稳定训练以及对抗式多目标训练等多维度创新。

同时,该模型的骨干网络基于 Transformer,集成全局自适应层归一化(Global AdaLN)、QK-Norm + RoPE 稳定注意力训练等多项结构优化。还能够通过双重约束机制修复流匹配 TTS 的“训练-推理”不匹配问题。

性能方面,该模型的 3.5B 版本在 Seed-ZH 测试集的说话人相似度(SIM)指标提升至 0.818,Seed-Hard 测试集达到 0.797,超过了 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等知名模型

目前该模型已经开源,IT之家附 1B/3.5B 参数版本链接如下:

  • 论文:https://arxiv.org/abs/2603.29339v1
  • GitHub:https://github.com/meituan-longcat/LongCat-AudioDiT
  • HuggingFace:https://huggingface.co/meituan-longcat/LongCat-AudioDiT

相关内容

热门资讯

消息称苹果iOS 27快捷指令... 4 月 1 日消息,根据尼古拉斯 · 阿尔瓦雷斯发现的后台代码、经 MacRumors 证实,苹果正...
起底价格不透明的家电维修 家电维修服务长期存在价格不透明、收费偏高、标准缺失等乱象,令消费者深陷“高价维修”困境。近日,据多位...
原创 别... iPhone 18 Pro的模具图居然在网上偷跑了!这波爆料可以说直接把大家的期待值拉满了,那么这款...
从机器人到电动航空,卧龙电驱卡... 出品 | 子弹财经 作者 | 星芒 编辑 | 闪电 美编 | 倩倩 审核 | 颂文 智能机器人的热度...
透视脚本!给大家普及一下wep... 给大家普及一下wepoker开挂透视方法是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器...
透视脚本!WePoKer有没有... 您好:WePoKer有没有透视软件挂的软件,软件加客服确实是有挂的,很多玩家在这款游戏中打牌都会发现...
透视脚本!微扑克发牌规律性,W... 您好,WePoker透视挂效果如何这款游戏可以开挂的,确实是有挂的,需要了解加微【136704302...
开挂辅助工具!wpk辅助会封号... 您好,wpk辅助会封号最简单三个办法这款游戏可以开挂的,确实是有挂的,需要了解加微【13670430...
脚本辅助!wpk透视插件,we... 您好:wepokerplus有没有挂这款游戏是可以开挂的,软件加【添加微信客服136704302】确...
透视脚本!德州WPK辅助器,w... 透视脚本!德州WPK辅助器,wepoker冤家牌规律,(重要通知外挂辅助插件)透视脚本!德州WPK辅...