美团 LongCat 团队开源了语音合成模型 LongCat-AudioDiT,提供 1B 和 3.5B 两个版本,代码和权重均采用 MIT 协议。该模型的核心能力是零样本声音克隆:只需一段参考录音,就能用该说话人的音色朗读任意新文本。
技术路线:跳过频谱图
传统语音合成分两步走:先把文本转为频谱图(声音的「图像表示」),再从频谱图还原为波形。LongCat-AudioDiT 跳过了频谱图这一中间环节,直接在波形的压缩表示上做扩散生成,整条流程只需两个组件。
这样减少的中间环节,从而减少了各环节累积的误差。
论文还报告了一个反直觉的发现:中间压缩环节的还原质量越高,最终合成效果反而不一定更好。这意味着盲目追求中间表征的完美反而可能误导模型。
Benchmark 表现
在 Seed 基准测试(语音克隆领域的主流评测)上:
| 模型 | 中文说话人相似度 | 中文困难子集相似度 |
|---|---|---|
| LongCat-AudioDiT 3.5B | 0.818 | 0.797 |
| Seed-DiT | 0.809 | - |
| CosyVoice3.5(阿里) | - | 0.786 |
3.5B 版本的中文说话人相似度达到 0.818,超过字节 Seed-TTS 系列此前最优的 Seed-DiT(0.809);中文困难子集相似度达到 0.797,超过阿里 CosyVoice3.5(0.786)。
语音克隆在 2026 年已经是各家必争之地。美团这个工作的意义在于打破了「中间表征越精确最终效果越好」的直觉,值得关注的是它只靠两个组件就追平了 Seed-TTS 系列——架构简洁性本身就是竞争力。