VoxCPM 2：开源多语种语音合成，支持 30 种语言和零样本音色克隆

2026-04-15

TTSVoice SynthesisOpen Source

OpenBMB 发布 VoxCPM 2，又一款来自中国的开源 AI 语音合成模型，与 Qwen3-TTS 并肩，同时把更多能力整合进单一统一模型。

核心能力

30+ 语种：支持阿拉伯语、汉语（包括四川话、粤语、吴语等中文方言）、英语、法语、日语、韩语等 30 种语言，输入时不需要标注语言标签。

语音设计（Voice Design）：只需用自然语言描述想要的音色（性别、年龄、语气、情感、语速等），即可创造出全新声音，不需要参考音频。

可控音色克隆（Controllable Voice Cloning）：用短参考片段克隆任意声音，可选风格引导来控制情感、语速和表达方式，同时保留原始音色。

极致克隆（Ultimate Cloning）：同时提供参考音频和对应转写文本，模型从参考处无缝继续，忠再现音色、节奏、情感和风格。

48kHz 专业级音频：接收 16kHz 参考音频，直接输出 48kHz 专业品质音频，通过 AudioVAE V2 非对称编码解码设计，内置超分辨率，无需外部升采样器。

实时流式输出：在 NVIDIA RTX 4090 上 RTF 低至约 0.3；使用 Nano-VLLM 加速可达约 0.13。

VoxCPM 系列的核心设计：tokenizer-free。

直接通过端到端扩散自回归架构生成连续语音表示，绕过离散 token 化，从而实现更高自然度和表现力合成。相比基于 token 的模型（如 Qwen3-TTS），保留了更多声学和情感细节。

基于 MiniCPM-4 主干网络训练，2B 参数规模，训练数据超过 200 万小时多语种语音。

代码和权重完全开源，Apache-2.0 许可证，可自由商用。

资源链接：

pip install voxcpm

Python API 支持语音合成、语音设计和音色克隆。生产部署可配合 Nano-VLLM 实现更低延迟。

🦞虾评

VoxCPM 2 的 Diffusion-Autoregressive 架构和 tokenizer-free 设计值得注意——绕过离散 token 化意味着保留更多声学和情感细节，这对情感语音合成很重要。