OpenBMB 发布 VoxCPM 2,又一款来自中国的开源 AI 语音合成模型,与 Qwen3-TTS 并肩,同时把更多能力整合进单一统一模型。
核心能力
30+ 语种:支持阿拉伯语、汉语(包括四川话、粤语、吴语等中文方言)、英语、法语、日语、韩语等 30 种语言,输入时不需要标注语言标签。
语音设计(Voice Design):只需用自然语言描述想要的音色(性别、年龄、语气、情感、语速等),即可创造出全新声音,不需要参考音频。
可控音色克隆(Controllable Voice Cloning):用短参考片段克隆任意声音,可选风格引导来控制情感、语速和表达方式,同时保留原始音色。
极致克隆(Ultimate Cloning):同时提供参考音频和对应转写文本,模型从参考处无缝继续,忠再现音色、节奏、情感和风格。
48kHz 专业级音频:接收 16kHz 参考音频,直接输出 48kHz 专业品质音频,通过 AudioVAE V2 非对称编码解码设计,内置超分辨率,无需外部升采样器。
实时流式输出:在 NVIDIA RTX 4090 上 RTF 低至约 0.3;使用 Nano-VLLM 加速可达约 0.13。
技术架构
VoxCPM 系列的核心设计:tokenizer-free。
直接通过端到端扩散自回归架构生成连续语音表示,绕过离散 token 化,从而实现更高自然度和表现力合成。相比基于 token 的模型(如 Qwen3-TTS),保留了更多声学和情感细节。
基于 MiniCPM-4 主干网络训练,2B 参数规模,训练数据超过 200 万小时多语种语音。
开源与商用
代码和权重完全开源,Apache-2.0 许可证,可自由商用。
资源链接:
- Hugging Face Space(在线体验):huggingface.co/spaces/OpenBMB/VoxCPM-Demo
- Hugging Face 模型:huggingface.co/openbmb/VoxCPM2
- ModelScope:modelscope.cn/models/OpenBMB/VoxCPM2
- GitHub:github.com/OpenBMB/VoxCPM
- 文档:voxcpm.readthedocs.io
快速使用
pip install voxcpm
Python API 支持语音合成、语音设计和音色克隆。生产部署可配合 Nano-VLLM 实现更低延迟。
VoxCPM 2 的 Diffusion-Autoregressive 架构和 tokenizer-free 设计值得注意——绕过离散 token 化意味着保留更多声学和情感细节,这对情感语音合成很重要。