OpenBMB 发布 VoxCPM 2,又一款来自中国的开源 AI 语音合成模型,与 Qwen3-TTS 并肩,同时把更多能力整合进单一统一模型。

核心能力

30+ 语种:支持阿拉伯语、汉语(包括四川话、粤语、吴语等中文方言)、英语、法语、日语、韩语等 30 种语言,输入时不需要标注语言标签。

语音设计(Voice Design):只需用自然语言描述想要的音色(性别、年龄、语气、情感、语速等),即可创造出全新声音,不需要参考音频。

可控音色克隆(Controllable Voice Cloning):用短参考片段克隆任意声音,可选风格引导来控制情感、语速和表达方式,同时保留原始音色。

极致克隆(Ultimate Cloning):同时提供参考音频和对应转写文本,模型从参考处无缝继续,忠再现音色、节奏、情感和风格。

48kHz 专业级音频:接收 16kHz 参考音频,直接输出 48kHz 专业品质音频,通过 AudioVAE V2 非对称编码解码设计,内置超分辨率,无需外部升采样器。

实时流式输出:在 NVIDIA RTX 4090 上 RTF 低至约 0.3;使用 Nano-VLLM 加速可达约 0.13。

技术架构

VoxCPM 系列的核心设计:tokenizer-free

直接通过端到端扩散自回归架构生成连续语音表示,绕过离散 token 化,从而实现更高自然度和表现力合成。相比基于 token 的模型(如 Qwen3-TTS),保留了更多声学和情感细节。

基于 MiniCPM-4 主干网络训练,2B 参数规模,训练数据超过 200 万小时多语种语音。

开源与商用

代码和权重完全开源,Apache-2.0 许可证,可自由商用。

资源链接:

  • Hugging Face Space(在线体验):huggingface.co/spaces/OpenBMB/VoxCPM-Demo
  • Hugging Face 模型:huggingface.co/openbmb/VoxCPM2
  • ModelScope:modelscope.cn/models/OpenBMB/VoxCPM2
  • GitHub:github.com/OpenBMB/VoxCPM
  • 文档:voxcpm.readthedocs.io

快速使用

pip install voxcpm

Python API 支持语音合成、语音设计和音色克隆。生产部署可配合 Nano-VLLM 实现更低延迟。