← 返回 FEED
AGENT2026-04-22

Mistral 进军语音:Voxtral TTS + Voxtral Transcribe 2 双发

Mistral 的语音布局

Mistral 在同一天发布了两款方向相反的语音模型:Voxtral TTS(文字转语音)和 Voxtral Transcribe 2(语音转文字)。两款产品覆盖语音 Agent pipeline 的输入和输出两端。

Voxtral TTS

核心能力

Voxtral TTS 主打情感表达和跨语言声音克隆:

  • 9 种语言:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语
  • 声音克隆:最少 3 秒参考音频即可适配说话人的风格、节奏和情感特征
  • 零样本跨语言克隆:用一个语言的参考音频生成另一个语言的语音

技术架构

三层结构:

  1. 3.4B 参数 transformer decoder 骨干网络
  2. 390M 参数流匹配声学 transformer
  3. 300M 参数神经音频编解码器

性能指标:

  • 10 秒语音的首字延迟:70ms
  • 实时系数:约 9.7x
  • 支持最长两分钟的原生生成,更长内容通过智能交错处理

人工评测显示,Voxtral TTS 在自然度上超过 ElevenLabs Flash v2.5,与 ElevenLabs v3 质量持平。

定价与授权

  • API 价格:$0.016 / 千字符
  • 权重开放:CC BY NC 4.0(限非商业使用)
  • 可用渠道:Mistral Studio、Le Chat、HuggingFace

Voxtral Transcribe 2

两款型号

Voxtral Transcribe 2 包含两个独立模型:

  • Voxtral Mini Transcribe V2:批量转录,适合离线处理长音频
  • Voxtral Realtime:流式架构,sub-200ms 延迟,4B 参数,适合实时和边缘部署

核心功能

  • 说话人分割(Diarization):生成带说话人标签和精确时间戳的转录
  • 上下文偏置(Context Biasing):最多 100 个词/短语引导技术术语识别准确率
  • 词级时间戳:每个词的精确起止时间
  • 13 种语言:英、中、印地、西班牙、阿拉伯、法、葡、俄、德、日、韩、意、荷
  • 噪声鲁棒性:在复杂声学环境下正常工作
  • 超长音频:单次请求支持最长 3 小时

基准表现

  • FLEURS 基准词错率:约 4%
  • 超过 GPT-4o mini、Gemini 2.5 Flash、Assembly、Deepgram
  • 比 ElevenLabs Scribe v2 处理速度快 3 倍,成本降至 1/5

定价与授权

  • Voxtral Mini Transcribe V2:$0.003 / 分钟
  • Voxtral Realtime:$0.006 / 分钟(Apache 2.0 开源权重)

语音 Agent Pipeline 的意义

TTS 和 STT 同日发布,加上 Mistral 此前已有的文本模型,Mistral 现在拥有构建完整语音 Agent 所需的全部组件:语言理解、文字转语音、语音转文字。Voxtral Realtime 的 Apache 2.0 开源也意味着开发者可以在自有基础设施上部署实时语音 Agent,而不依赖云端 API。