字节跳动Seed团队发布Seeduplex,一款原生全双工端到端语音大模型,已在豆包App全量上线——标志全双工语音技术正式走出实验室,在业界率先实现规模化落地。

为什么重要

此前业内大多数语音系统都是半双工范式:"你讲我听、我讲你听"的轮流机制。真实人类对话从来不是这样的——你会打断、补充、同时说话。全双工才是让AI语音交互接近真人体验的关键。

核心技术能力

1. 精准抗干扰 Seeduplex能持续感知用户所处全局声学环境,精准判断哪些声音是真正需要响应的指令,哪些是背景噪音或旁人对话。实测误回复率和误打断率降低50%。

2. 动态判停 准确判断用户是在思考、已说完还是需要补充。结合语音语义联合建模,对话节奏控制能力大幅提升。

3. 超低延迟 用户话音落下即可"秒速响应",判停延迟降低约250ms,比半双工方案响应更快。

评测数据

自身对比(Seeduplex vs 豆包旧版半双工)

  • 判停MOS分提高 8%
  • 对话流畅度MOS分提升 12%
  • 打断响应延迟缩短约 300ms
  • 复杂场景AI抢话比例减少 40%
  • 误回复率和误打断率降低 50%

真人对比:以真实人人对话为基准,Seeduplex在判停表现上提升8%,在打断响应稳定性上甚至略好于人人对话平均水平——但整体流畅度仍有差距。

多人场景处理

这是最难的部分:咖啡厅偶遇朋友、车内导航声混杂、家庭场景门外有人说话——Seeduplex能通过语义识别交互意图,精准判断哪些话是针对自己的指令,避免错误抢答或漏听。

未来方向

团队透露了后续路线图:

  • 引入视觉模态,实现"边听、边看、边说"
  • 探索"边听边想"、"边听边搜"——不只是听和说,还要思考和执行
  • 感知、思考、输出一体化