开源语音模型持续监听

The Decoder··作者 Jonathan Kemper

关键信息

该模型在每个0.4秒的音频片段后,会输出<silent>或<response>来决定是否继续沉默,而不是等整段录音结束。论文称它使用了StreamAudio-2M进行训练,这是一个合成数据集,包含260万个单元、约302,000小时音频,覆盖7个技能领域和28个子任务。

资讯摘要

这篇报道介绍了一款名为“Audio Interaction”的开源语音模型,它不再像传统语音系统那样等整段录音结束后再处理,而是持续监听音频流。模型每隔0.4秒就会做一次判断,决定是输出<silent>继续倾听,还是输出<response>开始回应。研究人员希望把对话、翻译、转录和声音识别整合到同一个系统里,而不是拆成多个专用工具。文章指出,这种设计更接近真实听众的行为,也是在缩小当前音频模型与人类实时交流方式之间的差距。为了训练模型,团队没有直接依赖现成数据集,因为现有音频数据大多是短片段,缺少长序列和稀疏回应信号。

于是他们构建了三阶段的合成数据流程:先由语言模型生成一个合理场景,再从数据库中检索匹配音频或用音频模型补齐缺失声音,最后通过预处理让剪切边界听起来更自然。最终得到的StreamAudio-2M数据集包含260万个单元和约302,000小时音频,覆盖7个技能领域和28个子任务。在评测中,Audio-Interaction在MMAU音频基准上取得58.15分,略高于其基础模型Qwen2.5-Omni-3B,并且接近更大的7B模型;在英中翻译任务上也有明显提升。论文还称,它在新的ProactiveSound Bench上击败了Gemini 3 Flash等系统。为了适配实时使用,研究人员将音频处理和回复生成拆分为并行流程,并通过队列交换数据,这让首字响应时间从831毫秒降到392毫秒,同时把卡住的情况降到了5.2%。

开源语音模型持续监听

资讯正文

这款新的开源语音模型可以不间断地聆听,并每隔 0.4 秒决定一次是该开口还是保持沉默

要点

- “Audio Interaction” AI 模型能够处理连续音频流,并将对话、翻译、转录和声音识别等任务整合到一个系统中。

- 为此,它会把音频流切分成 0.4 秒的片段,并在每个片段后通过一个特殊 token 决定是继续保持沉默,还是生成回应。

- 该模型使用一个包含 302,000 小时音频的人工数据集训练而成,能够并行处理监听与发声。这最大限度减少了回应等待时间,并使系统在主动噪声检测测试中击败了 Gemini 3 Flash 等模型。

研究人员希望缩小当今音频语音模型与真实听众之间的差距。他们的系统一次性处理对话、翻译和声音识别。

如今的音频语音模型,比如 GPT-4o 或 Qwen 3.5-Omni,更像是一台带按钮的听写机:只有录音结束后才会响应。像 Moshi 这样的流式系统可用于对话,或者像 Paraformer 这样的系统可用于实时字幕,它们确实会持续监听,但一次只能处理一项任务,并把咳嗽之类的声音当作背景噪声。

来自中国、香港和新加坡的研究人员希望用“音频交互”将这两种方法结合起来。该模型会持续监听音频流,将其切成 0.4 秒的片段,并在每个片段之后决定是保持沉默还是开口说话。翻译、转录、聊天以及对日常噪声的反应,都运行在一个拥有 30 亿参数的单一模型中。

每 0.4 秒一个特殊 token

在每段音频片段之后,模型会输出 <silent> 或 <response>。如果它选择 <silent>,就会继续监听。只有当它选择 <response> 时,才会开始说话。像“翻译成英文”这样的经典任务,会变成同一连续流中的指令。

根据论文,Audio-Interaction 在音频基准 MMAU 上获得了 58.15 分,略微超过其基础模型 Qwen2.5-Omni-3B。它也接近更大的 7B 模型。在英中翻译任务上,这款模型相较基础模型有了很大提升。

为了让模型学会何时介入,团队需要合适的训练数据。研究人员表示,现有音频数据集大多由短而孤立的片段组成,缺乏带有稀疏回应信号的长序列。

因此,他们分三步构建了自己的场景。首先,一个语言模型设计出一个合理的场景——比如清晨的厨房——并包含 3 到 15 个子事件。随后,系统会在数据库中搜索匹配的片段,或者借助 AudioX 或 ElevenLabs 这样的音频模型生成缺失的声音,例如玻璃破碎声。接着,预处理步骤会把剪辑边缘平滑处理,使录音听起来更自然。

最终生成的 StreamAudio-2M 数据集包含 260 万个单元,以及跨 7 个技能领域和 28 个子任务的约 302,000 小时音频。

两个反复出现的流式问题

训练过程中一直暴露出两个弱点。首先,模型会在冗长、嘈杂的序列中忘记更早的内容。解决办法是:提出指向音频更早部分的提问,迫使模型建立长期记忆。

其次,模型会对那些无关紧要的声音过于频繁地作出响应。团队通过加入大量经过验证的静默片段,以及明确不应触发回应的背景音来应对这一问题。在新推出、包含 644 个人工精选事件的 ProactiveSound Bench 上,该模型在包括 Gemini 3 Flash、Kimi-Audio-Instruct 和 Step-Audio 2 在内的多个对手面前表现更好。

用队列取代阻塞式流水线

为了实现实时使用,研究人员将传入音频的处理与响应生成分离开来。两者并行运行,并通过队列交换数据:音频端持续写入新的片段,而响应端只在自己无话可说时读取这些数据。若不做这种拆分,首次响应时间会从 392 毫秒跃升至 831 毫秒,系统卡住的时间占比达到 5.2%。

代码和权重下载说明已在 GitHub 上公布,采用 Apache 2.0 许可证,对商业使用没有限制。完整训练数据集预计稍后发布。

来源与参考

  1. 原始链接
  2. New open-source voice model listens nonstop and decides every 0.4 seconds whether to speak or stay silent

收录于 2026-06-07