开源语音模型持续监听

The Decoder·6月6日 18:50 UTC·作者 Jonathan Kemper

关键信息

该模型在每个0.4秒的音频片段后，会输出<silent>或<response>来决定是否继续沉默，而不是等整段录音结束。论文称它使用了StreamAudio-2M进行训练，这是一个合成数据集，包含260万个单元、约302,000小时音频，覆盖7个技能领域和28个子任务。

资讯摘要

这篇报道介绍了一款名为“Audio Interaction”的开源语音模型，它不再像传统语音系统那样等整段录音结束后再处理，而是持续监听音频流。模型每隔0.4秒就会做一次判断，决定是输出<silent>继续倾听，还是输出<response>开始回应。研究人员希望把对话、翻译、转录和声音识别整合到同一个系统里，而不是拆成多个专用工具。文章指出，这种设计更接近真实听众的行为，也是在缩小当前音频模型与人类实时交流方式之间的差距。为了训练模型，团队没有直接依赖现成数据集，因为现有音频数据大多是短片段，缺少长序列和稀疏回应信号。

于是他们构建了三阶段的合成数据流程：先由语言模型生成一个合理场景，再从数据库中检索匹配音频或用音频模型补齐缺失声音，最后通过预处理让剪切边界听起来更自然。最终得到的StreamAudio-2M数据集包含260万个单元和约302,000小时音频，覆盖7个技能领域和28个子任务。在评测中，Audio-Interaction在MMAU音频基准上取得58.15分，略高于其基础模型Qwen2.5-Omni-3B，并且接近更大的7B模型；在英中翻译任务上也有明显提升。论文还称，它在新的ProactiveSound Bench上击败了Gemini 3 Flash等系统。为了适配实时使用，研究人员将音频处理和回复生成拆分为并行流程，并通过队列交换数据，这让首字响应时间从831毫秒降到392毫秒，同时把卡住的情况降到了5.2%。

资讯正文

这款新的开源语音模型可以不间断地聆听，并每隔 0.4 秒决定一次是该开口还是保持沉默

要点

- “Audio Interaction” AI 模型能够处理连续音频流，并将对话、翻译、转录和声音识别等任务整合到一个系统中。

- 为此，它会把音频流切分成 0.4 秒的片段，并在每个片段后通过一个特殊 token 决定是继续保持沉默，还是生成回应。

- 该模型使用一个包含 302,000 小时音频的人工数据集训练而成，能够并行处理监听与发声。这最大限度减少了回应等待时间，并使系统在主动噪声检测测试中击败了 Gemini 3 Flash 等模型。

研究人员希望缩小当今音频语音模型与真实听众之间的差距。他们的系统一次性处理对话、翻译和声音识别。

如今的音频语音模型，比如 GPT-4o 或 Qwen 3.5-Omni，更像是一台带按钮的听写机：只有录音结束后才会响应。像 Moshi 这样的流式系统可用于对话，或者像 Paraformer 这样的系统可用于实时字幕，它们确实会持续监听，但一次只能处理一项任务，并把咳嗽之类的声音当作背景噪声。

来自中国、香港和新加坡的研究人员希望用“音频交互”将这两种方法结合起来。该模型会持续监听音频流，将其切成 0.4 秒的片段，并在每个片段之后决定是保持沉默还是开口说话。翻译、转录、聊天以及对日常噪声的反应，都运行在一个拥有 30 亿参数的单一模型中。

每 0.4 秒一个特殊 token

在每段音频片段之后，模型会输出 <silent> 或 <response>。如果它选择 <silent>，就会继续监听。只有当它选择 <response> 时，才会开始说话。像“翻译成英文”这样的经典任务，会变成同一连续流中的指令。

根据论文，Audio-Interaction 在音频基准 MMAU 上获得了 58.15 分，略微超过其基础模型 Qwen2.5-Omni-3B。它也接近更大的 7B 模型。在英中翻译任务上，这款模型相较基础模型有了很大提升。

为了让模型学会何时介入，团队需要合适的训练数据。研究人员表示，现有音频数据集大多由短而孤立的片段组成，缺乏带有稀疏回应信号的长序列。

因此，他们分三步构建了自己的场景。首先，一个语言模型设计出一个合理的场景——比如清晨的厨房——并包含 3 到 15 个子事件。随后，系统会在数据库中搜索匹配的片段，或者借助 AudioX 或 ElevenLabs 这样的音频模型生成缺失的声音，例如玻璃破碎声。接着，预处理步骤会把剪辑边缘平滑处理，使录音听起来更自然。

最终生成的 StreamAudio-2M 数据集包含 260 万个单元，以及跨 7 个技能领域和 28 个子任务的约 302,000 小时音频。

两个反复出现的流式问题

训练过程中一直暴露出两个弱点。首先，模型会在冗长、嘈杂的序列中忘记更早的内容。解决办法是：提出指向音频更早部分的提问，迫使模型建立长期记忆。

其次，模型会对那些无关紧要的声音过于频繁地作出响应。团队通过加入大量经过验证的静默片段，以及明确不应触发回应的背景音来应对这一问题。在新推出、包含 644 个人工精选事件的 ProactiveSound Bench 上，该模型在包括 Gemini 3 Flash、Kimi-Audio-Instruct 和 Step-Audio 2 在内的多个对手面前表现更好。

用队列取代阻塞式流水线

为了实现实时使用，研究人员将传入音频的处理与响应生成分离开来。两者并行运行，并通过队列交换数据：音频端持续写入新的片段，而响应端只在自己无话可说时读取这些数据。若不做这种拆分，首次响应时间会从 392 毫秒跃升至 831 毫秒，系统卡住的时间占比达到 5.2%。

代码和权重下载说明已在 GitHub 上公布，采用 Apache 2.0 许可证，对商业使用没有限制。完整训练数据集预计稍后发布。

来源与参考

收录于 2026-06-07