Thinking Machines发布低延迟语音模型

The Decoder·5月12日 21:16 UTC·作者 Maximilian Schreiner

关键信息

Thinking Machines 表示，该模型采用 time-aligned micro-turns，持续以 200 毫秒为单位接收输入并以 200 毫秒为单位生成输出，两条 token 流交错运行。为处理推理、工具调用和研究等更耗时的任务，它将快速交互模型与一个异步的后台模型配对，并共享同一段对话上下文。

资讯摘要

Thinking Machines Lab 发布了其首个模型家族的研究预览，并将其称为 Interaction Models。公司的目标是把语音 AI 从固定的问答轮次，推进到连续、实时的对话形态。根据官方说法，这个模型会把音频、视频和文本按 200 毫秒一段并行处理。Thinking Machines 认为，这种方式比 OpenAI 和 Google 现有的实时语音产品更自然、更灵活。公司还声称，该模型在交互质量基准上优于 GPT-Realtime-2 和 Gemini Live。文章指出，许多现有系统依赖一个单独的“harness”，例如语音活动检测器和其他编排组件，先判断说话人是否结束，再把完整语句交给模型处理。

Thinking Machines 认为，这些外部组件的智能远低于模型本身，因此像打断用户、与用户重叠说话、或者根据视觉线索即时反应这类行为都很难实现。它提出的替代方案是：直接把音频和视频输入 transformer，尽量减少预处理，并用 time-aligned micro-turns 代替人为划定的轮次边界。与此同时，系统还必须处理更重的任务，所以 Thinking Machines 把快速交互模型与一个异步后台模型结合起来，由后者负责推理、工具使用和研究。两个模型共享同一段对话上下文，从而让一个模型保持实时响应，另一个模型处理更长时间的任务。文章把这看作一种更通用的交互式 AI 路线，但也强调这次发布仍然只是研究预览。文中还提到，这家创业公司正承受执行压力，因为近期已有几位核心员工离职。

资讯正文

Thinking Machines Lab 推出其首个模型，并认为 OpenAI 在语音方面搞错的关键在于“交互性”

要点

- 由前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 发布了其首个 AI 模型，该模型以 200 毫秒为单位并行处理音频、视频和文本，用流畅的实时对话取代了僵硬的轮流发言。

- 该模型在交互质量和延迟基准测试中优于 OpenAI 的 GPT-Realtime-2 和 Google 的 Gemini Live，并将快速交互模型与后台推理模型相结合。

- 尽管技术前景可观，这家初创公司仍面临压力，因为最近已有几名关键员工离职。

Thinking Machines Lab 发布了其首个 AI 模型的研究预览版，旨在将语音 AI 从传统的问答模式中解放出来。该模型以 200 毫秒为单位并行处理音频、视频和文本，且这家初创公司声称，它在交互质量方面优于 OpenAI 的 GPT-Realtime-2 和 Google 的 Gemini Live。

Thinking Machines Lab 已发布其所谓的 Interaction Models 的研究预览，这类 AI 模型不是通过外部支架来处理交互，而是原生地处理交互。其核心理念是：交互性应当与智能一起扩展，而不应被当作事后补充。

当前的语音 AI 系统仍然感觉很机械

如今像 GPT-Realtime 或 Gemini Live 这样的实时系统会持续接收音频，但真正的语言模型并不会直接看到这些音频。根据 Thinking Machines 的说法，在模型前面有一套由多个独立组件组成的“支架”，其中包括语音活动检测器之类的东西，用来判断说话人的轮次是否结束。只有在那之后，完整的话语才会被交给模型，由它生成一个完整回应。而在它说话时，其感知会被冻结，在完成之前或被打断之前都不会接收新的信息。

这些组件的智能程度远低于模型本身。Thinking Machines 认为，这意味着真正对话中定义性的行为根本无法实现：主动插话（“如果我说错了就打断我”）、对视觉线索作出反应（“如果我写了一个 bug 就告诉我”），或者同时说话，这对于实时翻译之类的场景会很有用。该实验室援引 Sutton 的“Bitter Lesson”指出，这些手工设计的系统最终会被通用能力的进步所超越。

Thinking Machines 的 Interaction Models 用一个直接处理音视频流的模型取代了这套支架，而不是接收已经分段好的话语。该方法类似于 Moshi 或 Nemotron VoiceChat 这样的全双工模型，它们也以类似的交错方式工作，但规模更小，重点放在延迟而非智能基准测试上。

200 毫秒的时钟取代了人为的轮次边界

与现有架构真正不同的地方，是团队所说的 time-aligned micro-turns。该模型持续处理 200 毫秒的输入，并生成 200 毫秒的输出，两个 token 流以交错方式运行。输入和输出不再按顺序发生，而是共享同一个时钟周期。

这消除了人为的轮次边界，让模型可以自行决定是保持沉默、插话，还是与用户同时发言。音频和图像不会先经过大型独立编码器预处理，而是只经过极少的预处理后直接输入 transformer。这能节省延迟，但也可能限制模型捕捉诸如文本之类精细视觉细节的能力。

不过，实时模型还面临另一个挑战。如果你需要每 200 毫秒就作出回应，你就不可能同时花几分钟进行推理或搜索网络。Thinking Machines 的解决方式，是将交互模型与第二个异步后台模型配对，由后者处理更长耗时的任务，例如推理、工具使用和研究。

两个模型共享同一份对话上下文。交互模型在保持对话继续进行的同时分派任务，然后在合适的时机、也就是更符合用户当前正在做的事情的时刻，把后台模型的结果编织进对话，而不是突然切换上下文。目标是把快速模型的响应速度与推理模型的深度结合起来。

基准测试表明，这种方法是有效的

在衡量智能和指令遵循能力的 Audio MultiChallenge 上，这个模型得分为 43.4%，高于竞争对手的快速版本，但低于处于“xhigh”思考模式的 GPT-Realtime-2，后者达到 48.5%。在该实验室关于时间感知（TimeSpeak、CueSpeak）和视觉主动性（RepCount-A、ProactiveVideoQA、Charades）的自有基准测试中，Thinking Machines 表示，没有现有模型能够有意义地完成这些任务。经测试的竞争对手要么保持沉默，要么给出错误答案。

一家有待证明自己的 20 亿美元初创公司

Thinking Machines Lab 由 Mira Murati 以及其他前 OpenAI 研究人员于 2025 年 2 月创立。2025 年 7 月，公司在没有产品的情况下完成了一轮 20 亿美元的种子轮融资，估值达到 120 亿美元。据报道，随后一轮估值约 500 亿美元的融资一直在筹划中，但到 2025 年底仍未成行，而且此后已有数名关键员工离职。Interaction Model 是首个公司内部开发的 AI 模型，它支撑着 Murati 的说法：她能够与 OpenAI、Anthropic 和 Google DeepMind 一起打造一个真正的竞争对手。

在此之前，公司发布了 Tinker，这是一款旨在让开发者无需处理分布式训练、就能用 LoRA 高效微调开源模型的工具。

来源与参考

收录于 2026-05-13