Thinking Machines发布低延迟语音模型
The Decoder··作者 Maximilian Schreiner
关键信息
Thinking Machines 表示,该模型采用 time-aligned micro-turns,持续以 200 毫秒为单位接收输入并以 200 毫秒为单位生成输出,两条 token 流交错运行。为处理推理、工具调用和研究等更耗时的任务,它将快速交互模型与一个异步的后台模型配对,并共享同一段对话上下文。
资讯摘要
Thinking Machines Lab 发布了其首个模型家族的研究预览,并将其称为 Interaction Models。公司的目标是把语音 AI 从固定的问答轮次,推进到连续、实时的对话形态。根据官方说法,这个模型会把音频、视频和文本按 200 毫秒一段并行处理。Thinking Machines 认为,这种方式比 OpenAI 和 Google 现有的实时语音产品更自然、更灵活。公司还声称,该模型在交互质量基准上优于 GPT-Realtime-2 和 Gemini Live。文章指出,许多现有系统依赖一个单独的“harness”,例如语音活动检测器和其他编排组件,先判断说话人是否结束,再把完整语句交给模型处理。
Thinking Machines 认为,这些外部组件的智能远低于模型本身,因此像打断用户、与用户重叠说话、或者根据视觉线索即时反应这类行为都很难实现。它提出的替代方案是:直接把音频和视频输入 transformer,尽量减少预处理,并用 time-aligned micro-turns 代替人为划定的轮次边界。与此同时,系统还必须处理更重的任务,所以 Thinking Machines 把快速交互模型与一个异步后台模型结合起来,由后者负责推理、工具使用和研究。两个模型共享同一段对话上下文,从而让一个模型保持实时响应,另一个模型处理更长时间的任务。文章把这看作一种更通用的交互式 AI 路线,但也强调这次发布仍然只是研究预览。文中还提到,这家创业公司正承受执行压力,因为近期已有几位核心员工离职。

资讯正文
Thinking Machines Lab 推出其首个模型,并认为 OpenAI 在语音方面搞错的关键在于“交互性”
要点
- 由前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 发布了其首个 AI 模型,该模型以 200 毫秒为单位并行处理音频、视频和文本,用流畅的实时对话取代了僵硬的轮流发言。
- 该模型在交互质量和延迟基准测试中优于 OpenAI 的 GPT-Realtime-2 和 Google 的 Gemini Live,并将快速交互模型与后台推理模型相结合。
- 尽管技术前景可观,这家初创公司仍面临压力,因为最近已有几名关键员工离职。
Thinking Machines Lab 发布了其首个 AI 模型的研究预览版,旨在将语音 AI 从传统的问答模式中解放出来。该模型以 200 毫秒为单位并行处理音频、视频和文本,且这家初创公司声称,它在交互质量方面优于 OpenAI 的 GPT-Realtime-2 和 Google 的 Gemini Live。
Thinking Machines Lab 已发布其所谓的 Interaction Models 的研究预览,这类 AI 模型不是通过外部支架来处理交互,而是原生地处理交互。其核心理念是:交互性应当与智能一起扩展,而不应被当作事后补充。
当前的语音 AI 系统仍然感觉很机械
如今像 GPT-Realtime 或 Gemini Live 这样的实时系统会持续接收音频,但真正的语言模型并不会直接看到这些音频。根据 Thinking Machines 的说法,在模型前面有一套由多个独立组件组成的“支架”,其中包括语音活动检测器之类的东西,用来判断说话人的轮次是否结束。只有在那之后,完整的话语才会被交给模型,由它生成一个完整回应。而在它说话时,其感知会被冻结,在完成之前或被打断之前都不会接收新的信息。
这些组件的智能程度远低于模型本身。Thinking Machines 认为,这意味着真正对话中定义性的行为根本无法实现:主动插话(“如果我说错了就打断我”)、对视觉线索作出反应(“如果我写了一个 bug 就告诉我”),或者同时说话,这对于实时翻译之类的场景会很有用。该实验室援引 Sutton 的“Bitter Lesson”指出,这些手工设计的系统最终会被通用能力的进步所超越。
Thinking Machines 的 Interaction Models 用一个直接处理音视频流的模型取代了这套支架,而不是接收已经分段好的话语。该方法类似于 Moshi 或 Nemotron VoiceChat 这样的全双工模型,它们也以类似的交错方式工作,但规模更小,重点放在延迟而非智能基准测试上。
200 毫秒的时钟取代了人为的轮次边界
与现有架构真正不同的地方,是团队所说的 time-aligned micro-turns。该模型持续处理 200 毫秒的输入,并生成 200 毫秒的输出,两个 token 流以交错方式运行。输入和输出不再按顺序发生,而是共享同一个时钟周期。
这消除了人为的轮次边界,让模型可以自行决定是保持沉默、插话,还是与用户同时发言。音频和图像不会先经过大型独立编码器预处理,而是只经过极少的预处理后直接输入 transformer。这能节省延迟,但也可能限制模型捕捉诸如文本之类精细视觉细节的能力。
不过,实时模型还面临另一个挑战。如果你需要每 200 毫秒就作出回应,你就不可能同时花几分钟进行推理或搜索网络。Thinking Machines 的解决方式,是将交互模型与第二个异步后台模型配对,由后者处理更长耗时的任务,例如推理、工具使用和研究。
两个模型共享同一份对话上下文。交互模型在保持对话继续进行的同时分派任务,然后在合适的时机、也就是更符合用户当前正在做的事情的时刻,把后台模型的结果编织进对话,而不是突然切换上下文。目标是把快速模型的响应速度与推理模型的深度结合起来。
基准测试表明,这种方法是有效的
在衡量智能和指令遵循能力的 Audio MultiChallenge 上,这个模型得分为 43.4%,高于竞争对手的快速版本,但低于处于“xhigh”思考模式的 GPT-Realtime-2,后者达到 48.5%。在该实验室关于时间感知(TimeSpeak、CueSpeak)和视觉主动性(RepCount-A、ProactiveVideoQA、Charades)的自有基准测试中,Thinking Machines 表示,没有现有模型能够有意义地完成这些任务。经测试的竞争对手要么保持沉默,要么给出错误答案。
一家有待证明自己的 20 亿美元初创公司
Thinking Machines Lab 由 Mira Murati 以及其他前 OpenAI 研究人员于 2025 年 2 月创立。2025 年 7 月,公司在没有产品的情况下完成了一轮 20 亿美元的种子轮融资,估值达到 120 亿美元。据报道,随后一轮估值约 500 亿美元的融资一直在筹划中,但到 2025 年底仍未成行,而且此后已有数名关键员工离职。Interaction Model 是首个公司内部开发的 AI 模型,它支撑着 Murati 的说法:她能够与 OpenAI、Anthropic 和 Google DeepMind 一起打造一个真正的竞争对手。
在此之前,公司发布了 Tinker,这是一款旨在让开发者无需处理分布式训练、就能用 LoRA 高效微调开源模型的工具。
来源与参考
收录于 2026-05-13