Thinking Machines推出实时交互模型

The Verge AI·5月12日 06:19 UTC·作者 Jay Peters

关键信息

Thinking Machines 认为，现有模型仍然处于“单线程”状态，只能等用户说完或输入完才回应，而且在生成回答时感知会被冻结。公司表示，其目标是消除这种带宽瓶颈，但该产品目前还不能试用；计划在未来几个月推出有限研究预览，并在今年晚些时候扩大发布。

资讯摘要

Thinking Machines 是由前 OpenAI CTO Mira Murati 创立的 AI 公司，它在周一宣布正在研发一种名为“交互模型”的新系统。公司将这类模型描述为能够像人类自然协作那样与用户配合的 AI：它们会持续接收音频、视频和文本，并实时思考、回应和行动。Thinking Machines 解释说，今天的模型通常以“单线程”方式运行，也就是要等用户打完字或说完话才会反应，而在生成回答时又会暂停接收新的信息。公司认为，这种方式限制了人类的知识、意图和判断传递给模型的程度，也让用户更难理解模型正在做什么。为说明这一点，Thinking Machines 把当前的交互方式比作“通过邮件而不是面对面”去解决一场重要分歧。

该公司表示，交互模型的目标是消除这种“带宽瓶颈”，让 AI 能在任何模态下实时交互，从而让界面适应人，而不是让人去迁就 AI。Thinking Machines 还展示了几个应用场景，例如在故事中监听动物提及、实时翻译语音，以及在用户驼背时提醒对方。公司称，关于交互模型的更深入说明可以在其官网上看到，但目前还不能直接体验这一系统。Thinking Machines 计划在未来几个月推出有限的研究预览，并希望在今年晚些时候进行更大范围的发布。Murati 于 2025 年 2 月离开 OpenAI 后创办了 Thinking Machines，而这家实验室随后已经经历了多次重要人员流失，包括有人跳槽到 Meta，甚至有人回到 OpenAI。

资讯正文

Thinking Machines 由前 OpenAI CTO Mira Murati 创立，这家 AI 公司周一宣布，他们正在开发一种名为“interaction models”的东西。根据 Thinking Machines 的说法，interaction models 的理念是让人们能够“像我们彼此自然协作那样与 AI 协作——它们会持续接收音频、视频和文本，并实时思考、响应和行动。”

正如 Thinking Machines 所解释的：

> 如今的模型是以单线程方式体验现实的。在用户打字或说话结束之前，模型会在没有感知用户正在做什么或用户是如何做的情况下等待。在模型完成生成之前，它的感知会被冻结，在完成或被打断之前不会接收任何新信息。这就在人类与 AI 的协作之间造成了一条狭窄的通道，限制了一个人的知识、意图和判断有多少能够传递给模型，以及模型的工作有多少能够被理解。试想一下，通过电子邮件而不是面对面来化解一场至关重要的分歧。

> 在 Thinking Machines，我们相信可以通过让 AI 在任何模态下都能实时交互来解决这一带宽瓶颈。这使得 AI 界面能够在人的所在之处与人相遇，而不是强迫人们为了适应 AI 界面而把自己扭曲变形。

Thinking Machines 还分享了该模型运行中的几个示例，包括在故事中识别动物提及、实时翻译语音，以及在某人驼背时提醒他或她。

你可以在 Thinking Machines 网站上阅读关于 interaction models 的更深入解释。不过，你现在还不能亲自试用 interaction models；Thinking Machines 计划在“未来几个月”开放一个“有限研究预览”，并打算在“今年晚些时候”进行“更广泛的发布”。

Murati 在 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines。这家 AI 实验室已经不得不应对多次重大人员流失，核心成员转投 Meta，甚至还有人回到了 OpenAI。

来源与参考

收录于 2026-05-13