OpenAI 为 API 增加实时语音工具

TechCrunch AI·5月8日 06:24 UTC·作者 Lucas Ropek

关键信息

GPT-Realtime-2 被描述为比 GPT-Realtime-1.5 更逼真的语音模型，并采用 GPT-5 级别推理来处理更复杂的用户请求。GPT-Realtime-Translate 支持超过 70 种输入语言和 13 种输出语言，GPT-Realtime-Whisper 则提供实时语音转文字；OpenAI 还表示，系统内置了防护机制，可在检测到有害内容违规时中止对话。

资讯摘要

OpenAI 周四表示，它正在为 API 增加一组新的语音智能功能，让开发者能够构建可以与用户实时对话、转写和翻译的应用。此次发布包含 GPT-Realtime-2，这是一款新的语音模型，旨在生成更逼真的语音模拟，并能与用户进行对话。与 GPT-Realtime-1.5 相比，新模型采用了 GPT-5 级别的推理能力，OpenAI 表示这有助于它处理更复杂的用户请求。OpenAI 还推出了 GPT-Realtime-Translate，这是一项实时翻译功能，目标是以更接近对话节奏的方式进行翻译，而不是像传统批处理那样延迟输出。该公司称，这套翻译系统支持 70 多种输入语言和 13 种输出语言。

此外，GPT-Realtime-Whisper 提供实时语音转文字能力，可以在互动发生时就捕获语音内容。OpenAI 表示，这些模型把实时音频从简单的“呼叫-响应”模式推进到更像真正语音界面的形态，能够在对话进行中监听、推理、翻译、转写并采取行动。该公司同时表示，它已经加入防护措施，以防止这些功能被用于垃圾信息、诈骗或其他网络滥用行为，并设置了触发机制，在检测到违反有害内容准则时可以中止对话。所有新语音模型都已纳入 OpenAI 的 Realtime API，其中 Translate 和 Whisper 按分钟计费，而 GPT-Realtime-2 按 token 消耗计费。

资讯正文

OpenAI 周四表示，其 API 现在将包含多项新的语音智能功能，旨在帮助开发者创建能够与用户进行对话、转录和翻译对话的应用。

该公司新的 GPT‑Realtime‑2 是另一款语音模型，旨在创建可以与用户交谈的逼真语音模拟。不过，与前代产品（GPT-Realtime-1.5）不同，这一版本采用了 GPT‑5 级别的推理能力，OpenAI 表示，这种能力是为处理用户更复杂的请求而设计的。

该公司还推出了 GPT‑Realtime‑Translate，顾名思义，它旨在提供实时翻译服务，以对话方式与用户“保持同步”。这项功能支持 70 多种输入语言（即它能够理解的语言）和 13 种输出语言（即它向说话者传达的语言）。

最后，该公司还推出了一项新的转录功能 GPT-Realtime-Whisper，可为用户提供实时语音转文字能力，并在互动发生时即时捕捉内容。

“我们推出的这些模型共同推动实时音频从简单的问答，迈向真正能做事的语音界面：在对话展开时聆听、推理、翻译、转录并采取行动，”该公司表示。

这些更新会对谁有帮助？希望扩展客户服务能力的公司显然是主要目标。不过，OpenAI 也指出，这些新功能还将帮助包括教育、媒体、活动以及创作者平台在内的广泛领域。

从企业角度看，这些工具似乎很有用，但它们也有可能被滥用。该公司表示，已经建立了防护机制，以阻止新功能被用于制造垃圾信息、欺诈或其他形式的网络滥用。OpenAI 说，系统中嵌入了某些触发条件，因此“如果对话被检测为违反我们的有害内容准则，就可以被中止”。

本周限时优惠：购买一个通行证，第二个享五折

你的下一轮融资，你的下一位招聘，你的下一个突破机会。来 TechCrunch Disrupt 2026 寻找吧，届时将有 10,000 多名创始人、投资人和科技领袖齐聚三天，参与 250 多场实战主题环节、重要引荐以及定义市场的创新。请在 5 月 8 日前报名，可额外带一位同行者，费用减半。

所有新的语音模型都包含在 OpenAI 的 Realtime API 中。Translate 和 Whisper 按分钟计费，而 GPT-Realtime-2 按 token 用量计费。

来源与参考

收录于 2026-05-09