OpenAI 为 API 增加实时语音工具
TechCrunch AI··作者 Lucas Ropek
关键信息
GPT-Realtime-2 被描述为比 GPT-Realtime-1.5 更逼真的语音模型,并采用 GPT-5 级别推理来处理更复杂的用户请求。GPT-Realtime-Translate 支持超过 70 种输入语言和 13 种输出语言,GPT-Realtime-Whisper 则提供实时语音转文字;OpenAI 还表示,系统内置了防护机制,可在检测到有害内容违规时中止对话。
资讯摘要
OpenAI 周四表示,它正在为 API 增加一组新的语音智能功能,让开发者能够构建可以与用户实时对话、转写和翻译的应用。此次发布包含 GPT-Realtime-2,这是一款新的语音模型,旨在生成更逼真的语音模拟,并能与用户进行对话。与 GPT-Realtime-1.5 相比,新模型采用了 GPT-5 级别的推理能力,OpenAI 表示这有助于它处理更复杂的用户请求。OpenAI 还推出了 GPT-Realtime-Translate,这是一项实时翻译功能,目标是以更接近对话节奏的方式进行翻译,而不是像传统批处理那样延迟输出。该公司称,这套翻译系统支持 70 多种输入语言和 13 种输出语言。
此外,GPT-Realtime-Whisper 提供实时语音转文字能力,可以在互动发生时就捕获语音内容。OpenAI 表示,这些模型把实时音频从简单的“呼叫-响应”模式推进到更像真正语音界面的形态,能够在对话进行中监听、推理、翻译、转写并采取行动。该公司同时表示,它已经加入防护措施,以防止这些功能被用于垃圾信息、诈骗或其他网络滥用行为,并设置了触发机制,在检测到违反有害内容准则时可以中止对话。所有新语音模型都已纳入 OpenAI 的 Realtime API,其中 Translate 和 Whisper 按分钟计费,而 GPT-Realtime-2 按 token 消耗计费。

资讯正文
OpenAI 周四表示,其 API 现在将包含多项新的语音智能功能,旨在帮助开发者创建能够与用户进行对话、转录和翻译对话的应用。
该公司新的 GPT‑Realtime‑2 是另一款语音模型,旨在创建可以与用户交谈的逼真语音模拟。不过,与前代产品(GPT-Realtime-1.5)不同,这一版本采用了 GPT‑5 级别的推理能力,OpenAI 表示,这种能力是为处理用户更复杂的请求而设计的。
该公司还推出了 GPT‑Realtime‑Translate,顾名思义,它旨在提供实时翻译服务,以对话方式与用户“保持同步”。这项功能支持 70 多种输入语言(即它能够理解的语言)和 13 种输出语言(即它向说话者传达的语言)。
最后,该公司还推出了一项新的转录功能 GPT-Realtime-Whisper,可为用户提供实时语音转文字能力,并在互动发生时即时捕捉内容。
“我们推出的这些模型共同推动实时音频从简单的问答,迈向真正能做事的语音界面:在对话展开时聆听、推理、翻译、转录并采取行动,”该公司表示。
这些更新会对谁有帮助?希望扩展客户服务能力的公司显然是主要目标。不过,OpenAI 也指出,这些新功能还将帮助包括教育、媒体、活动以及创作者平台在内的广泛领域。
从企业角度看,这些工具似乎很有用,但它们也有可能被滥用。该公司表示,已经建立了防护机制,以阻止新功能被用于制造垃圾信息、欺诈或其他形式的网络滥用。OpenAI 说,系统中嵌入了某些触发条件,因此“如果对话被检测为违反我们的有害内容准则,就可以被中止”。
本周限时优惠:购买一个通行证,第二个享五折
你的下一轮融资,你的下一位招聘,你的下一个突破机会。来 TechCrunch Disrupt 2026 寻找吧,届时将有 10,000 多名创始人、投资人和科技领袖齐聚三天,参与 250 多场实战主题环节、重要引荐以及定义市场的创新。请在 5 月 8 日前报名,可额外带一位同行者,费用减半。
所有新的语音模型都包含在 OpenAI 的 Realtime API 中。Translate 和 Whisper 按分钟计费,而 GPT-Realtime-2 按 token 用量计费。
来源与参考
收录于 2026-05-09