OpenAI在API中加入实时语音模型

OpenAI News·5月7日 18:00 UTC·作者 OpenAI News

关键信息

搜索结果显示，GPT-Realtime-Translate 支持将 70 多种输入语言实时翻译成 13 种输出语言，而 GPT-Realtime-Whisper 是面向低延迟语音转文字的流式转录模型。OpenAI 之前对 Realtime API 的介绍也强调，开发者可以避免把多个模型拼接起来才能实现对话式语音体验。

资讯摘要

OpenAI以“推进语音智能”为主题，在其API中发布了新的实时语音模型。根据给出的摘要，这些模型可以进行推理、翻译和语音转录，目标是帮助开发者构建更自然、更智能的语音应用。此次发布被定位为 OpenAI 面向开发者的更广泛实时语音能力的一部分。与该文章相关的搜索结果点出了两个具体模型：GPT-Realtime-Translate 和 GPT-Realtime-Whisper。

GPT-Realtime-Translate 被描述为一种实时翻译模型，能够将 70 多种输入语言的语音翻译成 13 种输出语言，并且能跟上说话者的节奏。GPT-Realtime-Whisper 被描述为一种流式转录模型，专为低延迟语音转文字而设计。OpenAI 对 Realtime API 的早期介绍还强调，开发者无需再把多个模型拼接起来才能实现对话式语音体验。整体来看，这一更新意味着语音应用可以拥有更少的组件切换、更低的延迟，以及更顺滑的用户体验。

资讯正文

在 OpenAI API 中探索新的实时语音模型，这些模型能够进行推理、翻译和转录语音，从而带来更自然、更智能的语音体验。

来源与参考

收录于 2026-05-08