OpenAI在API中加入实时语音模型
OpenAI News··作者 OpenAI News
关键信息
搜索结果显示,GPT-Realtime-Translate 支持将 70 多种输入语言实时翻译成 13 种输出语言,而 GPT-Realtime-Whisper 是面向低延迟语音转文字的流式转录模型。OpenAI 之前对 Realtime API 的介绍也强调,开发者可以避免把多个模型拼接起来才能实现对话式语音体验。
资讯摘要
OpenAI以“推进语音智能”为主题,在其API中发布了新的实时语音模型。根据给出的摘要,这些模型可以进行推理、翻译和语音转录,目标是帮助开发者构建更自然、更智能的语音应用。此次发布被定位为 OpenAI 面向开发者的更广泛实时语音能力的一部分。与该文章相关的搜索结果点出了两个具体模型:GPT-Realtime-Translate 和 GPT-Realtime-Whisper。
GPT-Realtime-Translate 被描述为一种实时翻译模型,能够将 70 多种输入语言的语音翻译成 13 种输出语言,并且能跟上说话者的节奏。GPT-Realtime-Whisper 被描述为一种流式转录模型,专为低延迟语音转文字而设计。OpenAI 对 Realtime API 的早期介绍还强调,开发者无需再把多个模型拼接起来才能实现对话式语音体验。整体来看,这一更新意味着语音应用可以拥有更少的组件切换、更低的延迟,以及更顺滑的用户体验。
资讯正文
在 OpenAI API 中探索新的实时语音模型,这些模型能够进行推理、翻译和转录语音,从而带来更自然、更智能的语音体验。
来源与参考
收录于 2026-05-08