OpenAI推出GPT-5级语音模型

The Decoder·5月8日 02:44 UTC·作者 Matthias Bastian

关键信息

GPT-Realtime-2 支持 128,000 token 的上下文窗口、并行工具调用，以及从 minimal 到 xhigh 的五档推理强度，默认档位为 low，以降低延迟。OpenAI 还表示，它改进了对专业术语、专有名词和医学术语的处理，并加入了可听见的前置提示和错误提示，让模型能说明自己正在做什么。

资讯摘要

OpenAI 发布了一代新的实时语音模型，目标是在对话过程中同时完成推理、翻译和转录。此次发布的模型包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，全部通过 OpenAI 的 Realtime API 提供。文章指出，这些模型试图弥补长期存在的差距：语音系统在推理能力上通常落后于纯文本模型。OpenAI 认为，现代语音代理必须能够理解用户意图、跟踪上下文、应对打断，并同时使用工具。为此，公司提出了三种可组合的交互模式：Voice-to-Action、Systems-to-Voice 和 Voice-to-Voice。Voice-to-Action 允许用户直接说出需求，系统再进行推理并调用合适的工具；Systems-to-Voice 则把软件中的上下文转化为口头提示；Voice-to-Voice 用于跨语言实时对话，德国电信已经在客服场景中测试这一模式。

此次发布的核心是 GPT-Realtime-2，OpenAI 声称它的推理能力接近 GPT-5，并能在实时对话中处理工具调用和打断。该模型把上下文窗口从 32,000 提升到 128,000 个 token，支持多个工具并行调用，并提供五档推理强度可调。OpenAI 还表示，该模型会更自然地使用可听见的提示语、在出错时主动说明情况，并且对专业术语、人名和医学术语的处理更好。GPT-Realtime-Translate 面向实时翻译，支持 70 多种输入语言和 13 种输出语言；GPT-Realtime-Whisper 则用于流式转录。文章还称，这些能力很快也会进入 ChatGPT 的音频模式，说明 OpenAI 认为语音正在成为一种更重要的交互入口。

资讯正文

OpenAI 的新语音模型将 GPT-5 级别的推理能力带入实时对话

OpenAI 推出了 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 三款新的实时模型，能够实时进行推理、翻译和转录。

核心模型 GPT-Realtime-2 可以并行使用多个工具，并具备可在五个等级之间调整的推理强度，让开发者能够细粒度地控制模型处理信息的深度。

这一产品线还包括用于实时翻译的 GPT-Realtime-Translate，以及用于流式转录的 GPT-Realtime-Whisper，这三款模型现已通过 OpenAI 的 Realtime API 提供。

OpenAI 正在推出 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper——这一代新的语音模型旨在在即时交互中进行推理、翻译和转录。

ChatGPT 已经提供了一段时间的音频模式，Google 也通过 Gemini 提供了类似的实时对话功能。但支撑这些语音交互的模型，能力一直明显弱于纯文本对应模型，尤其是与那些需要花时间思考问题的文本推理模型相比。

据 OpenAI 称，这种状况已经不再够用。一个现代语音代理需要理解人们真正的意思，跟踪上下文，适应变化，调用工具，并做出恰当回应——而且这一切都要同时完成。

公司提出了三种新的交互模式，而且它们也可以组合使用。在“Voice-to-Action”模式下，用户用语音描述自己需要什么，系统会对请求进行推理，调用正确的工具，并把事情办妥。

在“Systems-to-Voice”模式下，软件会把上下文转化为口头指引。一个旅行应用可以告诉乘客，尽管航班延误，但他们的联程航班仍然赶得上，给出前往新登机口的最快路线，并确认行李转运情况。

在“Voice-to-Voice”模式下，AI 帮助人们跨越语言障碍进行实时对话。德国电信已经在客户支持场景中测试这一模式。

OpenAI 暗示，这些功能也即将来到 ChatGPT 的音频模式。该公司表示：“语音现在真的可以成为主要界面。”

GPT-Realtime-2 通过拖延技巧争取思考时间

此次发布的核心是 GPT-Realtime-2，OpenAI 表示它带来了与 GPT-5 相当的推理能力。该模型专为实时语音交互而设计，在这种场景中，它需要同时维持对话、思考请求、调用工具并处理打断。

在技术层面，其上下文窗口从 32,000 个 token 提升到 128,000 个 token，这应当有助于支持更长、更复杂的对话。该模型可以并行调用多个工具，并用“让我查一下”之类的短语把这些动作说出来。被称为前置语句的简短引导句——比如“一会儿”——可以让用户知道系统正在处理。当出现问题时，模型不再只是沉默，而是会说诸如“我现在处理这个有点困难”之类的话。

OpenAI 表示，这款模型在处理专业术语、专有名词和医学术语方面，比前代产品更出色。它的语气控制也更强——在解决问题时可以保持冷静，面对沮丧用户时更具同理心，在成功完成操作后则会显得更加积极振奋。

开发者可以在五个层级上调节推理强度：minimal、low、medium、high 和 xhigh。默认值为“low”，以便在简单请求中降低延迟，而更棘手的任务则可以调用更多算力。

实时翻译覆盖 70 多种语言，实时转录则面向会议和工作流

GPT-Realtime-Translate 是一款独立的实时翻译模型，可处理 70 多种输入语言和 13 种输出语言，OpenAI 表示。它在跟上说话者节奏的同时保留原意，即便遇到上下文切换、地区口音和专业词汇也是如此。其应用场景包括客户支持、跨境销售、教育、活动和媒体。

第三款模型 GPT-Realtime-Whisper 是一款低延迟的流式转录模型。它能在语音发生的同时进行转写，面向会议、课堂、广播和活动的实时字幕。团队可以用它在对话仍在继续时生成笔记和摘要，构建具备连续语音理解能力的语音代理，并为客户支持、医疗、销售和招聘快速搭建后续工作流。

计费按 tokens 和分钟计算

这三款模型现已可通过 Realtime API 使用，并可在 Playground 中测试。GPT-Realtime-2 的价格为每百万音频输入 tokens 32 美元（缓存输入 tokens 为 0.40 美元），每百万音频输出 tokens 64 美元。GPT-Realtime-Translate 的价格为每分钟 0.034 美元，GPT-Realtime-Whisper 的价格为每分钟 0.017 美元。

Realtime API 支持面向欧盟地区应用的欧盟数据驻留，并受 OpenAI 的企业隐私承诺约束。

来源与参考

收录于 2026-05-08