OpenAI推出GPT-5级语音模型
The Decoder··作者 Matthias Bastian
关键信息
GPT-Realtime-2 支持 128,000 token 的上下文窗口、并行工具调用,以及从 minimal 到 xhigh 的五档推理强度,默认档位为 low,以降低延迟。OpenAI 还表示,它改进了对专业术语、专有名词和医学术语的处理,并加入了可听见的前置提示和错误提示,让模型能说明自己正在做什么。
资讯摘要
OpenAI 发布了一代新的实时语音模型,目标是在对话过程中同时完成推理、翻译和转录。此次发布的模型包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,全部通过 OpenAI 的 Realtime API 提供。文章指出,这些模型试图弥补长期存在的差距:语音系统在推理能力上通常落后于纯文本模型。OpenAI 认为,现代语音代理必须能够理解用户意图、跟踪上下文、应对打断,并同时使用工具。为此,公司提出了三种可组合的交互模式:Voice-to-Action、Systems-to-Voice 和 Voice-to-Voice。Voice-to-Action 允许用户直接说出需求,系统再进行推理并调用合适的工具;Systems-to-Voice 则把软件中的上下文转化为口头提示;Voice-to-Voice 用于跨语言实时对话,德国电信已经在客服场景中测试这一模式。
此次发布的核心是 GPT-Realtime-2,OpenAI 声称它的推理能力接近 GPT-5,并能在实时对话中处理工具调用和打断。该模型把上下文窗口从 32,000 提升到 128,000 个 token,支持多个工具并行调用,并提供五档推理强度可调。OpenAI 还表示,该模型会更自然地使用可听见的提示语、在出错时主动说明情况,并且对专业术语、人名和医学术语的处理更好。GPT-Realtime-Translate 面向实时翻译,支持 70 多种输入语言和 13 种输出语言;GPT-Realtime-Whisper 则用于流式转录。文章还称,这些能力很快也会进入 ChatGPT 的音频模式,说明 OpenAI 认为语音正在成为一种更重要的交互入口。

资讯正文
OpenAI 的新语音模型将 GPT-5 级别的推理能力带入实时对话
OpenAI 推出了 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 三款新的实时模型,能够实时进行推理、翻译和转录。
核心模型 GPT-Realtime-2 可以并行使用多个工具,并具备可在五个等级之间调整的推理强度,让开发者能够细粒度地控制模型处理信息的深度。
这一产品线还包括用于实时翻译的 GPT-Realtime-Translate,以及用于流式转录的 GPT-Realtime-Whisper,这三款模型现已通过 OpenAI 的 Realtime API 提供。
OpenAI 正在推出 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper——这一代新的语音模型旨在在即时交互中进行推理、翻译和转录。
ChatGPT 已经提供了一段时间的音频模式,Google 也通过 Gemini 提供了类似的实时对话功能。但支撑这些语音交互的模型,能力一直明显弱于纯文本对应模型,尤其是与那些需要花时间思考问题的文本推理模型相比。
据 OpenAI 称,这种状况已经不再够用。一个现代语音代理需要理解人们真正的意思,跟踪上下文,适应变化,调用工具,并做出恰当回应——而且这一切都要同时完成。
公司提出了三种新的交互模式,而且它们也可以组合使用。在“Voice-to-Action”模式下,用户用语音描述自己需要什么,系统会对请求进行推理,调用正确的工具,并把事情办妥。
在“Systems-to-Voice”模式下,软件会把上下文转化为口头指引。一个旅行应用可以告诉乘客,尽管航班延误,但他们的联程航班仍然赶得上,给出前往新登机口的最快路线,并确认行李转运情况。
在“Voice-to-Voice”模式下,AI 帮助人们跨越语言障碍进行实时对话。德国电信已经在客户支持场景中测试这一模式。
OpenAI 暗示,这些功能也即将来到 ChatGPT 的音频模式。该公司表示:“语音现在真的可以成为主要界面。”
GPT-Realtime-2 通过拖延技巧争取思考时间
此次发布的核心是 GPT-Realtime-2,OpenAI 表示它带来了与 GPT-5 相当的推理能力。该模型专为实时语音交互而设计,在这种场景中,它需要同时维持对话、思考请求、调用工具并处理打断。
在技术层面,其上下文窗口从 32,000 个 token 提升到 128,000 个 token,这应当有助于支持更长、更复杂的对话。该模型可以并行调用多个工具,并用“让我查一下”之类的短语把这些动作说出来。被称为前置语句的简短引导句——比如“一会儿”——可以让用户知道系统正在处理。当出现问题时,模型不再只是沉默,而是会说诸如“我现在处理这个有点困难”之类的话。
OpenAI 表示,这款模型在处理专业术语、专有名词和医学术语方面,比前代产品更出色。它的语气控制也更强——在解决问题时可以保持冷静,面对沮丧用户时更具同理心,在成功完成操作后则会显得更加积极振奋。
开发者可以在五个层级上调节推理强度:minimal、low、medium、high 和 xhigh。默认值为“low”,以便在简单请求中降低延迟,而更棘手的任务则可以调用更多算力。
实时翻译覆盖 70 多种语言,实时转录则面向会议和工作流
GPT-Realtime-Translate 是一款独立的实时翻译模型,可处理 70 多种输入语言和 13 种输出语言,OpenAI 表示。它在跟上说话者节奏的同时保留原意,即便遇到上下文切换、地区口音和专业词汇也是如此。其应用场景包括客户支持、跨境销售、教育、活动和媒体。
第三款模型 GPT-Realtime-Whisper 是一款低延迟的流式转录模型。它能在语音发生的同时进行转写,面向会议、课堂、广播和活动的实时字幕。团队可以用它在对话仍在继续时生成笔记和摘要,构建具备连续语音理解能力的语音代理,并为客户支持、医疗、销售和招聘快速搭建后续工作流。
计费按 tokens 和分钟计算
这三款模型现已可通过 Realtime API 使用,并可在 Playground 中测试。GPT-Realtime-2 的价格为每百万音频输入 tokens 32 美元(缓存输入 tokens 为 0.40 美元),每百万音频输出 tokens 64 美元。GPT-Realtime-Translate 的价格为每分钟 0.034 美元,GPT-Realtime-Whisper 的价格为每分钟 0.017 美元。
Realtime API 支持面向欧盟地区应用的欧盟数据驻留,并受 OpenAI 的企业隐私承诺约束。
来源与参考
收录于 2026-05-08