OpenAI WebRTC 演示加入文档上下文
Simon Willison··作者 Simon Willison
关键信息
Willison 最初在 2024 年 12 月构建了这个工具,用来试用 OpenAI 当时新推出的 WebRTC API 和实时音频模型。更新后的版本重点支持 GPT-Realtime-2,OpenAI 将其描述为首个具备 GPT-5 级推理能力的语音模型,并注明其知识截止时间为 2024 年 9 月 30 日。
资讯摘要
Simon Willison 为他的 OpenAI WebRTC Audio Session 演示做了两项值得注意的更新。首先,这个工具现在支持 GPT-Realtime-2,也就是 OpenAI 新加入实时音频 API 的模型。其次,它允许用户在开始会话前粘贴一大段文档上下文,这样模型就可以围绕这些内容进行语音对话。Willison 说,他最初在 2024 年 12 月构建了这个工具,用来试验 OpenAI 新推出的 WebRTC API 和实时音频模型。
后来 OpenAI 在上个月发布了 GPT-Realtime-2,他便重新回到这个旧的实验项目,并表示自己一直在等待这类模型出现在 ChatGPT iPhone 应用中。文章中的截图展示了一个浏览器界面,包含模型选择器、语音选择器、API 令牌输入框,以及一个可选的文档上下文区域。示例里粘贴的内容似乎是在讨论 DuckDB 能否安全运行不受信任的 SQL,底部的会话记录也开始围绕这一主题作出回应。整体来看,这次更新把它变成了一个更实用的浏览器语音实验台,便于测试具备文档感知能力的实时对话。

资讯正文
我于 2024 年 12 月为这个工具做出了第一个版本,用来试用当时全新的 OpenAI WebRTC API,以便与他们的实时音频模型进行交互。
上个月,OpenAI 为这个 API <a href="https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/">推出了一个全新的模型</a>,名为 <a href="https://developers.openai.com/api/docs/models/gpt-realtime-2">GPT‑Realtime‑2</a>,他们将其宣传为“我们首个具备 GPT‑5 级推理能力的语音模型”——知识截止时间为 2024 年 9 月 30 日。
我一直在等这个模型出现在 ChatGPT 的 iPhone 应用里,但它至今仍未上线,所以我又回到了我之前做的那个试验项目。
现在你可以选择更好的模型,也可以粘贴一大段文档上下文,这样你就能在浏览器里通过音频对话的方式,围绕你认为适合以对话形式探索的任何信息展开交流。
来源与参考
收录于 2026-06-14