OpenAI WebRTC 演示加入文档上下文

Simon Willison·6月13日 07:53 UTC·作者 Simon Willison

关键信息

Willison 最初在 2024 年 12 月构建了这个工具，用来试用 OpenAI 当时新推出的 WebRTC API 和实时音频模型。更新后的版本重点支持 GPT-Realtime-2，OpenAI 将其描述为首个具备 GPT-5 级推理能力的语音模型，并注明其知识截止时间为 2024 年 9 月 30 日。

资讯摘要

Simon Willison 为他的 OpenAI WebRTC Audio Session 演示做了两项值得注意的更新。首先，这个工具现在支持 GPT-Realtime-2，也就是 OpenAI 新加入实时音频 API 的模型。其次，它允许用户在开始会话前粘贴一大段文档上下文，这样模型就可以围绕这些内容进行语音对话。Willison 说，他最初在 2024 年 12 月构建了这个工具，用来试验 OpenAI 新推出的 WebRTC API 和实时音频模型。

后来 OpenAI 在上个月发布了 GPT-Realtime-2，他便重新回到这个旧的实验项目，并表示自己一直在等待这类模型出现在 ChatGPT iPhone 应用中。文章中的截图展示了一个浏览器界面，包含模型选择器、语音选择器、API 令牌输入框，以及一个可选的文档上下文区域。示例里粘贴的内容似乎是在讨论 DuckDB 能否安全运行不受信任的 SQL，底部的会话记录也开始围绕这一主题作出回应。整体来看，这次更新把它变成了一个更实用的浏览器语音实验台，便于测试具备文档感知能力的实时对话。

资讯正文

我于 2024 年 12 月为这个工具做出了第一个版本，用来试用当时全新的 OpenAI WebRTC API，以便与他们的实时音频模型进行交互。

上个月，OpenAI 为这个 API <a href="https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/">推出了一个全新的模型</a>，名为 <a href="https://developers.openai.com/api/docs/models/gpt-realtime-2">GPT‑Realtime‑2</a>，他们将其宣传为“我们首个具备 GPT‑5 级推理能力的语音模型”——知识截止时间为 2024 年 9 月 30 日。

我一直在等这个模型出现在 ChatGPT 的 iPhone 应用里，但它至今仍未上线，所以我又回到了我之前做的那个试验项目。

现在你可以选择更好的模型，也可以粘贴一大段文档上下文，这样你就能在浏览器里通过音频对话的方式，围绕你认为适合以对话形式探索的任何信息展开交流。

来源与参考

收录于 2026-06-14