利用 WebSocket 加速代理工作流的响应 API

OpenAI News·4月22日 18:00 UTC·作者 OpenAI News

关键信息

该方案利用持久化的 WebSocket 连接在请求间保持状态，并为每个连接应用缓存，从而减少重复的 API 调用并降低同一会话中重复交互的延迟。

资讯摘要

OpenAI 对 Codex 代理循环的深入分析揭示了如何通过集成 WebSocket 和连接作用域缓存大幅降低 API 开销和模型延迟。通过维持持久连接而非每次请求都新建连接，系统避免了昂贵的建立延迟。在连接级别缓存响应确保同一会话中的重复查询不会触发不必要的模型调用。这带来了更快的响应时间和更好的资源利用率，适用于实时代理应用。

改进在涉及迭代推理或多步骤决策的工作流中尤为明显。开发人员现在可以在不增加基础设施成本的情况下实现更流畅、响应更快的交互体验。这是迈向实用且可投入生产的代理系统的重要一步。

资讯正文

通过在 Responses API 中使用 WebSocket 加速代理工作流程

深入探讨 Codex 代理循环，展示 WebSocket 和连接作用域缓存如何降低 API 开销并提升模型延迟性能。

来源与参考

收录于 2026-04-23