OpenAI WebRTC 音频会话，现在带有文档上下文

一句话看懂：开发者 Simon Willison 基于 OpenAI 新发布的 GPT-Realtime-2 音频模型，升级了其个人 WebRTC 音频对话工具，现在支持在浏览器中粘贴文档上下文后进行实时语音对话。这标志着 OpenAI 的实时音频 API 进入了可与 GPT-5 级推理能力结合使用的阶段。

事件核心：发生了什么

2026 年 6 月 12 日，开发者 Simon Willison 发布了一篇链接博客，介绍其个人项目 OpenAI WebRTC 音频会话工具的升级。该工具最初于 2024 年 12 月创建，用于测试 OpenAI 当时新推出的 WebRTC API，以与实时音频模型交互。上个月（2026 年 5 月），OpenAI 为该 API 引入了一个名为 GPT-Realtime-2 的新模型，官方将其描述为“首款具备 GPT-5 级推理能力的语音模型”，知识截止日期为 2024 年 9 月 30 日。由于该模型至今未出现在 ChatGPT iPhone 应用中，Willison 重写了旧版沙盒，使其可以选择更优的 GPT-Realtime-2 模型，并新增了粘贴大块文档上下文的功能，允许用户在浏览器中围绕特定信息进行音频对话。

为什么重要

这一更新展示了 OpenAI 实时音频 API 的一个关键应用方向：将高推理能力（GPT-5 级别）与文档上下文的动态注入结合。此前的实时语音对话多局限于通用聊天，缺乏对用户特定知识（如报告、论文、演讲稿）的深度理解。GPT-Realtime-2 模型虽然性能强，但尚未在官方 App 中广泛可用，而通过 WebRTC API 和 Web 工具，开发者可以先行打通“文档+语音”的交互范式。这实际上降低了将大型语言模型作为“可对话的知识顾问”的进入门槛，对语音 AI 的实用化和垂直场景落地（如会议辅助、学习辅导、销售话术演练）有直接推动作用。

对用户/开发者/创作者的影响

对于普通用户：你不再需要依赖 ChatGPT 原生应用，只需一个浏览器即可体验 GPT-5 级语音推理，并且可以上传或粘贴自己的文档内容，获得针对性的语音反馈。对于开发者和创作者：这是一个低成本验证实时语音+文档理解交互模式的机会。通过 OpenAI 的 WebRTC 接口，可快速搭建自己的“语音知识问答”原型，而不必等待官方产品更新。目前工具免费，但 Willison 本人也在通过每月 10 美元订阅费提供 LLM 发展摘要服务，这表明围绕此类工具的轻量级商业模式可能是有前景的。对于企业采购者：这预示着未来企业级语音助手可能会支持实时读取合同、报告或知识库，进行上下文感知的对话，而不仅仅是简单的语音问答。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，GPT-Realtime-2 模型何时进入 ChatGPT iPhone 应用仍是关键指标——如果在数周内仍未上线，可能意味着 OpenAI 的战略更偏向 API 生态而非 App 独占体验。其次，其他开发者和竞品（如谷歌 Gemini、Anthropic Claude）是否会跟进推出类似“文档上下文+实时语音”的 Web 演示或 API 能力，将是检测行业趋势的重要信号。最后，需要注意 WebRTC API 的处理延迟和成本变化：一旦模型推理能力升级，实时语音在设备端或云端的花费可能影响个人和企业的实际采用意愿。

来源：Simon Willison