
Chrome 中的法典
一句话看懂:OpenAI 今天推出“Codex in Chrome”浏览器扩展,让 Codex 应用直接操控浏览器,自动填写表单、导航网页和完成任务。这是 OpenAI 首次将大模型从聊天窗口带入浏览器操作层,使得 AI 不仅会“说”,还会“做”。
事件核心:发生了什么
OpenAI 在 Product Hunt 上正式发布“Codex in Chrome”扩展,这是其第 40 次产品发布。该扩展允许 Codex 应用通过编写代码直接控制用户的 Chrome 浏览器,利用用户已登录的会话,在后台标签页组中自动执行导航、填写表单、点击按钮等操作。目前该产品提供免费选项,属于 Chrome 扩展和人工智能类别。值得注意的是,Codex 本身是 OpenAI 面向开发者的代码生成模型,这次扩展意味着 OpenAI 正试图将模型能力从“生成代码”延伸到“执行代码操作”。
为什么重要
长期以来,AI 助手只能生成文本建议,用户仍需手动执行。Codex in Chrome 跨越了“建议”到“执行”的鸿沟。它实质上让 AI 模型获得了对浏览器的控制权,可以直接模拟人类操作。这对自动化工作流(如数据采集、表单批量提交、自动化测试)有直接商业价值。同时,OpenAI 选择以 Chrome 扩展形式推出,而非 API 或独立应用,说明其更看重用户现有使用习惯和浏览器生态。这与微软 Copilot 直接嵌入操作系统的方式形成对比——OpenAI 选择了更轻量、更跨平台的入口。目前公开信息显示,该扩展仅支持 Codex 应用接管浏览器,尚未开放给第三方开发者自定义脚本或集成到其他智能体框架中。
对用户/开发者/创作者的影响
对普通用户来说,可以授权 Codex 在后台完成重复性网页操作,比如自动填写求职申请、批量订阅新闻简讯或定时打卡。对开发者而言,这提供了新的“AI + RPA”组合:过去需要编写 Python 脚本配合 Selenium 实现的浏览器自动化,现在可以通过自然语言指令完成。但开发者需要注意,Codex 在后台使用用户已有的登录态,意味着它获得了与用户同等的网页操作权限,这带来隐私和安全风险。对创作者和内容运营者来说,这项工具可用于自动化内容分发或跨平台发布流程,但应避免用于违反平台规则的大规模抓取或刷量行为。
值得关注的后续
第一,安全边界和反滥用机制:Codex in Chrome 拥有浏览器控制权后,OpenAI 如何防止其被用于恶意操作(如自动下单、批量注册)尚未说明。第二,是否开放 API 给开发者:目前仅作为扩展使用,如果 OpenAI 后续开放 Codex 浏览器控制能力作为 API,将直接冲击现有的 RPA 和浏览器自动化工具市场。第三,竞品跟进:Anthropic、Google DeepMind 是否会在自家模型上推出类似的浏览器控制功能,尤其是在 Google 拥有 Chrome 浏览器本身话语权的情况下,可能出现平台层面的限制或差异对待。


