OpenAI 官宣 Codex 插件接管浏览器,实测复杂任务表现惊人

OpenAI 官宣 Codex 插件接管浏览器,实测复杂任务表现惊人

OpenAI 官宣 Codex 插件接管浏览器,实测复杂任务表现惊人

一句话看懂:OpenAI 于 5 月 7 日正式推出 Codex for Chrome 浏览器插件,使 AI 能直接操控网页、填写表单和执行多步骤任务。测试显示,它在简单操作上仍有失误,但在复杂多步骤工作中表现突出,预示 AI 助手正从对话工具进化为可执行实际任务的“数字员工”。

事件核心:发生了什么

OpenAI 官方宣布,Codex 插件的 Chrome 版本现已全面可用。该插件的核心能力在于,获得用户授权后,Codex 可以直接驱动 Chrome 浏览器——不仅能够“阅读”网页内容,还能操控网页内部系统,例如填充复杂的在线表单、跨网站搜集信息等。这是一次系统层面的集成,意味着 AI 不再局限于对话框回复,而是能像人类一样在已登录的网站上执行具体操作。在最新功能评估中,Codex 处理整理浏览器标签页等简单任务时仍偶尔出错或识别不准;但在高难度任务,例如为苹果、华为、小米等品牌旗舰手机搜集关键信息、生成创意选题、调用 Deepseek 辅助写作、甚至自动化生成 AI 新闻日报表时,其完成率和效率均超出预期。

为什么重要

此次更新标志 OpenAI 正在将 Codex 从代码补全工具扩展为通用的浏览器操作代理。与 GPT 的对话式接口不同,Codex 插件直接操作 Web 界面的方式,绕开了 API 调用的限制,使 AI 可以“借用”用户的登录状态,在真实企业系统、CRM 或 SaaS 平台中完成任务。这对整个 AI 代理(Agent)赛道的技术路线有直接影响——闭源模型厂商与开源社区都在探索“浏览器操控”能力,OpenAI 的先发动作将压缩竞品在产品成熟度上的窗口期。同时,该功能也推动了从“生成式 AI”向“执行式 AI”的商业化转型,为企业减少重复性劳动提供了更低门槛的方案。

对用户/开发者/创作者的影响

  • 普通用户:可以直接授权 Codex 代填表单、整理信息或完成跨网站的数据收集,从而节省大量手动操作时间。但需要注意,当前版本在识别网页元素上仍不够精准,专家建议将其视为“能干但需监督的半自动助理”,对于核心隐私或高安全需求的操作,人工验证不可替代。
  • 开发者:Codex 插件本质上是一个预构建的浏览器 Agent 框架,开发者可能会更关注其开放 API 或扩展机制。如果 OpenAI 后续开放插件的自定义脚本或集成能力,开发者有望基于此构建内部自动化工具,降低重复性 Web 操作的技术成本。
  • 内容创作者/运营人员:插件在创意策划和自动化生成日报等高重复性任务上表现突出,创作者可以将其作为辅助产出、数据汇总的“副驾驶”,但直接依赖可能带来内容质量控制问题,建议在事实核实与风格调整环节加入人工判断。

值得关注的后续

  1. 浏览器兼容与安全升级:目前仅支持 Chrome,未来是否会扩展至 Edge、Firefox 等浏览器?OpenAI 是否会在用户隐私方面增加更细粒度的授权控制(例如限定可操作的网站白名单)?
  2. 竞价与定价策略:Codex 插件是否与 ChatGPT Plus 捆绑,还是单独付费?API 调用次数是否受配额限制?这直接决定中小企业和独立开发者能否承担使用成本。
  3. 竞品跟进与监管风险:微软已将类似 Copilot 能力集成到 Edge,谷歌 Gemini 也计划推出浏览器代理功能。同时,AI 操作浏览器涉及自动填写密码、访问企业内网等行为,各国数据保护监管机构可能会关注其对 Cookie 和身份认证的处理方式。

来源:AIbase

celebrityanime
celebrityanime
文章: 864

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注