微软 Webwright 开源：网页智能体从“点击式”进化为“代码式”

一句话看懂：微软研究院开源了一款名为 Webwright 的网页智能体框架，它放弃了当前主流的“截图+点击”操作方式，转而让 AI 模型直接编写 Playwright 代码并在终端中执行 Bash 命令，从而以更高效、更可复用的方式完成复杂网页任务。

事件核心：发生了什么

2026年5月，微软研究院在 GitHub 上正式开源了 Webwright 框架。该框架设计极简，核心代码仅约1000行，由三个模块组成：Runner（管理智能体循环）、Model Endpoint（统一模型接口，支持 OpenAI、Anthropic、OpenRouter 等后端）以及 Terminal Environment（提供独立的终端执行环境）。工作流程为：Runner 向模型发送当前任务上下文，模型生成“思路”和“Shell 命令”，环境执行并返回输出、截图、错误栈，然后进入下一轮循环，直至任务完成。

在2026年5月的基准测试中，基于 GPT-5.4 的 Webwright 在 Online-Mind2Web 上以100步预算实现86.67%的准确率；在长链任务测试 Odysseys 上，面对平均272词的长指令，其得分为60.1%，相比基础 GPT-5.4（33.5%）提升约81.5%，且超过了2026年4月榜单上的冠军模型 Opus4.6（44.5%）。

为什么重要

Webwright 的出现揭示了一个核心趋势：随着模型编程能力的增强，智能体正在从“模拟用户操作”转向“开发者范式”。传统智能体通过不断预测“点击、滚动、输入”来操作浏览器，这种方式在效率、状态维护和逻辑复用上存在明显瓶颈。而 Webwright 让模型直接生成可复用的 RPA（机器人流程自动化）脚本，代码天然支持循环、函数和分支，长期链式任务（如表单填写、跨页操作、条件跳转）的表达能力远超简单动作堆叠。更重要的是，执行出错后模型能自动进入“写代码—运行—报错—修复”的迭代循环，工程化纠错能力显著提升。这标志着网页智能体的技术路线正在从“交互模拟”转向“编程执行”。

对用户/开发者/创作者的影响

对于开发者而言，Webwright 不仅是一个智能体框架，更是一个能自动编写、维护和打包自动化脚本的“超级员工”。每个操作步骤都生成可被 Claude Code 或 Codex 调用的代码脚本，而非一次性点击记录。对于企业用户，这意味着网页自动化任务（如数据采集、表单填报、跨平台信息同步）的可靠性有望大幅提升。对于普通用户，虽然直接使用门槛较高，但随着该框架被集成到更高层的工具中，未来可能出现更稳定的“自动填表”“一键比价”等实用功能。目前公开信息显示，该框架已开源，开发者可直接通过 GitHub 获取。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，微软是否会将其集成到自己的 Copilot 或 Azure AI 服务中，形成商业化产品。第二，竞品（如 OpenAI 的 Operator、Google 的 Project Mariner）是否会跟进“代码式操作”路线，或引入类似机制来应对效率挑战。第三，Webwright 目前支持的终端执行环境在安全性、权限隔离和跨平台兼容性上的表现，将决定它能否被大规模用于生产场景。

来源：AIbase

微软 Webwright 开源：网页智能体从“点击式”进化为“代码式”