
微软 Webwright 开源:网页智能体从“点击式”进化为“代码式”
一句话看懂:微软研究院开源了一款名为 Webwright 的网页智能体框架,它放弃了当前主流的“截图+点击”操作方式,转而让 AI 模型直接编写 Playwright 代码并在终端中执行 Bash 命令,从而以更高效、更可复用的方式完成复杂网页任务。
事件核心:发生了什么
2026年5月,微软研究院在 GitHub 上正式开源了 Webwright 框架。该框架设计极简,核心代码仅约1000行,由三个模块组成:Runner(管理智能体循环)、Model Endpoint(统一模型接口,支持 OpenAI、Anthropic、OpenRouter 等后端)以及 Terminal Environment(提供独立的终端执行环境)。工作流程为:Runner 向模型发送当前任务上下文,模型生成“思路”和“Shell 命令”,环境执行并返回输出、截图、错误栈,然后进入下一轮循环,直至任务完成。
在2026年5月的基准测试中,基于 GPT-5.4 的 Webwright 在 Online-Mind2Web 上以100步预算实现86.67%的准确率;在长链任务测试 Odysseys 上,面对平均272词的长指令,其得分为60.1%,相比基础 GPT-5.4(33.5%)提升约81.5%,且超过了2026年4月榜单上的冠军模型 Opus4.6(44.5%)。
为什么重要
Webwright 的出现揭示了一个核心趋势:随着模型编程能力的增强,智能体正在从“模拟用户操作”转向“开发者范式”。传统智能体通过不断预测“点击、滚动、输入”来操作浏览器,这种方式在效率、状态维护和逻辑复用上存在明显瓶颈。而 Webwright 让模型直接生成可复用的 RPA(机器人流程自动化)脚本,代码天然支持循环、函数和分支,长期链式任务(如表单填写、跨页操作、条件跳转)的表达能力远超简单动作堆叠。更重要的是,执行出错后模型能自动进入“写代码—运行—报错—修复”的迭代循环,工程化纠错能力显著提升。这标志着网页智能体的技术路线正在从“交互模拟”转向“编程执行”。
对用户/开发者/创作者的影响
对于开发者而言,Webwright 不仅是一个智能体框架,更是一个能自动编写、维护和打包自动化脚本的“超级员工”。每个操作步骤都生成可被 Claude Code 或 Codex 调用的代码脚本,而非一次性点击记录。对于企业用户,这意味着网页自动化任务(如数据采集、表单填报、跨平台信息同步)的可靠性有望大幅提升。对于普通用户,虽然直接使用门槛较高,但随着该框架被集成到更高层的工具中,未来可能出现更稳定的“自动填表”“一键比价”等实用功能。目前公开信息显示,该框架已开源,开发者可直接通过 GitHub 获取。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,微软是否会将其集成到自己的 Copilot 或 Azure AI 服务中,形成商业化产品。第二,竞品(如 OpenAI 的 Operator、Google 的 Project Mariner)是否会跟进“代码式操作”路线,或引入类似机制来应对效率挑战。第三,Webwright 目前支持的终端执行环境在安全性、权限隔离和跨平台兼容性上的表现,将决定它能否被大规模用于生产场景。
来源:AIbase


