网页控制新范式:阿里开源 Page Agent,让大模型读懂 DOM

阿里巴巴近期开源了 Page Agent,一个直接运行在网页中、让大模型通过轻量化 DOM 文本而非图像来操控页面的 JavaScript 库。这意味着浏览器自动化从依赖外部工具转向页面内部直控,大幅降低了成本和复杂度。

网页控制新范式:阿里开源 Page Agent,让大模型读懂 DOM

一句话看懂:阿里巴巴近期开源了 Page Agent,一个直接运行在网页中、让大模型通过轻量化 DOM 文本而非图像来操控页面的 JavaScript 库。这意味着浏览器自动化从依赖外部工具转向页面内部直控,大幅降低了成本和复杂度。

事件核心:发生了什么

阿里巴巴开源了名为 Page Agent 的 JavaScript 客户端库,核心思路是“DOM 脱水”:它将实时 DOM 结构压缩成一个轻量的“FlatDomTree”纯文本映射,让大模型无需处理繁琐的截图或视频模态信息,仅靠结构文本就能准确定位并执行点击、填表等操作。与此前的 Selenium、Playwright 或 Puppeteer 等外部驱动方案不同,Page Agent 在网页内嵌运行,能直接继承用户 cookies 和会话,省去了后端对接与认证工作。项目采用模型无关设计,兼容任何支持 OpenAI 接口的大语言模型,并以 MIT 许可证在 GitHub 上开源。

为什么重要

传统浏览器自动化依赖将网页截图转为多模态数据给 AI 识别,这类方案算力消耗高、识别延迟大,且难以处理动态交互页。Page Agent 通过纯文本 DOM 映射,让大模型直接“读懂”页面结构,在单页面交互场景下提供了一条低延迟、低成本的工程实现路径。对行业而言,这意味着 SaaS 产品嵌入 AI 操作能力或将不再需要采购高成本的多模态模型,同时为应用无障碍化、表单审批自动化等场景提供了新选项。不过,开发团队也明确指出,Page Agent 目前局限于单页面交互,且基于提示语的安全控制(如“禁止自动支付”)仅为引导性限制,高敏感操作仍需服务端验签,这界定了它的技术边界。

对用户/开发者/创作者的影响

对开发者而言,Page Agent 提供了即插即用的方案:只需在页面嵌入一个客户端库,就能通过 API 调用让 AI 自主完成按钮点击、数据填写等操作,尤其适合在已有 SaaS 产品中快速集成 AI 助手。创作者或企业运营人员可将其用于自动化办公流程,例如批量填表、内部系统导航等。但对涉及资金流转或数据修改的高风险任务,开发者仍需在服务端保留严格的核验逻辑,不能完全依赖客户端提示语约束。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,Page Agent 当前仅为单页面方案,未来是否会扩展至多页面或跨域操作,将直接影响其企业级应用场景;其次,随着更多竞品(如类似做 DOM 解析的 Playwright 扩展方案)的跟进,开源生态内是否会形成标准化接口是关键观察点;最后,安全边界问题——客户提示控制与硬编码验证之间如何平衡——将是实际落地中开发者最关注的硬约束,后续社区贡献和官方更新可能聚焦于此。

来源:AIbase

celebrityanime
celebrityanime
文章: 11188

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注