告别“代码重构”焦虑:阿里开源 Page Agent,让大模型读懂网页底层逻辑

阿里开源了名为 Page Agent 的 JavaScript 客户端库,让大模型直接解析网页 DOM 结构而非依赖截图,以更低成本实现精准的网页自动化操作。这一思路可能改变开发者构建浏览器自动化智能体的方式。

告别“代码重构”焦虑:阿里开源 Page Agent,让大模型读懂网页底层逻辑

一句话看懂:阿里开源了名为 Page Agent 的 JavaScript 客户端库,让大模型直接解析网页 DOM 结构而非依赖截图,以更低成本实现精准的网页自动化操作。这一思路可能改变开发者构建浏览器自动化智能体的方式。

事件核心:发生了什么

阿里巴巴近日开源了 Page Agent,这是一个运行在浏览器环境中的 JavaScript 客户端库。其核心创新是“DOM 脱水”技术:并非通过截屏后让大模型进行多模态识别,而是直接在网页内部将复杂的 DOM 树压缩为轻量级的“FlatDomTree”纯文本映射。大模型只需利用这份文本结构映射,即可完成按钮点击、表单输入等复杂操作。Page Agent 采用 MIT 开源许可,已在 GitHub 上发布,可兼容支持标准接口的任意大语言模型。

为什么重要

传统方案依赖截图和视觉模型,计算成本高且易丢失页面内的交互细节(如元素状态、属性)。Page Agent 的“嵌入式”设计意味着它天然继承页面的 cookie、会话状态和登录凭证,开发者无需在后端处理复杂的验证流程。这一技术路线将浏览器自动化从高成本的“暴力破解”转向低成本的“结构理解”,有望显著降低 SaaS 智能助手、自动化数据采集等场景的落地门槛。这也标志着大模型与网页交互的技术重点,正在从昂贵的多模态算力消耗,转向更轻量、更实用的工程化方案。

对用户/开发者/创作者的影响

对开发者:Page Agent 提供了可直接集成到前端项目中的库,无需额外部署视觉模型或中间代理,开发成本与推理成本同步下降。对需要自动化填写表单、抓取登录态之后数据的场景尤其友好。对普通用户:更便宜的自动化工具可能催生更智能的浏览器助手和个性化服务。对创作者或运营人员:可借助此技术构建低成本的“网页驱动型”AI 应用,例如批量更新电商页面、自动爬取竞品信息等,不需要等待后端团队配合接口开发。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Page Agent 目前在 GitHub 上的关注度与社区贡献者数量,将直接影响其生态成熟度和长期维护性。第二,阿里是否会推出与自家通义千问模型深度绑定的优化版本,以及是否提供针对单页应用(SPA)的适配策略。第三,高安全性场景(如支付、数据篡改)下的权限控制机制是否会被社区采纳和被企业级用户信任,是衡量该框架能否真正进入生产环境的关键指标。

来源:AIbase

celebrityanime
celebrityanime
文章: 11181

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注