
一句话看懂:阿里巴巴发布了一款名为 Page Agent 的开源 JavaScript 库,允许用户通过自然语言指令直接控制网页界面。这为构建 AI 驱动的浏览器内“界面代理”提供了新的技术路径,尤其适合需要自动化页面操作的场景。
事件核心:发生了什么
据 MarkTechPost 报道,阿里巴巴公开了 Page Agent——一个基于 JavaScript 构建的“页内 GUI 代理”工具。核心机制是让 AI 直接访问和操作网页的 DOM(文档对象模型),这意味着用户可以用自然语言(例如“点击页面右上角的搜索按钮并输入‘深度学习’”)来驱动浏览器中的交互行为。该工具以开源形式发布,目的之一是降低开发者构建浏览器自动化 AI 应用的门槛。
为什么重要
此前,AI 自动化网页操作(如“网页机器人”或“RPA 升级版”)通常依赖截图分析、模拟点击或专用 API,而 Page Agent 通过直接控制 DOM 提供了更精准、更高效的执行方式。这种“从 DOM 层面理解并操作页面”的思路,避免了视觉识别带来的误差和延迟,在网页结构固定的企业应用(如数据填报、流程审批、云控制台操作)中有实用价值。此外,作为阿里巴巴开源的项目,它可能推动行业在“自然语言替代鼠标和键盘”这一方向上加速探索,尤其是在 Agentic AI(具备行动能力的人工智能)领域。
对用户/开发者/创作者的影响
从开发者角度看,Page Agent 降低了构建网页自动化 Agent 的复杂度。传统手段需要编写大量 DOM 遍历和事件触发代码,而通过自然语言接口可以更快速、更灵活地定义流程。对普通用户而言,短期影响有限,但长远看,同类技术可能被嵌入浏览器插件或助手应用中,让“帮我填写这个表单”“把这个页面的价格数据导出”等操作更简单。对于关注 AI 应用落地的人群,这不失为一个关注“结构化交互”而非“视觉理解”的具体案例,其开源性质也意味着社区可以快速测试并改进。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
当前信息显示,Page Agent 已开源,但实际的性能表现、对复杂动态页面的支持程度以及与其他类似项目(如微软的 Copilot、Google 的 Marian 等)的对比还有待社区验证。值得观察的点有三个:一是 GitHub 社区是否快速涌现出常见业务场景的 demo;二是阿里巴巴是否会发布配套的云端 API 或收费版本;三是其他大厂(如百度、腾讯)是否会在同一方向推出竞品,推动“自然语言操控网页”成为浏览器 AI 的基础功能。


