
一句话看懂:谷歌 DeepMind 团队将“自主操控电脑屏幕”的能力直接集成到 Gemini 3.5 Flash 模型中,开发者从此可以用一个模型完成跨浏览器、手机和桌面的自动化操作,无需在多模型之间手动传递上下文。
事件核心:发生了什么
6 月 25 日,谷歌 DeepMind 团队宣布 Gemini 3.5 Flash 模型获得技术升级,原生集成了“电脑操作”(native computer usage)能力。开发者可利用单一模型构建 AI 智能体,在浏览器、移动设备和桌面电脑的屏幕上“查看”内容并“执行”点击、输入等操作。此前这项能力以一个独立模型的形式存在,开发者需要在不同模型间进行复杂的上下文切换和转移。通过原生集成,跨平台的长时间任务执行不再需要人工传递信息,开发流程显著简化。谷歌团队将这一设计形容为“多工具集成”——如同一栋内部直通的综合体,避免了多栋独立建筑之间漫长且易出错的通讯环节。
为什么重要
这一架构调整的核心价值在于解决 AI 智能体的可靠性瓶颈。谷歌团队认为,智能体失败的主要原因并非单一工具的能力局限,而是在切换多个工具时发生的上下文信息丢失。通过将搜索、地图和电脑操作都统一在 Gemini 3.5 Flash 的单一架构中,上下文可以实现连续流动,显著降低复杂任务的失败概率。这意味着开发者构建自动化代理时的开发门槛和工程复杂度将大幅降低,同时也把“多模态感知+动作执行”的能力从实验室走向实用化。对于谷歌云业务和 AI 生态系统而言,此举可能直接拉动 Gemini API 在企业级自动化场景中的采用率,并进一步拉开与竞品在智能体开发工具链上的差距。
对用户/开发者/创作者的影响
开发者:最直接的受益者是需要构建端到端自动化流程的团队。以往要做一个“跨应用填写表单-汇总数据-邮件发送”的智能体,需要串联多个模型并编写大量上下文管理逻辑;现在只需调用一个模型即可完成。开发周期有望从数周缩短到几天,且出错概率更低。企业用户:该能力主要面向三大核心场景:需连续运行数小时甚至数天的自动化任务、需要持续进行 UI 一致性验证的软件测试、以及需要跨应用完成的知识密集型工作。这些场景高度依赖任务间的上下文连续性,适合用来替代高重复、高耗能的人力操作。普通用户:短期内影响有限,因为该能力将通过 API 形式供给开发者,并不会直接出现在消费者级产品中;但如果开发者将其嵌入 SaaS 工具或浏览器插件,普通用户会间接体验到更强的自动化助手。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,多层级安全机制的实际表现。谷歌在安全设计上采用了对抗训练、企业级安全防护以及间接提示注入检测三层防御。考虑到让 AI 直接操控屏幕在安全与隐私层面风险极高,这套防护能否在开放、不可控的计算机环境中有效建立边界,将是企业客户是否敢用、能否用得下去的关键。第二,价格与延迟。将“搜索+地图+电脑操作”塞入同一模型是否会带来推理成本的上升?目前公开信息显示谷歌尚未公布定价细节,后续 API 计费模式将直接影响中小开发者的接入意愿。第三,竞品反应。在 OpenAI 和微软也陆续展示 PC 操控类能力的背景下,谷歌这次通过“单一模型原生集成”打出差异化,预计其他厂商会在 3-6 个月内跟进类似架构调整,届时智能体开发将进入“端到端原生支持”的新阶段。
来源:AIbase


