
谷歌发布 Gemini 3.5 Flash,原生集成计算机使用工具,替代 2.5 框架
一句话看懂:谷歌将“计算机使用”工具直接原生集成进 Gemini 3.5 Flash 模型,取代了此前依赖 Gemini 2.5 的测试框架。这意味着开发者现在可以通过纯 API 调用,让 AI 像人一样“看屏幕、点鼠标、填表单”,而不必再写底层脚本。
事件核心:发生了什么
2026 年 6 月 25 日,谷歌宣布 Gemini 3.5 Flash 正式上线,并首次将“计算机使用”(Computer Use)工具直接集成到模型内部。此前该能力需通过 Gemini 2.5 测试框架间接实现,如今被彻底替代。通过 Gemini API,开发者可以构建能够自主操作桌面、浏览器及移动应用的智能代理(Agent),这些代理依赖截图等视觉信息来理解界面,而非低层代码。同日,谷歌还发布了 Chrome 149 稳定版,新增“从屏幕选取”功能,用户可在浏览器中框选任意图片或文字,直接作为 Gemini 的提示输入。
为什么重要
这一更新标志着 AI 模型的能力重心从“对话生成”向“任务执行”加速转移。原生集成计算机使用工具,大幅降低了开发智能代理的技术门槛和成本,表明谷歌正在推动 AI Agent 从概念验证进入可规模化部署的阶段。此举也改变了行业竞争焦点:不再单纯比拼模型参数大小,而是比拼工具调用、界面理解和任务执行的实用性。对于希望在办公自动化、软件测试、跨平台数据采集等场景落地的团队来说,这个变化直接关系到技术选型和部署路径。
对用户/开发者/创作者的影响
- 开发者: 可以直接通过 Gemini API 调用原生 Agent 能力,无需搭建额外的测试框架或维护底层脚本。对于需要自动化网页操作、表单填写、重复数据收集的场景,开发效率会显著提升。
- 企业用户: 谷歌同步推出了两套企业级安全系统:一套支持设定需要人工审批的敏感操作;另一套可在检测到潜在攻击时冻结运行任务。这意味着企业部署此类 Agent 时,管理和合规风险有所降低。
- 普通用户: Chrome 149 的“从屏幕选取”功能让普通用户可以更直观地截取屏幕内容并与 Gemini 交互,降低了使用 AI 进行网页信息查询的门槛。
值得关注的后续
1. 谷歌在 Browserbase 设置了实时演示空间,开发者可以立即测试 Gemini Agent 平台的功能,后续生态的活跃度和第三方集成案例值得持续观察。2. 尽管谷歌表示已进行对抗性训练来防御指令注入攻击,但赋予 AI 控制鼠标和键盘的能力仍存在安全争议,实际使用中的攻击报告和防护效果将是行业关注的焦点。3. 谷歌此举可能加速其他大模型厂商跟进推出类似的原生工具集成能力,从而引发新一轮的技术路线竞争。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
来源:AIbase


