Google I/O全盘点：两大新模型上线，音频眼镜登台，Gemini接管一切

一句话看懂：Google 于北京时间 5 月 20 日发布全能模型 Gemini Omni 与升级版 Gemini 3.5 Flash，并推出新一代音频智能眼镜与全天候 AI 智能体 Gemini Spark。这标志着 Google 正在将 AI 从对话工具升级为能够主动感知、自主行动、并直接生成互动界面的底层操作系统。

事件核心：发生了什么

在 2026 年 Google I/O 上，Google 正式发布两大模型：Gemini Omni 支持任意输入到任意输出的全模态生成，可基于手绘草图与文字描述直接生成完整特效视频；Gemini 3.5 Flash 在编程、现实环境智能体、大规模工具调用等方面显著提升，且下月将推出专业版 Gemini 3.5 Pro。

产品层面，Google 推出面向个人的全托管 AI 智能体 Gemini Spark，运行于虚拟化环境，支持语音响应、后台监控与跨应用操作。音频智能眼镜（与 Gentle Monster、Warby Parker 合作）首次亮相，计划于 2026 年秋季发布，支持语音和触控唤醒 Gemini，并能通过声纹验证完成下单等操作。此外，Google 搜索引入基于 Antigravity 的生成式 UI，能根据复杂问题自动生成可互动的前端网页来替代传统对话框。

为什么重要

此次 I/O 的核心价值在于 Google 首次展示了AI 从“问答工具”向“主动执行者”的实质性跨越。Gemini Spark 全天运行、GenUI 直接生成可交互页面、音频眼镜集成视觉感知，这三者共同构建了“感知—理解—行动—反馈”的闭环。尤其是生成式 UI，直接改变了搜索引擎与用户的交互范式，不再只是返回文字或链接，而是为每个问题动态生成一个自定义工具。同时，Gemini 借助 Android 系统特权（如 Android Halo 常驻状态标识），正在构筑其他 AI 厂商难以复制的生态护城河。

对用户/开发者/创作者的影响

对普通用户：搜索体验将发生质变。复杂的“如何运作”类问题不再依赖文字解释，而是获得可直接交互的模拟页面。Gemini Spark 的虚拟化隔离环境也增强了用户对 AI 托管敏感操作的安全感。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：Antigravity 平台用 Gemini 3.5 Flash 在 12 小时内搭建了一个操作系统内核，成本不到 1000 美元——这将大幅降低原型构建与自动化测试的门槛。同时，Gemini Spark 支持 MCP 协议，可对接外部 App，意味着跨平台自动化开发迎来新的接口标准。

对创作者：Gemini Omni 的“任意输入→任意输出”能力让视频创作门槛断崖式下降。用户仅需素材与文字描述即可生成短视频，且支持单元素替换（如“把玻璃建筑改成肥皂泡”），直接作用于专业创作流程中的修改与迭代环节。

值得关注的后续

1. 生成式 UI 落地节奏。该功能预计于 2026 年夏季向用户开放，且免费可用。其实际生成速度、页面质量与复杂问题处理能力将直接影响用户对新一代搜索的接受度。

2. 音频眼镜的跨平台表现。Google 明确表示该眼镜将同时支持 Android 与 iOS，但 iOS 的沙盒机制极大概率会限制其后台能力——这将成为一个关键的市场测试，看用户是否愿意为了完整功能转向 Android 生态。

3. AI 付费梯度是否会被市场接受。Google 在原有 AI Pro（20 美元/月）与 AI Ultra（250 美元/月）之间增设了 100 美元/月的“青春版”AI Ultra，显示出算力成本压力正在倒逼订阅分层。后续用户留存率与竞品定价策略值得跟踪。

来源：36氪 · 24小时热榜

Google I/O全盘点：两大新模型上线，音频眼镜登台，Gemini接管一切