Google I/O 之后，AI 的参照系变了

一句话看懂：2026年Google I/O大会上发布的Gemini Omni Flash，首次实现了“任意模态输入、任意模态输出”的全模态能力，将AI竞争焦点从文本编程转向了多模态内容生成；与此同时，阿里巴巴财报验证了AI需求真实爆发，国内厂商Minimax因全模态布局被多家投行看好，整个行业的参照系正在从“Coding时代”切换到“多模态时代”。

事件核心：发生了什么

北京时间5月20日凌晨，Google I/O 2026发布Gemini Omni Flash，定义了一个统一基座的全模态模型，支持文本、图像、视频、音频的混合输入与输出。演示中，用户可通过对话直接编辑视频背景、运镜、旁白，无需重新上传或切换线程。DeepMind CEO哈萨比斯表示，未来Omni将成为真正的世界模型，嵌入Gemini应用、Google Flow和YouTube Shorts等所有入口。与此同时，阿里巴巴2026财年Q4财报显示，其AI模型与应用服务ARR已达80亿元人民币，CEO吴泳铭称Token供应仍无法满足客户需求，卖方市场特征显著。国内独立厂商Minimax因同时具备文本、图像、视频、音频、音乐全栈自研能力，被高盛、摩根士丹利、瑞银等机构集中看好，预计其多模态API毛利率可达60-70%，ARR在2026年底有望达10亿美元。

为什么重要

这一事件标志着AI行业的竞争维度发生了根本性转变。过去两年，市场以“Coding（编程）”为核心参照，比拼的是代码生成能力和API降价；现在，Google Omni证明，统一基座的全模态模型能在一个模型内部完成所有模态的分析与生成，文本理解可反哺图像质量，视频数据又能提升常识推理，形成1+1>2的迭代效率优势。这意味着，纯文本模型的市场估值逻辑将被打破——多模态的商业上限远超编程，视频模型的每百万Token定价远高于文本和图片，多模态应用市场将成为新的增量主战场。中国市场中，阿里巴巴验证了需求端“量价齐升”的β红利，而Google则催化了技术路线的α重估：具备全模态能力的厂商将获得更高估值弹性，这一结论也支撑了投资机构对Minimax等“Pure-Play”（纯AI业务公司）的看好。

对用户/开发者/创作者的影响

对普通用户：AI工具将从“聊天生成文字/图片”升级为“对话式全媒体编辑”。用户未来可以通过自然语言指令，直接生成或修改包含文字、画面、音效和旁白的完整视频内容，门槛大幅降低。Google Nano Banana系列已累计生成500亿张图片，这一趋势正在向视频扩展。
对开发者与创作者：统一的API接口将简化多模态应用的开发成本。过去需要调用多个模型（文本+图像+视频+音频）并手动整合的工作流，未来只需调用一个全模态模型。例如，Minimax的文本API毛利率已达40%，多模态API达60-70%，推理成本仅为Claude 4.5 Sonnet的8%，这将激励更多应用层创新。
对企业采购：AI已从“实验性支出”正式进入生产预算，但决策标准正在从单纯价格转向模型能力。摩根大通指出，当前最优策略是提升能力而非降价，技术迭代更快的厂商将主导市场。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. Gemini Omni是否按期落地：Google演示了编辑能力，但目前尚未公布大规模商用时间表。能否在2026年下半年进入创作者工作流，是验证其技术成熟度的关键。
2. OpenAI和Meta如何回应：GPT-4o图像生成曾创造100万用户/小时的纪录，但面对统一全模态模型，多模型拼接模式可能面临效率瓶颈。下一步竞争可能围绕全模态推理成本和统一架构展开。
3. Minimax M3与Hailuo 3发布节奏：据其创始人透露，这两款模型将于2026上半年发布。它们能否在文本、图像、视频全模态上达到或接近Gemini Omni水平，将决定中国独立AI厂商能否在全球多模态赛道占据一席之地。

来源：Readhub · AI

Google I/O 之后，AI 的参照系变了