Gemini Omni 亮相谷歌强化视频生成与编辑能力

一句话看懂：谷歌 DeepMind 于 5 月 20 日发布新模型“Gemini Omni”，首款型号为“Flash”，主打视频生成与编辑，并计划逐步覆盖所有输入输出模态。这标志着谷歌在多模态 AI 路线上的一次关键产品落地。

事件核心：发生了什么

在 2026 年 5 月 20 日，谷歌 DeepMind CEO 德米斯·哈萨比斯正式宣布推出“Gemini Omni”系列模型。首款模型名为“Gemini Omni Flash”，初始能力聚焦于视频生成与编辑。哈萨比斯表示，该模型起初只生成视频，但未来将能够“从任意输入生成任意输出”，即实现全模态的输入与输出。从即日起，该模型将逐步在谷歌的 Gemini 应用、Google Flow 以及 YouTube Shorts 中上线，谷歌还承诺未来将通过 API 向开发者开放使用。这一发布标志着谷歌在多模态大模型方向上的一个具体产品化节点。

为什么重要

此前，谷歌在图像和视频生成领域已推出 Veo 等模型，但“Gemini Omni”被定位为 Gemini 系列的基础架构升级。哈萨比斯在发布时强调，谷歌从一开始就选择构建“多模态系统”，而非单一模态模型。Omni 的推出，实质上是在验证这一技术路线能否在更复杂的视频生成和编辑任务中跑通。对行业而言，它直接对标了 OpenAI 在视频生成方向（如 Sora）的进展，同时也展示了谷歌将 AI 能力直接嵌入其核心产品矩阵（如 YouTube Shorts）的策略，意在用现有用户基础快速推动应用落地，而非仅停留在演示阶段。

对用户/开发者/创作者的影响

对于普通用户，Omni Flash 的能力将首先体现在 YouTube Shorts 中，创作者可以直接在短片中利用 AI 生成或编辑视频片段，降低内容制作门槛。对于开发者，模型的 API 开放意味着未来可以在外部应用中调用视频生成与编辑能力，但具体定价、调用限制和模型性能表现目前尚未披露。对于视频内容创作者，一个值得关注的点是模型能否真正处理复杂场景的连续编辑，以及生成的视频质量是否达到实用级标准。总体而言，它的落地将进一步挤压传统视频编辑工具（如 Premiere 插件、第三方 AI 视频工具）的市场空间，但也为自动化内容创作提供了新选项。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，产品实际体验是关键：目前公开信息显示，Omni Flash 在 Gemini 应用、Google Flow 和 YouTube Shorts 中的上线是“逐步”进行的，用户是否能第一时间体验到值得跟踪。其次，API 开放计划尚未公布具体时间表，开发者生态的建立速度将直接影响其商业化潜力。最后，竞品反应：OpenAI、Meta 等公司是否会在视频生成领域加速迭代，以及市场对多模态模型“从任意输入生成任意输出”这一愿景的实际接受度，将是观察重点。

来源：Readhub · AI

Gemini Omni 亮相谷歌强化视频生成与编辑能力