Gemini Omni – 利用任何素材创作任意内容——从视频开始

一句话看懂：Google 在 ProductHunt 上低调推出 Gemini Omni，这是一款基于 Gemini 大模型的多模态视频编辑工具，用户可通过自然语言对话逐帧编辑视频，并融合图像、音频、文本等多种参考素材生成连贯输出。它试图将 AI 视频生成从“单次 prompt 出片”推进到“多轮交互式精细编辑”阶段。

事件核心：发生了什么

根据 ProductHunt 页面信息，Gemini Omni 的核心能力包括：通过自然、逐步对话编辑视频，每一次修改都基于之前的结果构建，保持场景一致性；它结合了 Gemini 对物理、历史、科学和文化语境的理解，在保持真实感的同时构建叙事；用户可以引用图像、文字、视频或音频作为参考，生成单一连贯的输出。展示的案例包括：当人触摸镜子时，让镜子像液体一样涟漪、手臂变成镜面材质；或者将环境整体变成 3D 体素艺术；也可以通过手部动作触发建筑从手掌升起、手张开时太阳和行星浮现等复杂场景。它还支持多轮编辑，例如先换环境再移除小提琴。

为什么重要

目前 AI 视频工具（如 Runway、Pika、Sora 等）多聚焦于“文本/图像生成视频”，但视频后期编辑——尤其是保持画面一致性的逐帧精细修改——仍是公认的难题。Gemini Omni 展示了“可对话的、引用多模态素材的、多步骤迭代编辑”路线，这比一次性生成更贴近专业创作者的工作流。它意味着 AI 视频能力从“生成”向“编辑和制作”延伸，将 Gemini 的推理能力、多模态理解与生成能力整合到一个交互式中台，可能重塑视频内容创作工具的范式。此外，它直接内嵌在 Gemini 和 Google Flow 中，表明 Google 正加快将多模态模型推向实际应用层，而非仅停留在 API 调用。

对用户/开发者/创作者的影响

对于创作者来说，这意味着过去需要逐帧手动处理的复杂后期效果（如物体材质变化、环境转换、物理模拟）现在可以通过自然语言对话完成，大大降低视频特效的门槛。对于开发者，Gemini Omni 同时提供“在 Gemini 中试用”和“在 Google Flow 中试用”两个入口，暗示其可能以 AI 工作流的形式开放，为自动化视频生产管线提供新组件。对于企业级的广告、营销和影视制作团队，它提供了一种可合作迭代的创作方式——例如让 AI 参照参考图生成建筑结构后，再通过对话调整光照和音效，而不必每次重写完整 prompt。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，Gemini Omni 目前仅以试用形式出现，尚不清楚其正式发布的时间线、定价模式，以及是否对普通用户开放还是仅限企业用户。其次，面对 Runway Gen-3、Pika 2.0 等竞品的快速迭代，Gemini Omni 的“多轮一致性编辑”能否在视频长度、分辨率、复杂物理模拟上保持实用性，还需实际体验验证。最后，Google 是否会将其能力通过 API 提供给第三方应用，从而形成多模态视频编辑生态，将决定其对开发社区的吸引力。

来源：www.producthunt.com

Gemini Omni – 利用任何素材创作任意内容——从视频开始