
Gemini Omni – 利用任何素材创作任意内容——从视频开始
一句话看懂:Google 在 ProductHunt 上低调推出 Gemini Omni,这是一款基于 Gemini 大模型的多模态视频编辑工具,用户可通过自然语言对话逐帧编辑视频,并融合图像、音频、文本等多种参考素材生成连贯输出。它试图将 AI 视频生成从“单次 prompt 出片”推进到“多轮交互式精细编辑”阶段。
事件核心:发生了什么
根据 ProductHunt 页面信息,Gemini Omni 的核心能力包括:通过自然、逐步对话编辑视频,每一次修改都基于之前的结果构建,保持场景一致性;它结合了 Gemini 对物理、历史、科学和文化语境的理解,在保持真实感的同时构建叙事;用户可以引用图像、文字、视频或音频作为参考,生成单一连贯的输出。展示的案例包括:当人触摸镜子时,让镜子像液体一样涟漪、手臂变成镜面材质;或者将环境整体变成 3D 体素艺术;也可以通过手部动作触发建筑从手掌升起、手张开时太阳和行星浮现等复杂场景。它还支持多轮编辑,例如先换环境再移除小提琴。
为什么重要
目前 AI 视频工具(如 Runway、Pika、Sora 等)多聚焦于“文本/图像生成视频”,但视频后期编辑——尤其是保持画面一致性的逐帧精细修改——仍是公认的难题。Gemini Omni 展示了“可对话的、引用多模态素材的、多步骤迭代编辑”路线,这比一次性生成更贴近专业创作者的工作流。它意味着 AI 视频能力从“生成”向“编辑和制作”延伸,将 Gemini 的推理能力、多模态理解与生成能力整合到一个交互式中台,可能重塑视频内容创作工具的范式。此外,它直接内嵌在 Gemini 和 Google Flow 中,表明 Google 正加快将多模态模型推向实际应用层,而非仅停留在 API 调用。
对用户/开发者/创作者的影响
对于创作者来说,这意味着过去需要逐帧手动处理的复杂后期效果(如物体材质变化、环境转换、物理模拟)现在可以通过自然语言对话完成,大大降低视频特效的门槛。对于开发者,Gemini Omni 同时提供“在 Gemini 中试用”和“在 Google Flow 中试用”两个入口,暗示其可能以 AI 工作流的形式开放,为自动化视频生产管线提供新组件。对于企业级的广告、营销和影视制作团队,它提供了一种可合作迭代的创作方式——例如让 AI 参照参考图生成建筑结构后,再通过对话调整光照和音效,而不必每次重写完整 prompt。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,Gemini Omni 目前仅以试用形式出现,尚不清楚其正式发布的时间线、定价模式,以及是否对普通用户开放还是仅限企业用户。其次,面对 Runway Gen-3、Pika 2.0 等竞品的快速迭代,Gemini Omni 的“多轮一致性编辑”能否在视频长度、分辨率、复杂物理模拟上保持实用性,还需实际体验验证。最后,Google 是否会将其能力通过 API 提供给第三方应用,从而形成多模态视频编辑生态,将决定其对开发社区的吸引力。

![[职场话题] AI 来了,反而让我想跑路了](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_4-548-768x403.jpg)
