
双子座全能
一句话看懂:Google DeepMind 发布了名为 “Gemini Omni” 的新模型,它能够通过自然语言对话对视频进行多步骤、高一致性的编辑,能将物理规律、文化背景等世界知识融合进视频画面,而不仅仅是简单的滤镜或特效叠加。
事件核心:发生了什么
2025 年 3 月,Google DeepMind 在其官网上线了 Gemini Omni 模型的展示页面。该模型被定位为“Gemini 推理能力与创造力结合”的产品,核心能力是直接对用户上传的视频进行智能编辑。与常见的生成式 AI 不同,Gemini Omni 强调“多步骤对话式编辑”:用户在每一步描述修改需求(如“当手触碰镜子时,镜子像液体一样波动,手臂变成镜面材质”),模型会基于上一轮编辑结果继续执行,保持场景、角色和物体的一致性。此外,它还能在单次输出中融合图片、文字、音频等多种参考素材,生成统一的输出。
为什么重要
Gemini Omni 的发布,标志着 AI 视频编辑从“单帧生成”或“风格迁移”迈向了对物理世界与叙事逻辑的理解。它结合了 Gemini 对历史、科学、文化语境的认知与直观的物理模拟能力,使得 AI 编辑不再仅仅追求画面逼真(photorealism),而是尝试填充“有意义的叙事”(meaningful storytelling)。这使其在技术路线上与主流的扩散模型(Diffusion Model)或单次视频生成模型形成明显差异——它更像一个“拥有世界知识的多模态编辑器”。在竞争格局上,它直接挑战了当前视频编辑 AI(如 Pika、Runway、Adobe Firefly)的交互范式,同时也展示了 Google 通过统一推理与生成的路径,来打通多模态理解的野心。
对用户/开发者/创作者的影响
普通用户:你可以用日常语言分段控制视频中的特定动作、材质变化、环境变换(如白天变夜晚),无需学习专业剪辑软件;编辑过程中的每一步视觉结果均可继承上下文。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
内容创作者与特效师:可一步将手绘草图或参考图像中的物体嵌入视频画面,并自动计算光影反射和物理轨迹,极大降低视觉特效的试错成本。
开发者:目前模型已提供“Try in Gemini”和“Try in Google Flow”两种试用入口。若后续开放 API,开发者可构建基于视频的交互式应用(如教学演示、直播特效、实时故事生成),但需关注其推理时的算力成本与实际响应速度。
值得关注的后续
1. 产品落地形式:目前仅以演示页面和“试用”链接呈现,尚不清楚是否会作为独立产品、Gemini 插件还是 Google Cloud API 正式发布,以及其计费模式。
2. 竞品动态:Runway、Pika Labs 以及 Adobe 均已推出视频 AI 编辑功能,但大多聚焦于风格转移或画面拓展。Gemini Omni 的“多轮一致性与世界知识融合”是否会引发行业技术路线转向,需观察接下来一到两个月的产品更新。
3. 技术门槛与可用性:演示中的视频均为 10 秒以内短片,且编辑动作多为单一关键帧触发。面对长视频、多人复杂场景或多轮一致性极长编辑链时,模型是否仍能保持稳定,尚待公测验证。


