谷歌全新Gemini Omni首曝，视频版「香蕉」来了，教授黑板推公式全对

一句话看懂：谷歌即将在I/O大会上发布的原生多模态视频模型Gemini Omni提前泄露，其生成的教授板书推导数学公式视频因文字正确性极高引爆网络，同时展示了强大的实时编辑能力（去水印、物体替换），而OpenAI的Sora 2已于4月26日停服。

事件核心：发生了什么

5月18日，谷歌Gemini移动端App主页截图流出，显示新增了一个名为“Gemini Omni”的视频模型入口。该模型是一个全模态模型，支持文本、图像、音频、视频输入和输出，生成视频时长10秒、分辨率1280×720。泄露的演示视频中，一位教授在黑板上推导三角恒等式，公式书写正确、推导逻辑连贯、笔迹自然，仅通过一句提示词生成。此外，Omni还展示了“一键去水印”和“物体替换”等实时编辑能力，可以对话式直接修改视频内容。同时，谷歌多款未发布的Gemini全线模型（包括Gemini 3 Flash、3.1全系列和Lyria 3 Pro）也被意外推送到生产环境API中。

为什么重要

文本一致性一直是AI视频生成的难点，此前Sora生成的文字经常是“鬼画符”。Omni在数学公式等复杂文本上的准确度，标志着视频生成模型在语义理解上迈出了关键一步。从商业角度看，OpenAI的Sora 2已于4月26日停服，其生命周期内收入仅约210万美元，无法覆盖每天100万至1500万美元的推理成本。谷歌Omni选择在Sora 2关停两周后、I/O大会开幕前夕泄露，显示出强力卡位AI视频赛道的意图。Omni深度集成到Gemini中，依托谷歌的搜索、云和硬件生态，降低了独立模型的高昂运营成本，可能改变视频生成模型的商业化路径。

对用户/开发者/创作者的影响

对创作者来说，Omni的实时编辑能力（去水印、物体替换）可能成为生产力工具——相比传统后期软件，直接对话式修改视频能大幅降低门槛和工时。开发者需要关注的是，Omni的API或许会整合到Gemini生态中，早期测试显示额度消耗极快，这意味着推理成本依然不低，但会比Sora的纯文本输出+高算力模式更可控。普通用户暂时无法直接使用，但I/O大会（5月19日开幕）上Omni如果正式发布，Gemini用户可能率先体验视频生成和编辑功能。目前公开信息显示，Omni并非独立App，而是Gemini的模块，这意味着用户无需额外安装工具。

值得关注的后续

第一，I/O大会上Omni是否真正亮相及定价策略——如果价格低于Sora的推理成本，可能快速占领市场。第二，实时编辑功能在去水印场景下是否会引发版权争议——目前“一键去水印”可能触及视频素材的合法使用边界。第三，竞品反应——OpenAI是否会在Sora 2关停后推出更便宜的替代方案，或者转向纯文本+图像生成以降低成本。

来源：36氪 · 24小时热榜

谷歌全新Gemini Omni首曝，视频版「香蕉」来了，教授黑板推公式全对