谷歌全新Gemini Omni首曝,视频版「香蕉」来了,教授黑板推公式全对

谷歌全新Gemini Omni首曝,视频版「香蕉」来了,教授黑板推公式全对

谷歌全新Gemini Omni首曝,视频版「香蕉」来了,教授黑板推公式全对

一句话看懂:谷歌即将在I/O大会上发布的原生多模态视频模型Gemini Omni提前泄露,其生成的教授板书推导数学公式视频因文字正确性极高引爆网络,同时展示了强大的实时编辑能力(去水印、物体替换),而OpenAI的Sora 2已于4月26日停服。

事件核心:发生了什么

5月18日,谷歌Gemini移动端App主页截图流出,显示新增了一个名为“Gemini Omni”的视频模型入口。该模型是一个全模态模型,支持文本、图像、音频、视频输入和输出,生成视频时长10秒、分辨率1280×720。泄露的演示视频中,一位教授在黑板上推导三角恒等式,公式书写正确、推导逻辑连贯、笔迹自然,仅通过一句提示词生成。此外,Omni还展示了“一键去水印”和“物体替换”等实时编辑能力,可以对话式直接修改视频内容。同时,谷歌多款未发布的Gemini全线模型(包括Gemini 3 Flash、3.1全系列和Lyria 3 Pro)也被意外推送到生产环境API中。

为什么重要

文本一致性一直是AI视频生成的难点,此前Sora生成的文字经常是“鬼画符”。Omni在数学公式等复杂文本上的准确度,标志着视频生成模型在语义理解上迈出了关键一步。从商业角度看,OpenAI的Sora 2已于4月26日停服,其生命周期内收入仅约210万美元,无法覆盖每天100万至1500万美元的推理成本。谷歌Omni选择在Sora 2关停两周后、I/O大会开幕前夕泄露,显示出强力卡位AI视频赛道的意图。Omni深度集成到Gemini中,依托谷歌的搜索、云和硬件生态,降低了独立模型的高昂运营成本,可能改变视频生成模型的商业化路径。

对用户/开发者/创作者的影响

对创作者来说,Omni的实时编辑能力(去水印、物体替换)可能成为生产力工具——相比传统后期软件,直接对话式修改视频能大幅降低门槛和工时。开发者需要关注的是,Omni的API或许会整合到Gemini生态中,早期测试显示额度消耗极快,这意味着推理成本依然不低,但会比Sora的纯文本输出+高算力模式更可控。普通用户暂时无法直接使用,但I/O大会(5月19日开幕)上Omni如果正式发布,Gemini用户可能率先体验视频生成和编辑功能。目前公开信息显示,Omni并非独立App,而是Gemini的模块,这意味着用户无需额外安装工具。

值得关注的后续

第一,I/O大会上Omni是否真正亮相及定价策略——如果价格低于Sora的推理成本,可能快速占领市场。第二,实时编辑功能在去水印场景下是否会引发版权争议——目前“一键去水印”可能触及视频素材的合法使用边界。第三,竞品反应——OpenAI是否会在Sora 2关停后推出更便宜的替代方案,或者转向纯文本+图像生成以降低成本。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 6038

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注