从可灵到 Gemini,AI 视频集体告别“抽卡模式”:导演模型要火?

从可灵到 Gemini,AI 视频集体告别“抽卡模式”:导演模型要火?

从可灵到 Gemini,AI 视频集体告别“抽卡模式”:导演模型要火?

一句话看懂:过去以“抽卡式”出片为主的 AI 视频模型,正集中转向可编辑、可修改的创作工具。从谷歌 Gemini、Runway 到国内可灵、Seedance 2.0,最新一批模型不再追求一次性生成完美片段,而是允许用户在已有素材上持续修改、调整细节,标志着 AI 视频从“碰运气出片”进入“可控编辑”阶段。

事件核心:发生了什么

过去一年多,AI 视频生成普遍是“抽卡”模式:用户输入 prompt 后等待模型输出几秒片段,结果不好就只能重新生成,无法对已有素材局部调整。但最近一两个月里,多家公司相继推出可编辑的新方案:Runway 发布 Aleph 2.0,支持基于原视频语境做局部修改;谷歌 Gemini Omni 采用对话式编辑,用户可以在上一版基础上聊天式提出修改要求;可灵 O1 则将生成、修改、参考、风格重绘、镜头延展等能力整合进同一引擎;Seedance 2.0 则把文字、图片、视频、音频都纳入多模态参考,增强对动作和声音节奏的控制。这些产品形态、技术路线不同,但共同释放的信号是:竞争重点从“谁能生成更好看的一次性片段”转向“谁生成的东西能被持续修改、控制和复用”。

为什么重要

这一转向重新定义了 AI 视频模型在创作流程中的位置。过去模型只是“出片机器”,使用经验依赖随机性和大量重复试错;现在模型开始扮演“生产工具”角色,要求用户具备类似导演的调度能力——描述镜头、控制节奏、判断哪段可用、哪段需要返工。从行业竞争看,抽卡时代的先发优势正被削弱,后续竞争将比拼编辑能力的完整性、多模态参考的丰富度以及工作流衔接的流畅度。这也会影响视频模型的商业化路径:可编辑意味着可以按修改次数、修改精度或素材复用量计费,而不再是一次生成一锤子买卖。

对用户/开发者/创作者的影响

对普通用户和内容创作者来说,最直接的变化是减少了“抽卡”式的试错成本,可以用已有素材为基础反复调整。创作者的核心竞争力将从剪辑软件操作熟练度,逐渐转向“意图调度”能力——能否把模糊创意拆解成模型能理解的镜头语言,能否在模型输出结果时一眼判断其可用性。对开发者和企业用户而言,可编辑能力意味着 AI 视频可以嵌入更复杂的生产管线,例如广告素材的迭代优化、批量内容中的风格统一等,但同时也对 API 的稳定性、修改精度的可预期性提出了更高要求。目前公开信息显示,这些编辑能力仍在特定场景(如广告级视频修改)中表现良好,但在自由角度、动态场景等方面尚未达到完全可控的程度。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,可编辑能力在实际产品中的落地速度和覆盖场景:Gemini 的对话式编辑和 Runway 的局部修改目前分别处于演示阶段或早期公开测试,可灵 O1 和 Seedance 2.0 也未全量开放全部功能,用户实际体验可能仍有限制。其次,价格和计费模式的变化:编辑功能按修改次数还是素材复用量收费、是否影响现有 API 定价,可能成为创作者和开发者决定投入程度的关键。第三,国产模型与国际产品在编辑能力上的差异化竞争:可灵 O1 强调“全流程一体化”,Seedance 2.0 偏重多模态参考,而谷歌和 Runway 各走对话式与语境修改路线,不同路线对开发者生态的吸引力和创作者学习成本可能形成分化。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 6151

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注