
字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手
一句话看懂:字节跳动商业化技术团队于2026年6月2日开源了统一视频生成与编辑框架Bernini,核心思路是用多模态大模型先理解用户指令,再交由DiT模型生成画面,旨在提升视频编辑的“可控性”与语义一致性。
事件核心:发生了什么
字节跳动开源了名为Bernini的统一视频生成与编辑框架。它的设计核心是“先理解,再生成”,将任务拆解为两步:第一步,由基于多模态大模型(MLLM)的规划器(planner)解析用户输入的文本指令、源视频、参考图像或视频,并生成一份“语义草图”;第二步,再由基于扩散Transformer(DiT)的渲染器将这份语义目标转化为连续、稳定的视频画面。该框架支持文本到视频生成、视频编辑、参考图像/视频生成等多种任务,目前已开放推理代码和权重,但包含MLLM规划器的完整版本还在整理中。
为什么重要
当前AI视频生成模型的一个核心痛点在于“听不懂人话”或“改不准”——编辑指令往往导致画面闪烁、主体变形、背景漂移。Bernini通过明确分工,让大模型负责“思考什么要改、怎么改”,让扩散模型专注“高质量生成”,这种架构设计直接回应了视频编辑中语义理解与视觉渲染之间的脱节问题。它提供的不是单一模型提升,而是一种可复用的框架思路,其开源姿态也可能影响后续视频生成领域的架构设计方向。
对用户/开发者/创作者的影响
对创作者而言,Bernini最直接的改变是减少了“反复抽卡”的失控感。它支持用一条文本指令改变天气、季节、材质或主体动作,并且能保持帧与帧之间的一致性;同时支持用图像或视频作为参考输入,实现材质替换、风格迁移、屏幕内容精准植入等操作。对开发者而言,开源的Bernini-R(第二阶段模型)提供了可直接部署的推理能力,允许第三方探索视频可控编辑、图像到视频生成、多元素组合生成等场景,且字节团队后续还将开放包含规划器的完整版本。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,完整版框架(含MLLM规划器)的发布时间至关重要,因为它决定了Bernini能否真正实现“先理解后生成”的设计初衷,而不仅是扩散模型的优化。其次,开源社区能否快速适配并落地到主流AI创作工具(如剪辑软件、广告设计平台)中,将直接影响其生态价值。最后,字节在商业化技术团队背景下的开源动作,是否意味着相关技术将很快在抖音、剪映等内部产品中集成,也值得从业者关注。
来源:量子位 · 每日最新


