浙大团队提出 IAMFlow:无需训练,让自回归视频生成记住角色身份

浙大团队提出 IAMFlow:无需训练,让自回归视频生成记住角色身份

浙大团队提出 IAMFlow:无需训练,让自回归视频生成记住角色身份

一句话看懂:浙江大学 APRIL 团队提出一种名为 IAMFlow 的推理阶段方法,无需重新训练模型,即可解决长视频生成中角色身份漂移问题。在 60 秒叙事视频评测中,该方法不仅提升了角色一致性,还实现了 1.39 倍的推理加速。

事件核心:发生了什么

4 月 24 日,浙江大学 APRIL 团队及其合作者发布了 IAMFlow 与配套基准 NarraStream-Bench。IAMFlow 的核心创新在于将长视频生成的“记忆”问题,具体化为“身份管理”问题。传统方法依赖固定历史帧或关键帧检索,但难以应对角色离场后重新出现、多提示场景下的身份漂移。IAMFlow 改为由 LLM 解析角色名称和视觉属性,为每个角色分配全局 ID,并通过 Memory Bank 根据 ID 检索相关历史帧。同时,系统引入异步 VLM 校验和自适应提示过渡,在不打断主推理流程的前提下,实时纠正属性偏移。在包含了 324 个 60 秒叙事脚本的 NarraStream-Bench 上,IAMFlow 的总体得分达到 75.73,比最强基线高 2.56 分,且在角色一致性和指令遵循两个维度上均有显著提升。

为什么重要

当前基于 Diffusion Transformer 的视频模型在短视频生成上已取得不错效果,但向长视频叙事扩展时,局部上下文窗口有限,角色和属性会随时间逐渐稀释。IAMFlow 将问题简化为“谁是谁”的管理,而非简单的画面存档,这直接击中了叙事连贯性的技术痛点。它表明,在不增加模型训练成本的前提下,通过推理阶段的记忆架构设计,可以显著提升长视频的人物一致性。对于视频生成行业而言,这意味着 AI 从“短视频”向“长视频连续叙事”的跨越有了更落地的路径,尤其适用于短剧生成、交互式创作和虚拟角色应用等场景。此外,其并行加速设计也证明,身份记忆增强并非以牺牲速度为代价。

对用户/开发者/创作者的影响

对于视频创作者和短剧制作者,IAMFlow 提供了一种无需等待模型更新、可直接部署的方案,用于产出角色外观稳定的多片段叙事视频,避免了因角色外貌突变导致的反复重绘。对于 AI 开发者,该工作展示了将 LLM 与 VLM 嵌入推理流程的成熟系统设计,包括异步验证和模型量化部署,降低了长视频场景下的身份一致性开发门槛。值得注意的是,尽管方法有效,它在处理高速运动、复杂肢体交互、服装主动变化等场景时仍偏保守,且目前公开信息显示,该方案尚未发布开源模型或 API,社区需要关注其后续产品化进度。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,IAMFlow 是否会在未来转化为可调用的 API 或开源模型权重,若开源,开发者将能快速复用其身份记忆机制;第二,鉴于其“LLM+VLM+Memory Bank”的架构具有通用性,主流闭源视频生成模型(如 OpenAI Sora、可灵等)是否会在推理层引入类似的身份管理模块;第三,团队提及将探索自适应记忆策略和更细粒度的实体表征,这预示着长视频生成将从单一片段拼接,向支持剧情编辑与角色资产复用的创作流程演进。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 4532

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注