浙大团队提出 IAMFlow：无需训练，让自回归视频生成记住角色身份

一句话看懂：浙江大学 APRIL 团队提出一种名为 IAMFlow 的推理阶段方法，无需重新训练模型，即可解决长视频生成中角色身份漂移问题。在 60 秒叙事视频评测中，该方法不仅提升了角色一致性，还实现了 1.39 倍的推理加速。

事件核心：发生了什么

4 月 24 日，浙江大学 APRIL 团队及其合作者发布了 IAMFlow 与配套基准 NarraStream-Bench。IAMFlow 的核心创新在于将长视频生成的“记忆”问题，具体化为“身份管理”问题。传统方法依赖固定历史帧或关键帧检索，但难以应对角色离场后重新出现、多提示场景下的身份漂移。IAMFlow 改为由 LLM 解析角色名称和视觉属性，为每个角色分配全局 ID，并通过 Memory Bank 根据 ID 检索相关历史帧。同时，系统引入异步 VLM 校验和自适应提示过渡，在不打断主推理流程的前提下，实时纠正属性偏移。在包含了 324 个 60 秒叙事脚本的 NarraStream-Bench 上，IAMFlow 的总体得分达到 75.73，比最强基线高 2.56 分，且在角色一致性和指令遵循两个维度上均有显著提升。

为什么重要

当前基于 Diffusion Transformer 的视频模型在短视频生成上已取得不错效果，但向长视频叙事扩展时，局部上下文窗口有限，角色和属性会随时间逐渐稀释。IAMFlow 将问题简化为“谁是谁”的管理，而非简单的画面存档，这直接击中了叙事连贯性的技术痛点。它表明，在不增加模型训练成本的前提下，通过推理阶段的记忆架构设计，可以显著提升长视频的人物一致性。对于视频生成行业而言，这意味着 AI 从“短视频”向“长视频连续叙事”的跨越有了更落地的路径，尤其适用于短剧生成、交互式创作和虚拟角色应用等场景。此外，其并行加速设计也证明，身份记忆增强并非以牺牲速度为代价。

对用户/开发者/创作者的影响

对于视频创作者和短剧制作者，IAMFlow 提供了一种无需等待模型更新、可直接部署的方案，用于产出角色外观稳定的多片段叙事视频，避免了因角色外貌突变导致的反复重绘。对于 AI 开发者，该工作展示了将 LLM 与 VLM 嵌入推理流程的成熟系统设计，包括异步验证和模型量化部署，降低了长视频场景下的身份一致性开发门槛。值得注意的是，尽管方法有效，它在处理高速运动、复杂肢体交互、服装主动变化等场景时仍偏保守，且目前公开信息显示，该方案尚未发布开源模型或 API，社区需要关注其后续产品化进度。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，IAMFlow 是否会在未来转化为可调用的 API 或开源模型权重，若开源，开发者将能快速复用其身份记忆机制；第二，鉴于其“LLM+VLM+Memory Bank”的架构具有通用性，主流闭源视频生成模型（如 OpenAI Sora、可灵等）是否会在推理层引入类似的身份管理模块；第三，团队提及将探索自适应记忆策略和更细粒度的实体表征，这预示着长视频生成将从单一片段拼接，向支持剧情编辑与角色资产复用的创作流程演进。

来源：Readhub · AI

浙大团队提出 IAMFlow：无需训练，让自回归视频生成记住角色身份