
一句话看懂:清华大学与 GigaAI 联合开源的 RhymeFlow 框架,在不重新训练模型的前提下,通过为视频中不同帧分配不同的计算步数,将主流 DiT 模型(如 Wan 2.1、CogVideoX)的推理速度提升 1.5 到 1.8 倍,且经双盲测试,62.5% 的用户认为其生成质量与原始模型无差别。
事件核心:发生了什么
生成一段 81 帧的 720p 视频,在单张 A800 GPU 上需要近 17 分钟。这一瓶颈源于 DiT 架构中 3D 时空注意力的二次方复杂度,且现有加速方法无法跨帧压缩冗余。RhymeFlow 采用“帧间异步调度”策略:通过潜空间语义相似度自动识别关键帧(例如物体运动突变或场景切换的帧),让关键帧走完完整的 50 步去噪流程,而非关键帧则在高噪声阶段每 2 步更新一次、低噪声阶段每 3 步更新一次,并通过线性投影模块补全跳步造成的中间状态缺失。在 CogVideoX 上以 1.78 倍加速运行,主体一致性保持在 98.6%;与现有加速方法 SPA 叠加后,加速比可达 1.93 倍。
为什么重要
这一突破体现在两个层面。第一,它开辟了全新的加速维度——帧间调度,而非仅仅优化单步内的计算量,这对所有基于扩散模型的视频生成工具具有普适性。第二,完全无需重训练,意味着普通开发者或创作者可以直接套用在已有的开源模型上,成本极低。对于 AI 视频生成产业链而言,这是目前公开信息中首个将“按帧差异化计算”概念落地的训练免费方案,可能促使更多团队重新审视视频生成中“每一帧都同等重要”的默认假设。
对用户/开发者/创作者的影响
对于直接部署视频生成模型的开发者,RhymeFlow 提供了一种即插即用的加速方式,可以显著降低单次推理的算力成本或等待时间,尤其适合对生成延迟敏感的场景。对于内容创作者,如果该框架得到广泛集成,未来使用 Wan 2.1、CogVideoX 等模型生成高清长视频时,算力费用或排队等待时间有望压缩近一半,同时保持接近原始画质。目前项目已开源在 GitHub,社区可以自行测试并叠加其他加速方法,进一步优化。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,研究团队计划引入强化学习自适应调度,而非固定跳步规则,这将进一步提升效率与质量的平衡,值得关注其落地效果。第二,RhymeFlow 目前主要优化了视频生成的后半段(低噪声阶段),其与光流预测、KV 缓存等其他技术的叠加极限还有待验证。第三,如果这一框架被主要开源视频模型(如 Stable Video Diffusion、CogVideoX 等)原生集成,可能推动长视频、高帧率生成在消费级硬件上的实用化进程。
来源:Readhub · AI


