5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队

一句话看懂：京东团队开源了一套名为 JoyAI-Echo 的长音视频生成框架，通过跨模态记忆库和后训练优化，解决了 AI 长视频中角色不一致、音色漂移、生成速度慢等关键问题，在多项评测中达到全球领先水平，并支持对话式编辑。

事件核心：发生了什么

2026 年 6 月 7 日，京东宣布开源长音视频生成框架 JoyAI-Echo。该框架的核心创新在于：一是“跨模态音视频记忆库”，同步记录角色视觉特征与音色，避免跨镜头、跨场景时人物变脸或声音漂移；二是采用记忆驱动后训练流程，其中 DMD 技术将推理速度提升约 7.5 倍；三是引入轻量级实时超分模块，在生成链路内一次推理即可输出 1K 至 2K 高清结果。此外，框架内置 Director Agent，支持用户用自然语言描述需求，Agent 自动拆分为剧本、分镜，并能在不重头生成的情况下局部修改。官方盲测显示，在长视频任务中，用户对 JoyAI-Echo 的视频画面偏好度为 63.6%，音频质量偏好度达 81.7%，IP 一致性偏好为 59.4%。项目代码和模型已公开在 GitHub。

为什么重要

当前 AI 视频生成领域，短片段效果已接近成熟，但长视频因模型长程时序一致性弱、错误累积、推理延迟高，始终难以进入生产流程。JoyAI-Echo 通过“记忆+加速+交互编辑”的组合，在不牺牲画质的前提下，将单个角色的稳定生成时长延伸至 5 分钟，首次在开源框架中同时解决了一致性、速度和可修改性三大瓶颈。这一进展将长视频生成从“技术演示”推向“生产工具”阶段，且选择开源，意味着开发者可以直接调用、二次开发，有望加速行业内长视频应用的技术迭代，降低准入门槛。

对用户/开发者/创作者的影响

对创作者和数字人内容团队：可直接使用 JoyAI-Echo 生成多镜头、多场景的连续性视频，角色和音色不再中途“跳戏”，且支持 Agent 对话后局部重拍，大幅降低返工成本；实时超分功能让数字人直播、品牌营销等对高清和低延迟敏感的场景不再需要等待二次处理。对开发者：开源后可以基于框架开发定制化应用，例如虚拟 IP 故事、教育课件自动化、游戏角色动画等；7.5 倍推理加速降低了硬件部署成本，使长视频生成在消费级 GPU 上也可运行。对普通用户：虽然框架本身面向开发者和专业创作者，但其 Agent 机制允许用自然语言直接描述需求，意味着未来可能出现用户友好的端侧工具，使非技术人员也能完成简单长视频创作。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，开源社区的实际反馈和迭代速度——框架的跨模态记忆库和后训练流程是否易于复现和扩展，将决定其能否成为行业标准基础设施。第二，竞品（如字节、快手、Runway 等）是否会快速跟进类似“记忆+加速”的技术路线，并可能从闭源转向部分开源以争夺社区生态。第三，长视频生成在数字人直播、短剧等真实场景中的落地效果——目前盲测数据来自官方，独立第三方评测结果和用户实际使用体验将是验证其生产价值的关键。

来源：量子位 · 每日最新

5分钟AI长视频不翻车！国产开源框架杀到全球第一梯队