视频 AI 卷向 5 分钟:全量开源,一次生成,正式告别「盲盒抽卡」

视频 AI 卷向 5 分钟:全量开源,一次生成,正式告别「盲盒抽卡」

视频 AI 卷向 5 分钟:全量开源,一次生成,正式告别「盲盒抽卡」

一句话看懂:京东开源了长音视频生成框架 JoyAI-Echo,支持一次性生成最长 5 分钟、保持角色面部与声音一致的高清视频,并允许通过自然语言局部修改。这标志着 AI 视频生成从“抽卡式”随机输出,迈入可编辑、可控制的长内容生产阶段。

事件核心:发生了什么

2026 年 6 月 6 日,京东正式开源 JoyAI-Echo 长音视频生成框架。该模型具备三大核心能力:一是跨镜头“音视频双重一致”,在长达 5 分钟的视频中保持角色面部特征和说话音色不变;二是支持“非线性剪辑”与局部重绘,创作者可直接用自然语言修改某个镜头,无需重新生成整条视频;三是最高可输出 1472×2560 分辨率的高清视频与精细化音频。目前模型代码与权重已公开,可在 GitHub 免费下载。

为什么重要

过去一年,谷歌 Veo 系列、字节 Seedance2.0、快手可灵等模型虽然在画质上进步明显,但生成时长普遍不超过 20 秒,长视频常出现角色“变脸”、声音变化或需要整段重做等问题。JoyAI-Echo 通过构建“身份向心型语料库”与“槽位配对”视听记忆机制,在模型层面解决了长序列下的身份漂移和错误累积问题。更重要的是,全量开源意味着这套方案不会被锁死在单一公司产品边界内,开发者可在其基础上二次开发,研究社区也可基于公开底座继续推进,有望加速行业从演示级工具向工业级生产工具的跨越。

对用户/开发者/创作者的影响

对创作者:告别“输入 Prompt、拼运气抽卡”的模式。导演智能体可将模糊需求结构化,创作者若对某个镜头不满意,只需用大白话提出修改,系统自动定位并局部重绘,大幅降低改稿成本。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对开发者:模型完全开源,可在垂直行业(如广告、教育、影视前期预演)进行定制开发。配合作者提供的高分辨率实时超分架构,能较低门槛集成到现有生产管线。

对技术决策者:以前长视频只能用于 demo 或搞笑视频,现在它已具备讲完整故事的能力——从数字人助手的连贯表述,到短视频平台的长脚本文案,应用场景明显扩大。

值得关注的后续

第一,开源生态的反馈速度——代码公开后 GitHub 星标和衍生项目数量,将直接反映开发者的接受程度与社区活力;第二,竞品跟进——字节、快手等厂商是否会同步开放类似能力或推出更长时长的闭源服务;第三,实际落地节奏——目前公开信息显示该模型已跑出大量两分钟以上视频,但能否真正嵌入 Netflix、YouTube 等长内容制作工作流,还需观察影视行业的实际测试效果。另外,模型训练数据来自电影与电视剧,后续是否会面临版权合规问题,值得留意。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 5913

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注