拒绝彩排，真刀真枪上舞台!美团LongCat-Video-Avatar1.5开源:全面击败主流闭源模型

一句话看懂：美团LongCat大模型团队于5月22日正式开源了商业级数字人视频生成模型LongCat-Video-Avatar 1.5。该版本在唇形同步、多人物交互、长视频稳定性等核心维度显著超越Kling Avatar 2.0、HeyGen等主流闭源产品，推理速度提升15倍，生成10秒视频仅需约1分钟。

事件核心：发生了什么

美团LongCat大模型团队宣布开源LongCat-Video-Avatar 1.5，这是一款面向商业场景的数字人视频生成模型。该版本相比前代做了三重核心升级：

第一，音频编码器从Wav2Vec2升级为Whisper-large，能更精细地捕捉复杂音频中的音素变化，从而改善长句、快语速和歌唱场景下的唇形同步与动作协调。第二，构建了多阶段数据增强系统，专门针对多人物场景加入活跃说话人检测以区分讲话者和听众，在静默状态下加入“安静数据”防止口型自动动作，并引入帧级情感识别让模型理解语速与表情的深度关联。第三，引入GRPO（人类偏好对齐）技术，将奖励信号细化到帧级，并加入首帧手部检测机制，显著缓解电商直播、产品演示等场景中常见的“手部扭曲”和结构崩坏问题。

在推理效率上，该模型采用DMD（分布式匹配蒸馏）技术，将原本50步生成流程压缩至8步；架构上从“三模型并行”改为“共享基座+多个LoRA适配器”，大幅释放显存。实测推理速度提升约15倍，生成一段10秒视频耗时约1分钟。基于EvalTalker基准，770名评估者和10位领域专家的结构化评测显示，该模型在用户偏好胜率上领先Kling Avatar 2.0达65.9%，领先OmniHuman-1.5达61.1%，领先HeyGen达54.3%；单人场景得分3.336，多人场景得分2.730；主体变形率仅23.1%，背景变形率仅9.4%，跳帧问题率低至0.8%。

为什么重要

LongCat-Video-Avatar 1.5的开源，标志着数字人视频生成领域从“实验室SOTA”正式迈向“商业级可用”。其核心价值在于同时解决了长期困扰行业的三个痛点：低质量（跳帧、身份漂移）、高成本（推理慢、算力贵）以及场景泛化差（单一真人形象、静默状态处理生硬）。

从竞争格局看，该模型在多项关键指标上全面超越当前最强的闭源商业系统，且选择完全开源，直接拉低了数字人视频生成的技术门槛。对Meta、字节跳动等拥有同类产品的公司形成明显压力——如果开源模型的商业效果已经优于闭源方案，企业用户和开发者的选型倾向可能发生根本性转变。此外，GRPO、DMD蒸馏等技术方案的引入，也为同行提供了可复用的优化范式。

对用户/开发者/创作者的影响

对于开发者，模型在GitHub上完全开源，可直接下载权重和代码进行二次开发或私有化部署，不再依赖昂贵的第三方API。电商直播、虚拟主播、在线教育等场景的创作者，可以借助该模型生成更稳定、更自然的数字人视频，多人交互场景下也能准确区分发言人与听众。对于企业采购方，15倍推理速度提升直接意味着算力成本下降——一个中等规模的直播间或内容生产团队，可以显著减少GPU投入。但需要注意的是，模型仍需要一定技术能力进行部署调优，非技术用户短期内可能仍需依赖封装后的SaaS服务。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，产品落地的实际效果：开源模型在公开数据集上表现优异，但在真实商业场景（如复杂的背景、特殊灯光、非标准口音）中的泛化能力仍需时间验证。第二，竞争格局变化：已发布类似产品的公司（如Kling、HeyGen）是否会选择降价、开源或跟进技术路线以应对压力，将是近期重要观察点。第三，开发者生态成熟度：GitHub仓库的社区活跃度、文档质量、第三方微调工具的完善速度，将决定该模型能否真正形成可落地的开源生态。目前公开信息显示，团队希望能将其打造为“可验证、可改进的技术底座”，但具体社区支持力度还需后续观察。

来源：AIbase

拒绝彩排，真刀真枪上舞台!美团LongCat-Video-Avatar1.5开源:全面击败主流闭源模型