重磅开源！原生多模态 LongCat-Next 发布，让视觉和语音成为 AI 的“母语”

一句话看懂：一个开发团队正式开源了原生多模态大模型 LongCat-Next，其核心创新在于将图像、声音和文本统一为同一种“离散 Token”，让 AI 不再把视觉和语音当作外挂模块，而是像处理文字一样原生理解它们。这一架构直接挑战了当前主流的“大语言模型 + 外挂视觉/语音”路线，并已在多个基准测试中展现出领先性能。

事件核心：发生了什么

2026 年 6 月 4 日，一个大型模型开发团队正式发布并开源了名为 LongCat-Next 的原生多模态大模型及其核心离散分词器。该模型采用全新的 DiNA（Discrete Native Autoregressive）架构，将图像、声音和文字都转换为同源的离散 Token，使得所有模态在基座模型中共享同一套参数、注意力机制和损失函数，最终统一为“预测下一个 Token”的数学任务。

为构建“视觉词汇”，团队研发了 dNaViT（Discrete Native Resolution Visual Tokenizer）技术，支持原生任意分辨率，在文档解析、复杂图表推理等细粒度任务中表现突出。该技术采用 8 层残差向量量化机制，实现了高达 28 倍的像素空间压缩，并配合双轨生成解码器，形成了从图像到 Token 再回到图像的闭环。在基准测试中，以 LongCat-Flash-Lite MoE（总参数量 68.5B，激活参数量 3B）为基底，LongCat-Next 在 OmniDocBench 测试上的表现不仅超越了 Qwen3-Omni，还击败了专用视觉模型 Qwen3-VL。

同时，该模型在纯文本测试（如 MMLU-Pro、C-Eval）中仍然保持领先，在 SWE-Bench 代码工具调用任务上的得分也显著高于同类模型。在音频领域，它支持低延迟并行文本转语音生成及个性化声音克隆，在中英文语音合成上实现了极低的词错误率。目前，模型已在 GitHub 和 HuggingFace 上完全开源。

为什么重要

这套方案行业意义在于，它试图回答一个根本性问题：多模态 AI 应该“拼接”还是“融合”？此前，绝大多数模型采取的是“大语言模型 + 外部视觉/音频适配器”的路线，视觉和语音信息只能通过“投影”进入语言空间，无法被模型真正“内化”。LongCat-Next 的 DiNA 架构表明，通过统一的离散表示和建模目标，多模态信息可以在数学层面彻底对齐，无需外挂任何额外模块。

这种做法带来的直接好处是架构简洁和部署轻量化——所有模态共用一套损失函数和注意力机制，训练和推理效率更高。更重要的是，它推翻了“离散化必然导致信息丢失”的行业共识。团队通过构建语义对齐编码器，在有限离散空间内逼近了高维连续表示，证明了离散表示同样可以作为统一理解和生成的完整载体。如果这一技术路线得到验证，将可能改变当前多模态大模型“各模态各自为政”的竞争格局，加速向原生多模态架构收敛。

对用户/开发者/创作者的影响

对于开发者而言，完全开源意味着可以直接下载模型权重进行微调、部署和二次开发，无需依赖闭源 API，这对边缘设备、垂直行业应用（如医疗影像分析、工业质检、文档自动化处理）尤为重要。轻量化的 MoE 架构（3B 激活参数）也降低了部署算力门槛。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于内容创作者与 AI 应用开发者，该模型在细粒度视觉理解（如复杂图表、PDF 解析）和音频生成（语音克隆、文本转语音）上的能力，有望催生出新的创作工具：例如，一键将音频会议记录与 PPT 截图结合生成结构化报告，或者基于图片描述直接生成定制语音解说。此外，统一的 Token 空间意味着未来可以更容易实现图像、文字、语音之间的自由跨模态检索与生成。

对于企业用户，在涉及多模态数据的知识管理、客户服务、设计审核等场景中，LongCat-Next 的“一次训练、全模态可用”特性可能降低长期运营成本，减少同时维护多个专用模型带来的版本管理与资源开销。

值得关注的后续

第一，开源后的社区采纳情况将是关键指标。是否能围绕 DiNA 架构形成插件生态、推理优化工具链和微调脚本，决定它能否从“技术演示”走向“工业级生产工具”。第二，目前模型在部分基准测试中表现亮眼，但实际业务场景中的稳定性和幻觉控制水平尚未充分曝光，尤其在高精度要求的知识问答和长文档理解任务中。第三，同赛道竞品（如 Qwen3-Omni、GPT-4o 等）的跟进策略值得观察——如果证明原生多模态路线确实更优，行业可能会加速从“拼接式”向“原生式”路线迭代，届时围绕 Token 化多媒体数据的训练基础设施和评估标准也将面临重塑。

来源：AIbase

重磅开源！原生多模态 LongCat-Next 发布，让视觉和语音成为 AI 的“母语”