Mellum2 简介：JetBrains 的 12B 专家混合模型

一句话看懂：JetBrains 发布了 Mellum2，一个专注于文本与代码处理的高效开源模型，总参数量 12B 但每 token 仅激活 2.5B 参数，推理速度比同类模型快两倍以上，专为延时敏感的生产级 AI 系统设计。

事件核心：发生了什么

2026 年 6 月 1 日，JetBrains 在 Hugging Face 上发布了 Mellum2，这是一款从零训练的 12B 参数混合专家模型（Mixture-of-Experts, MoE）。模型仅激活每 token 2.5B 参数，大幅降低推理计算量。Mellum2 延续了前代 Mellum 在代码补全上的积累，扩展至自然语言处理与软件工程任务，支持路由、RAG（检索增强生成）、摘要、子代理、高吞吐编码及私有化部署。模型采用 Apache 2.0 开源协议，技术报告已发表于 arXiv。

基准测试显示，Mellum2 在代码生成、推理、科学和数学任务上与同类开源模型不相上下，但在相同硬件上推理速度提升超过 2 倍。模型架构仅聚焦文本与代码，非多模态，以保持紧凑和效率。

为什么重要

Mellum2 的发布反映了当前 AI 系统从“单一巨型模型”向“多组件协作”方向演进的趋势。JetBrains 明确将 Mellum2 定位为“聚焦型（focal）模型”，适用于高频率、低延迟的中间环节，例如路由、验证、上下文压缩等，从而避免频繁调用更大、更贵的通用模型。这种“轻量化+专业化”的路径，目标是降低生产系统的整体成本和延迟。

对开发者工具生态而言，JetBrains 将模型能力与自身 IDE 和 CI/CD 工具链结合，可能加速 AI 辅助编程功能的私有化部署。与 CodeLlama、DeepSeek Coder 等同类模型相比，Mellum2 在推理效率上的优势意味着更低的服务器算力消耗。

对用户/开发者/创作者的影响

对 IDE 用户：JetBrains IDEs 可能直接集成 Mellum2，实现更快的代码补全、错误检测和内联建议，延迟降低会带来更流畅的交互体验。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对 AI 应用开发者：Mellum2 适合作为多 Agent 系统中的“调度员”或“过滤器”，处理提示分类、工具选择、中间数据转换等高频子任务，减少对 GPT-4、Claude 等大模型的调用次数，节约 API 成本。

对企业用户：Apache 2.0 许可支持自由修改与自托管，可安全处理专有代码和内部数据，尤其适合对数据合规要求较高的金融、医疗、企业内部工具场景。

对算力规划者：2.5B 激活参数意味着推理时所需显存和计算资源远低于同类 12B 密集模型，部署成本显著降低。

值得关注的后续

1. 产品落地速度：JetBrains 是否会在未来版本的 IntelliJ IDEA、PyCharm 或 Fleet 中集成 Mellum2 作为默认辅助模型，以及是否提供云 API 或商业许可版本。

2. 竞品反应：其他代码工具厂商（如 GitHub Copilot、Cursor 等）是否会推出类似的高效路由模型，或对现有模型进行 MoE 改造以降低延迟。

3. 开发者生态扩展：模型在 Hugging Face 上的下载量、社区微调案例和应用插件数量，将直接检验其在 RAG、Agent 和工具调用等战场上的实际表现。

来源：Hugging Face Blog

Mellum2 简介：JetBrains 的 12B 专家混合模型