
一句话看懂:JetBrains 于近期开源了 120 亿参数的编程模型 Mellum2,主打面向智能体 AI 系统的基础设施层(如路由、检索和子智能体任务)和企业私有化部署——这是 Claude Code、Codex 等依赖云端 API 的产品难以覆盖的领域。
事件核心:发生了什么
JetBrains 正式发布了 Mellum2,这是 2024 年底推出的 Mellum(40 亿参数)的升级版本。与专注于单一代码补全的前代不同,Mellum2 被设计为“聚焦型模型”,服务于工程团队部署 AI 所需的广泛任务:协调多个模型、处理子智能体工作负载、在检索管道中压缩上下文,并在企业自主控制的基础设施上运行推理。模型采用混合专家(MoE)架构,总参数量 120 亿,但每个词元仅激活 25 亿参数,兼顾容量与推理速度。
Mellum2 提供三个变体:基础模型、指令模型(直接回答问题)和思考模型(生成显式推理过程)。JetBrains 已基于 Apache 2.0 许可协议将权重完整开源在 Hugging Face,并附带技术报告。在基准测试中,面对生产代码补全负载,单请求模式下 Mellum2 每秒处理 192 词元,与阿里 Qwen2.5-7B 持平(193 词元);而在并发负载下,Mellum2 性能比 Qwen2.5-7B 高出 21%,比 Qwen3-8B 高出 79%。在功能级代码生成(EvalPlus)上,思考版本得分 78.4%,超越 Qwen3.5-9B(71.8%)和 Seed-Coder-8B(73.8%)。不过,在通用推理任务(如 GPQA Diamond、MMLU-Redux)中,Qwen3.5-9B 仍占优势,JetBrains 将在训练资源中刻意侧重代码与开发文档而非百科知识覆盖。
为什么重要
Mellum2 的定位直接挑战了当前 AI 编程产品的“黑箱化”趋势。Anthropic 的 Claude Code、OpenAI 的 Codex 以及 Cursor 的 Composer 2.5 均将核心推理托付给外部 API 或自有平台,企业无法完全控制模型行为、数据流向和部署位置。Mellum2 的开源策略和本地化部署能力,为企业在敏感环境(如金融、军工、医疗)下构建自主可控的智能体基础设施提供了一个可行选项。它的 MoE 架构在推理效率上接近 25 亿参数模型,显著降低了算力门槛,让团队可在单张 H100 GPU 上运行并承载高并发请求。这本质上是在推动 AI 编程从“拿来即用的 API 服务”向“可定制的本地组件”转变,对依赖通用大模型的企业工作流提出了新的架构思路。
对用户/开发者/创作者的影响
对于企业开发团队,Mellum2 提供了将 AI 能力嵌入自建智能体系统(如路由中间件、子智能体调度、上下文压缩管道)的现成基础组件,且无需担心数据外泄或被锁定在单一云平台。独立开发者可通过 Hugging Face 下载权重并自行部署,根据需求微调指令模型或思考模型。但对于希望在一个模型里同时解决代码生成和通用知识问答的开发者,Mellum2 的专精定位意味着需要额外搭建其他模型来补足通用推理能力。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Mellum2 能否在企业大规模生产环境中获得认可,取决于企业业务场景对自托管 AI 基础设施的实际接受度——目前多数企业仍在云端与本地部署之间摇摆;第二,JetBrains 是否会将 Mellum2 整合进其 IDE 生态(如 IntelliJ IDEA、PyCharm)作为默认代码补全引擎,这将直接影响数千万开发者的日常体验;第三,开源社区的二次开发热度与周边工具链(如 LoRA 微调、模型蒸馏)的完善程度,将决定 Mellum2 能否在开源编程模型生态中站稳脚跟。
来源:InfoQ CN

![[OpenAI] 让 AI 写出「三个月后还能看懂」的代码](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_4-712-768x403.jpg)
