最新开源成果（#21）：开源模型盛宴！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。基于CAISI的V4评估。

一句话看懂：2026年5月，DeepSeek、Google、Moonshot AI等多家机构密集发布旗舰级开源模型。与此同时，美国AI标准与创新中心（CAISI）发布的最新评估显示，开源模型与闭源前沿的差距在拉大，但评估方法本身存在争议，实际性能可能更接近。

事件核心：发生了什么

本月开源模型领域迎来一次集中发布，涉及多家主流厂商的重要更新。具体包括：Google 发布 Gemma 4 系列，不仅推出了4B、9B、31B 稠密模型和26B-A4B MoE 版本，还改用 Apache 2.0 许可证以消除合规不确定性。DeepSeek 发布 V4 系列，包括 1.6T-A49B 的 Pro 版本和 284B-13B 的 Flash 版本，其中 Flash 版本实际表现亮眼。此外，小米推出 MiMo-V2.5-Pro（Apache 2.0）、Moonshot AI 升级 Kimi-K2.6、智谱 GLM-5.1、阿里巴巴 Qwen3.6-35B-A3B 等同步上线。

CAISI 基于项目反应理论（IRT）对开源模型进行了 V4 评估。其 Elo 评分结果显示，开源模型与美方闭源模型的差距正在拉大。DeepSeek V4 的较差表现主要来自 CTF-Archive-Diamond（仅部分基准外推）、PortBench（CAISI 私有基准）和 ARC-AGI-2（计分方法不同于公开榜单）等测试。

为什么重要

CAISI 评估及其引发的讨论，揭示了开源模型评测的核心矛盾：使用固定预算、简化环境的标准化测试，可能无法反映模型在真实工具链下的能力。例如，Bun 已成功完成百万行级 Zig 到 Rust 的移植，而评估却认定此类任务“当前不可行”。这意味着，依靠单一基准判断“谁更强”可能误导行业判断。

开源模型生态仍保持高速迭代。Gemma 4 的 Apache 2.0 许可对开发者生态是积极信号，Kimi K2.6 强调长周期任务能力，也表明开源模型正在向“自主研究”等复杂场景延伸。如果只关注评测分数的差距，可能忽略这些实际能力的进展。

对用户/开发者/创作者的影响

对于开发者：进入选择困难期。同档位的开源模型加速涌现，如 MiMo-V2.5-Pro、Kimi K2.6、GLM-5.1 在基准和真实使用中表现接近，竞争主要集中在许可条款、推理成本和生态支持。DeepSeek V4 Flash 模型性价比较高，值得特别关注。Google 的 Apache 2.0 许可降低了使用风险。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于企业采购：建议同时参考标准评测和“实战”表现。一些闭源模型在标准化测试中明显领先，但如果考虑真实工作流程（例如使用 Claude Code 或自定义工具箱），开源模型的实际差距可能小于分数所暗示。CAISI 评估中 IRT 的过强外推效应也可能加剧这种误判。

对于创作者和研究人员：开源模型的“峰值性能”正快速接近闭源梯队，尤其在中国厂商的版本中。这些模型在编程、长文本推理等场景中具备落地可行性。注意，评测方法和分数差异不应被直接用来决定技术选型，实际部署测试更为关键。

值得关注的后续

开源社区是否会针对 CAISI 评估中暴露的测试方法问题，推动建立更贴近实际使用场景的统一基准体系。
DeepSeek V4 Pro 后续能否通过更新弥补与 Flash 版本之间的表现落差，以及 Pro 版本在大规模推理成本上的实际竞争力。
MiMo、Kimi 和 GLM 等国产模型能否持续缩小与 Google、DeepSeek 在许可开放度和生态支持上的差距，进而改变开发者选择偏好。

来源：Nathan Lambert：Interconnects（RSS）

最新开源成果（#21）：开源模型盛宴！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。基于CAISI的V4评估。