最新开源成果(#21):开源模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。基于CAISI的V4评估。

最新开源成果(#21):开源模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。基于CAISI的V4评估。

最新开源成果(#21):开源模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1 等。基于CAISI的V4评估。

一句话看懂:2026年5月,DeepSeek、Google、Moonshot AI等多家机构密集发布旗舰级开源模型。与此同时,美国AI标准与创新中心(CAISI)发布的最新评估显示,开源模型与闭源前沿的差距在拉大,但评估方法本身存在争议,实际性能可能更接近。

事件核心:发生了什么

本月开源模型领域迎来一次集中发布,涉及多家主流厂商的重要更新。具体包括:Google 发布 Gemma 4 系列,不仅推出了4B、9B、31B 稠密模型和26B-A4B MoE 版本,还改用 Apache 2.0 许可证以消除合规不确定性。DeepSeek 发布 V4 系列,包括 1.6T-A49B 的 Pro 版本和 284B-13B 的 Flash 版本,其中 Flash 版本实际表现亮眼。此外,小米推出 MiMo-V2.5-Pro(Apache 2.0)、Moonshot AI 升级 Kimi-K2.6、智谱 GLM-5.1、阿里巴巴 Qwen3.6-35B-A3B 等同步上线。

CAISI 基于项目反应理论(IRT)对开源模型进行了 V4 评估。其 Elo 评分结果显示,开源模型与美方闭源模型的差距正在拉大。DeepSeek V4 的较差表现主要来自 CTF-Archive-Diamond(仅部分基准外推)、PortBench(CAISI 私有基准)和 ARC-AGI-2(计分方法不同于公开榜单)等测试。

为什么重要

CAISI 评估及其引发的讨论,揭示了开源模型评测的核心矛盾:使用固定预算、简化环境的标准化测试,可能无法反映模型在真实工具链下的能力。例如,Bun 已成功完成百万行级 Zig 到 Rust 的移植,而评估却认定此类任务“当前不可行”。这意味着,依靠单一基准判断“谁更强”可能误导行业判断。

开源模型生态仍保持高速迭代。Gemma 4 的 Apache 2.0 许可对开发者生态是积极信号,Kimi K2.6 强调长周期任务能力,也表明开源模型正在向“自主研究”等复杂场景延伸。如果只关注评测分数的差距,可能忽略这些实际能力的进展。

对用户/开发者/创作者的影响

对于开发者:进入选择困难期。同档位的开源模型加速涌现,如 MiMo-V2.5-Pro、Kimi K2.6、GLM-5.1 在基准和真实使用中表现接近,竞争主要集中在许可条款、推理成本 和 生态支持。DeepSeek V4 Flash 模型性价比较高,值得特别关注。Google 的 Apache 2.0 许可降低了使用风险。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于企业采购:建议同时参考标准评测和“实战”表现。一些闭源模型在标准化测试中明显领先,但如果考虑真实工作流程(例如使用 Claude Code 或自定义工具箱),开源模型的实际差距可能小于分数所暗示。CAISI 评估中 IRT 的过强外推效应也可能加剧这种误判。

对于创作者和研究人员:开源模型的“峰值性能”正快速接近闭源梯队,尤其在中国厂商的版本中。这些模型在编程、长文本推理等场景中具备落地可行性。注意,评测方法和分数差异不应被直接用来决定技术选型,实际部署测试更为关键。

值得关注的后续

  • 开源社区是否会针对 CAISI 评估中暴露的测试方法问题,推动建立更贴近实际使用场景的统一基准体系。
  • DeepSeek V4 Pro 后续能否通过更新弥补与 Flash 版本之间的表现落差,以及 Pro 版本在大规模推理成本上的实际竞争力。
  • MiMo、Kimi 和 GLM 等国产模型能否持续缩小与 Google、DeepSeek 在许可开放度和生态支持上的差距,进而改变开发者选择偏好。

来源:Nathan Lambert:Interconnects(RSS)

celebrityanime
celebrityanime
文章: 2267

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注