中国第一，直逼OpenAI，神秘“扫地僧”冲到全球前七

一句话看懂：一个代号“MopMonk（扫地僧）”的匿名AI系统，以73.1%的成功率闯入网络安全基准测试CyberGym全球第七，在中国团队中排名第一，成绩紧咬OpenAI。其身份至今未公开，但基座模型来自上海AI公司MiniMax的M3模型，技术报告显示这是一套专为漏洞挖掘设计的Agent框架。

事件核心：发生了什么

CyberGym是由UC Berkeley团队开发的AI网络安全能力评估基准，包含1507个真实漏洞实例和188个开源项目，难度远超此前行业标准。MopMonk以73.1%的漏洞复现成功率排名全球第七，仅次于OpenAI等头部玩家，创下中国团队该榜单最高分。公开信息显示，其基座模型为MiniMax的M3开源模型，该模型具备1M超长上下文和原生多模态能力。MopMonk通过一套名为“记忆中心”的多Agent框架，将模型能力转化为可迭代的漏洞挖掘执行——在封闭断网环境中，系统能结构化记忆代码路径、测试结果和失败证据，并支持多个Agent共享记忆并行探索。

为什么重要

这件事的核心意义不是“又一个国产AI上榜”，而是它展示了Agent工程能力正在取代模型参数规模成为竞争焦点。CyberGym测试的核心不是模型“知不知道”，而是“做不做得到”——要求AI在数百万行代码的真实项目中生成可触发漏洞的输入。MopMonk的成功证明，在真实攻防场景中，决定胜负的是Harness层（工具编排、状态管理、记忆复用）的工程厚度，而非单纯堆参数。目前公开信息显示，这套方法具备跨基座迭代的复利属性：基座模型可以升级，但积累的攻防经验和Agent架构可长期复用。

对用户/开发者/创作者的影响

对于AI安全从业者和开源开发者，MopMonk的技术报告（GitHub已公开）展示了如何用结构化的“漏洞记忆”取代传统聊天记录式上下文管理，这为Agent在实际生产环境中的长程任务执行提供了可参考的工程范式。对于普通用户，这意味着AI在代码审计、安全修复等专业领域的落地速度可能比预期更快。对于投资者或企业决策者，应关注“Agent执行层”的技术壁垒正在超过“模型参数”的壁垒，更应评估自家AI系统的“行动力”而非“智商”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是MopMonk的身份是否会浮出水面——目前所有线索指向一家上海AI安全公司或与大模型团队关系密切的机构，但未获证实。二是“记忆中心”式Agent方案是否会向企业安全工具或API服务转化，形成可直接采购的产品。三是MiniMax的M3模型后续是否会因这次实战表现而吸引更多安全领域的开发者和客户，进而改变开源基座在To B市场的竞争格局。

来源：36氪 · 24小时热榜

中国第一，直逼OpenAI，神秘“扫地僧”冲到全球前七

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Apple Creator Studio 更新：更智能、更快速、更互联

ADK Go 2.0 发布：构建可靠的多智能体应用，新增基于图的工作流引擎、人工参与循环与动态编排

Claude Code 入门：智能体循环

发表回复取消回复