最强黑客大模型，不再是 Mythos

一句话看懂：微软发布了一个名为 MDASH 的多 Agent 安全系统，在 AI 漏洞发现基准测试 CyberGym 上以 88.45% 的成绩超越 Anthropic 的 Mythos（83.1%）和 OpenAI 的 GPT-5.5（81.8%）。微软没有自己的顶级模型，而是通过调度 100 多个 Agent、组合多家公开模型构建系统，证明了工程体系可以反超单一模型的能力。

事件核心：发生了什么

5 月 12 日，微软正式发布 MDASH（Multi-Model Agentic Defense System）。该系统的核心设计是将漏洞发现流程拆解为准备、扫描、验证、去重、证明五个阶段，每个阶段使用不同的 Agent 和模型（如大模型负责重度推理，蒸馏小模型负责高频验证）。底层模型全部来自市面上公开可用的模型，微软自身并未训练前沿大模型。测试基于 UC Berkeley 团队在 ICLR 2026 上发表的 CyberGym 基准，涵盖 1507 道真实项目题目。微软还宣布 MDASH 已帮助其发现 Windows 11 系统的 16 个高危漏洞，其中 4 个为关键级远程代码执行漏洞，并在 5 月补丁星期二中修复。

为什么重要

这一结果对当前 AI 竞争格局有直接冲击。Anthropic 和 OpenAI 通过巨额研发投入训练了 Mythos 和 GPT-5.5 这样的前沿模型，其模型能力被视为核心壁垒。而微软用对手的模型组合出更强系统，说明“模型能力领先”并不自动转化为“应用层领先”。MDASH 证明，在安全等垂直领域，“系统工程”可以抹平甚至反超“模型训练”的差距。它还验证了一条独立的 AI 发展路径：不追求最强的单一模型，而是构建可复用、不绑定模型的多 Agent 流水线。对投资和商业策略的启示是，模型公司的护城河可能比预想中更脆弱。

对用户/开发者/创作者的影响

对安全行业从业者而言，MDASH 展示了 AI 漏洞挖掘从学术演示走向实战的范本——其内部回溯测试对 Windows 核心组件 clfs.sys 和 tcpip.sys 的漏洞召回率分别达到 96% 和 100%。对普通用户来说，直接影响是操作系统补丁更新将更频繁、规模更大，应及时安装。对模型开发者而言，这提醒他们关注系统级能力的建设，而不只是模型本身。目前 MDASH 正在小范围客户私测，定价和发布时间尚未公布。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，MDASH 能否在其他领域（如代码审计、网络渗透）复现类似的工程优势，以及是否会开源部分框架，影响开发者生态。第二，Anthropic 和 OpenAI 是否会调整策略，加强对自家模型在系统层的封装，防止类似“模型被对手组装打败”的情况。第三，MDASH 的 16 个 Windows 漏洞发现是否意味着 AI 漏洞挖掘已进入工业化阶段，这会如何影响黑产攻防的节奏与成本。

来源：Readhub · AI

最强黑客大模型，不再是 Mythos