
最强黑客大模型,不再是 Mythos
一句话看懂:微软发布了一个名为 MDASH 的多 Agent 安全系统,在 AI 漏洞发现基准测试 CyberGym 上以 88.45% 的成绩超越 Anthropic 的 Mythos(83.1%)和 OpenAI 的 GPT-5.5(81.8%)。微软没有自己的顶级模型,而是通过调度 100 多个 Agent、组合多家公开模型构建系统,证明了工程体系可以反超单一模型的能力。
事件核心:发生了什么
5 月 12 日,微软正式发布 MDASH(Multi-Model Agentic Defense System)。该系统的核心设计是将漏洞发现流程拆解为准备、扫描、验证、去重、证明五个阶段,每个阶段使用不同的 Agent 和模型(如大模型负责重度推理,蒸馏小模型负责高频验证)。底层模型全部来自市面上公开可用的模型,微软自身并未训练前沿大模型。测试基于 UC Berkeley 团队在 ICLR 2026 上发表的 CyberGym 基准,涵盖 1507 道真实项目题目。微软还宣布 MDASH 已帮助其发现 Windows 11 系统的 16 个高危漏洞,其中 4 个为关键级远程代码执行漏洞,并在 5 月补丁星期二中修复。
为什么重要
这一结果对当前 AI 竞争格局有直接冲击。Anthropic 和 OpenAI 通过巨额研发投入训练了 Mythos 和 GPT-5.5 这样的前沿模型,其模型能力被视为核心壁垒。而微软用对手的模型组合出更强系统,说明“模型能力领先”并不自动转化为“应用层领先”。MDASH 证明,在安全等垂直领域,“系统工程”可以抹平甚至反超“模型训练”的差距。它还验证了一条独立的 AI 发展路径:不追求最强的单一模型,而是构建可复用、不绑定模型的多 Agent 流水线。对投资和商业策略的启示是,模型公司的护城河可能比预想中更脆弱。
对用户/开发者/创作者的影响
对安全行业从业者而言,MDASH 展示了 AI 漏洞挖掘从学术演示走向实战的范本——其内部回溯测试对 Windows 核心组件 clfs.sys 和 tcpip.sys 的漏洞召回率分别达到 96% 和 100%。对普通用户来说,直接影响是操作系统补丁更新将更频繁、规模更大,应及时安装。对模型开发者而言,这提醒他们关注系统级能力的建设,而不只是模型本身。目前 MDASH 正在小范围客户私测,定价和发布时间尚未公布。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,MDASH 能否在其他领域(如代码审计、网络渗透)复现类似的工程优势,以及是否会开源部分框架,影响开发者生态。第二,Anthropic 和 OpenAI 是否会调整策略,加强对自家模型在系统层的封装,防止类似“模型被对手组装打败”的情况。第三,MDASH 的 16 个 Windows 漏洞发现是否意味着 AI 漏洞挖掘已进入工业化阶段,这会如何影响黑产攻防的节奏与成本。
来源:Readhub · AI


