微软发布的 MD 系统完胜 GPT-5.5，漏洞检测能力惊人！

一句话看懂：微软于 5 月 13 日发布代号 MDASH 的多模型智能体扫描框架，集成超 100 个专业 AI 智能体协同工作，在漏洞检测的公开评测中全面超越 OpenAI 的 GPT-5.5 和 Anthropic 的 Mythos 模型。该框架不仅发现了 16 个新漏洞，更在私人测试中实现 100% 准确率且无任何误报，打破了单一 AI 模型在此类安全任务上的上限。

事件核心：发生了什么

5 月 13 日，微软内部代码安全团队推出了名为 MDASH 的多智能体扫描框架。与过去依赖单一大模型完成所有环节不同，MDASH 将超过 100 个基于不同前沿大模型或轻量级模型的 AI 智能体进行分工，分别承担代码准备、漏洞扫描、结果验证、去重、生成证据和补丁验证等职能。

在权威第三方平台 CyberGym 的公开评测中，MDASH 的表现不仅超越了 OpenAI 的 GPT-5.5，也击败了 Anthropic 的 Mythos 模型。测试中它成功发现了 16 个此前未知的漏洞，其中包括 4 个高风险的远程代码执行漏洞。更关键的是，在一块引入了 21 个人工植入漏洞的私有测试驱动上，MDASH 实现了 100% 的识别率且零误报。在历史漏洞追溯测试中，该框架对 clfs.sys 驱动近五年的漏洞召回率达到 96%，对 tcpip.sys 驱动的召回率达到 100%。

为什么重要

这一结果直接挑战了当前行业“用更大单一模型解决所有问题”的思路。MDASH 通过多模型、多智能体的协作策略，在专业安全测试任务上实现了对 GPT-5.5 的碾压，证明了在特定垂直领域，**模型分工和流程拆分的重要性远大于单纯提升模型参数量**。对于微软而言，这不仅是一次安全能力的跃升，也是其将 AI Agent（智能体）概念产品化落地的标志性案例，可能会带动整个 AI 安全检测行业从“单模型推理”向“多智能体协作”转型。

对用户/开发者/创作者的影响

对于企业安全团队和开发者而言，MDASH 的测试数据意味着未来代码安全审查的效率和可靠性将大幅提升——过去需要多名安全专家数周甚至数月的深度审计，未来可能通过 AI 智能体框架在更短时间内完成。同时，零误报表现意味着企业可以大幅降低因误报导致的人力浪费。目前该框架已开始协助微软内部工程团队，并面向少数客户进行内测，预计未来将作为付费服务或集成到 Azure 等开发工具链中。对于普通用户而言，这一技术最终会帮助减少 Windows 等微软产品中的 0-day 漏洞，间接提升所有个人电脑和云服务的默认安全性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品化时间与定价： MDASH 目前仅对内测客户开放，其最终定价模式（按调用量、按项目或作为订阅服务）尚未公布，这将直接决定中小企业能否负担得起该项能力。
2. 行业竞品跟进： OpenAI 和 Anthropic 是否会针对 MDASH 的跑分数据，推出类似的多智能体安全检测方案？这将直接影响未来 AI 安全工具的市场竞争格局。
3. 漏洞库的闭环效应： MDASH 越早被更多开发者使用，微软能收集到的真实漏洞数据就越多，这反过来会进一步训练和优化智能体，形成极强的技术护城河——值得持续关注其生态扩展速度。

来源：AIbase

微软发布的 MD 系统完胜 GPT-5.5，漏洞检测能力惊人！