
微软发布的 MD 系统完胜 GPT-5.5,漏洞检测能力惊人!
一句话看懂:微软于 5 月 13 日发布代号 MDASH 的多模型智能体扫描框架,集成超 100 个专业 AI 智能体协同工作,在漏洞检测的公开评测中全面超越 OpenAI 的 GPT-5.5 和 Anthropic 的 Mythos 模型。该框架不仅发现了 16 个新漏洞,更在私人测试中实现 100% 准确率且无任何误报,打破了单一 AI 模型在此类安全任务上的上限。
事件核心:发生了什么
5 月 13 日,微软内部代码安全团队推出了名为 MDASH 的多智能体扫描框架。与过去依赖单一大模型完成所有环节不同,MDASH 将超过 100 个基于不同前沿大模型或轻量级模型的 AI 智能体进行分工,分别承担代码准备、漏洞扫描、结果验证、去重、生成证据和补丁验证等职能。
在权威第三方平台 CyberGym 的公开评测中,MDASH 的表现不仅超越了 OpenAI 的 GPT-5.5,也击败了 Anthropic 的 Mythos 模型。测试中它成功发现了 16 个此前未知的漏洞,其中包括 4 个高风险的远程代码执行漏洞。更关键的是,在一块引入了 21 个人工植入漏洞的私有测试驱动上,MDASH 实现了 100% 的识别率且零误报。在历史漏洞追溯测试中,该框架对 clfs.sys 驱动近五年的漏洞召回率达到 96%,对 tcpip.sys 驱动的召回率达到 100%。
为什么重要
这一结果直接挑战了当前行业“用更大单一模型解决所有问题”的思路。MDASH 通过多模型、多智能体的协作策略,在专业安全测试任务上实现了对 GPT-5.5 的碾压,证明了在特定垂直领域,**模型分工和流程拆分的重要性远大于单纯提升模型参数量**。对于微软而言,这不仅是一次安全能力的跃升,也是其将 AI Agent(智能体)概念产品化落地的标志性案例,可能会带动整个 AI 安全检测行业从“单模型推理”向“多智能体协作”转型。
对用户/开发者/创作者的影响
对于企业安全团队和开发者而言,MDASH 的测试数据意味着未来代码安全审查的效率和可靠性将大幅提升——过去需要多名安全专家数周甚至数月的深度审计,未来可能通过 AI 智能体框架在更短时间内完成。同时,零误报表现意味着企业可以大幅降低因误报导致的人力浪费。目前该框架已开始协助微软内部工程团队,并面向少数客户进行内测,预计未来将作为付费服务或集成到 Azure 等开发工具链中。对于普通用户而言,这一技术最终会帮助减少 Windows 等微软产品中的 0-day 漏洞,间接提升所有个人电脑和云服务的默认安全性。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 产品化时间与定价: MDASH 目前仅对内测客户开放,其最终定价模式(按调用量、按项目或作为订阅服务)尚未公布,这将直接决定中小企业能否负担得起该项能力。
2. 行业竞品跟进: OpenAI 和 Anthropic 是否会针对 MDASH 的跑分数据,推出类似的多智能体安全检测方案?这将直接影响未来 AI 安全工具的市场竞争格局。
3. 漏洞库的闭环效应: MDASH 越早被更多开发者使用,微软能收集到的真实漏洞数据就越多,这反过来会进一步训练和优化智能体,形成极强的技术护城河——值得持续关注其生态扩展速度。
来源:AIbase


