号称“危险”的AI扫描17. 6 万行代码后，仅揪出一个低危漏洞

号称“危险”的AI扫描17.6 万行代码后，仅揪出一个低危漏洞

一句话看懂：Anthropic的AI安全分析模型Mythos在针对知名开源工具cURL的代码审计中，扫描17.6万行代码后仅确认一个低危漏洞，被项目创始人直言“更像一次成功的营销活动”。这一结果提醒市场：AI在代码审计领域尚未突破“已知错误检测”的边界。

事件核心：发生了什么

5月12日，cURL项目创始人Daniel Stenberg公开了其对Anthropic旗下Mythos模型的实测结果。Mythos此前被Anthropic宣传为具备“危险能力”、可深度检测源代码漏洞，甚至因此延迟公开发布时间。然而在针对全球安装量超200亿的cURL（17.6万行代码）的扫描中：Mythos最初报告“5个确认安全漏洞”，经cURL安全团队数小时人工验证后，3个为误报（仅反映了文档描述的常规行为），1个为无安全威胁的常规bug，最终仅1个严重等级为“低”的漏洞被保留。

Stenberg指出，cURL代码库本身经过数百名贡献者长期打磨，并持续运行自动化扫描和专业安全审计，属于高安全工程标准的项目。在Mythos之前，团队已通过多种AI安全工具修复了数百个bug，早期工具往往能捡到“低垂的果实”，而越趋于完善的项目，AI发现深层新漏洞的难度越大。

为什么重要

这是AI安全模型首次在公开、高标准的开源核心项目上接受实测试。结果暴露出两个关键问题：第一，AI在当前阶段只能检测“已知类型”的错误模式，无法实现真正创新的逻辑发现；第二，厂商对模型能力的营销描述（如“危险能力”）与实测结果之间存在巨大落差。对于AI代码审计这一垂直赛道，它提醒开发者和企业：即便最前沿的模型，在安全工程标准极高的代码库上也难以交出亮眼成绩——安全领域的“银弹”仍然是防御性架构、严格边界限制等人为本的系统工程，而非魔改模型。

对用户/开发者/创作者的影响

对使用AI工具做代码审计的开发者：不要轻信任何模型宣称的“发现大量漏洞”报告，必须在人工核查后才能采纳。Mythos提示的修复建议同样存在不准确的情况。对企业采购AI安全产品：建议要求厂商提供针对自家代码库的纵向实测数据（而非宣传片中的示范案例），且应关注模型对“非典型漏洞”的发现能力，而非单纯数量。对AI安全模型开发者：此次案例说明，为提升可信度，应主动开放与知名开源项目组的联合测试，并发布可复现的结果，以替代充满营销话术的闭门演示。

值得关注的后续

1. Anthropic是否会调整Mythos的发布策略：在公开“打脸”后，公司可能需重新校准对外宣传口径，或发布更具体的模型能力边界说明。2. cURL团队是否会继续与AI厂商合作：Stenberg虽不完全否定AI价值，但表示“AI更像一个知识渊博的助理”，其具体采用计划值得关注——若头部项目降低AI工具使用权重，会传导至产业界采购决策。3. 静态分析工具的AI化转折点：如果AI无法在代码审计的“长尾问题”上取得突破，传统静态分析工具借AI改善误报率的路径可能被证伪，行业或转向“AI辅助而非主力”的定位。

来源：AIbase

号称“危险”的AI扫描17. 6 万行代码后，仅揪出一个低危漏洞