
Cyber 天花板被打穿!AISI 实测 Mythos 能力正以 4.5 月翻倍速冲向 ASI
一句话看懂:英国AI安全研究所(AISI)实测发现,Anthropic的Mythos与OpenAI的GPT-5.5模型已具备自主完成企业内网渗透任务的能力,且模型网络攻防能力的翻倍周期已缩短至4.5个月,安全评估速度正被模型迭代远远甩开。
事件核心:发生了什么
AISI于2026年2月发布博客,公布了针对Anthropic的Mythos预览版和OpenAI的GPT-5.5的网络安全能力测试结果。在模拟企业内网渗透的“The Last Ones”靶场中,Mythos在10次尝试里成功完成32步完整渗透链6次,GPT-5.5成功3次。另一靶场“Cooling Tower”此前所有模型均未通过,Mythos首次突破,10次尝试成功3次。AISI估算人类安全专家完成同类任务约需20小时。同时,AISI基于历史模型数据拟合得出:前沿模型自主网络任务能力的翻倍周期已从2025年11月的8个月,压缩至2026年2月的4.5个月。独立评估机构METR从软件工程角度测算,得到约4.2个月的翻倍周期,两者交叉验证。
为什么重要
这份测试揭示了一个结构性问题:模型迭代速度正在系统性地超越安全评估周期。AISI承认,测试所用的Mythos checkpoint早在一个月前就已随Project Glasswing上线,评估报告发布时,被评估的版本已成“旧版”。更关键的是,AISI明确指出现有能力的瓶颈并非算法或推理深度,而是Token预算——窄域测试中2.5M Token上限人为压低了成功率,而放开到100M Token后,Mythos表现立刻跃升。这意味着当前评测体系已无法触及模型真实能力上限。Mythos与GPT-5.5的双雄竞争已从实验室原型扩展至生产环境,企业网络防御面临未曾公开的全新威胁层级。
对用户/开发者/创作者的影响
对普通用户而言,运行在Claude APP中的Mythos已具备自主完成复杂网络任务的能力,但AI应用服务商不会主动公开其安全边界。开发者应注意:当前AI agent的自主能力远高于官方API文档通常描述的范畴,调用时需严格限制权限、监控异常行为链。从企业采购角度看,任何依赖AI agent进行自动运维、代码执行或敏感数据操作的组织,都需要重新评估安全策略——模型能在没有人类干预下完成渗透链,意味着最小权限原则和实时审计成为必须,而非可选的安全增强。目前公开信息显示,该能力尚未造成大规模实际攻击事件,但行业应以此为基线调整防御预期。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Anthropic和OpenAI是否会主动披露或限制Mythos与GPT-5.5的自主网络能力?目前两家公司均未公开回应测试细节。第二,AISI表示不确定此次能力跳跃是孤立突破还是新趋势起点,如果翻倍周期继续压缩至3个月以内,预计2026年底前沿模型的网络任务复杂度将是现在的4到8倍,监管框架可能被迫从“评估后上市”转向“沙盒式实时监管”。第三,专用于网络安全的Microsofter或初创SaaS产品是否会出现对标Mythos能力的可商用方案,将直接影响云安全、SOC自动化等领域的竞争格局。
来源:Readhub · AI


