刚刚，Claude Mythos打爆AI评测天花板，超指数狂飙，2027奇点加速

一句话看懂：Claude Mythos Preview在权威评测机构METR的长期任务测试中，能力突破16小时量级，直接“撑爆”现有评测框架。这是首次有AI系统在复杂工程任务上，达到人类需连续工作半天才能完成的水平，且增长曲线呈超指数形态，引发行业对2027年AGI（通用人工智能）奇点提前到来的讨论。

事件核心：发生了什么

国际AI评测机构METR在最新测试中发现，Claude Mythos Preview在“50%成功率时间线”指标上，已能独立完成人类需要16小时才能完成的复杂编码任务——例如阅读代码库、理解架构、制定方案、编写实现、调试测试。而此前最强的模型仅能触及1小时量级。METR坦言，其228个测试任务中，只有5个被归类为“16小时及以上”，超出该范围后，测试样本不足，数据“不稳定且失去意义”。这意味着人类现有的难题库已被AI“掏空”，评测工具首次彻底“失效”。

为什么重要

这幅趋势图揭示了一个比“指数增长”更陡峭的现象：AI的能力跃升幅度一次比一次大，间隔一次比一次短。从2021年的8秒级任务，到2023年的1分钟，再到2024年的1小时，乃至现在的16小时，增速本身在加速。多家机构此前联合预测AGI门槛在2027年前后，而Mythos的数据点已经落在该预测趋势线的上方。此外，Palo Alto Networks在实战测试中发现，利用Mythos进行漏洞分析，3周时间完成的工作量相当于一支顶级渗透团队1年的产出，且能将以往需数周的攻击链压缩至25分钟。这标志着AI已从“辅助工具”跨越到“自主攻击者”阶段，安全防御节奏必须从“小时级”压缩到“分钟级”。

对用户/开发者/创作者的影响

对开发者：AI的自主代码能力逼近中级工程师水平，可独立完成完整子项目。开发者需重新定义人机协作分工，从“写代码”转向“审核与架构设计”。同时，安全编码压力急剧增大——AI不仅能找到漏洞，还能自动串联攻击链。

对普通用户：短期内，AI助手完成复杂任务的可靠性和速度将大幅提升，例如从“帮我写一个脚本”升级为“帮我开发一个完整的小程序”。但伴随而来的网络安全风险也在升级，个人设备和服务器的自动化攻击门槛将降低。

对创作者与产品经理：模型的能力已超出大多数评测标准，评估AI工具时不能再依赖传统benchmark。产品设计中应预设AI具备16小时连续自主工作的能力，从而设计更长的任务链条。

值得关注的后续

1. 评测体系的重构：METR已无法继续使用现有框架评测旗舰模型，行业需要建立针对“天级”甚至“周级”任务的新评测标准。

2. 安全与管控博弈：Anthropic曾因“太危险”拒绝全面发布Mythos，如今Palo Alto、Mozilla等已开始用同一模型进行防御性扫描。预计会有更多企业要求提前获取模型访问权，监管机构也可能介入设立分级使用规则。

3. 算力与资本加速：英伟达在过去5个月向客户注资约400亿美元（300亿给OpenAI、20亿给CoreWeave、32亿给康宁），形成“投资换取订单”的循环。若能力曲线不减速，算力军备竞赛将进入白热化阶段。

来源：36氪 · 24小时热榜

刚刚，Claude Mythos打爆AI评测天花板，超指数狂飙，2027奇点加速