刚刚,Claude Mythos打爆AI评测天花板,超指数狂飙,2027奇点加速

刚刚,Claude Mythos打爆AI评测天花板,超指数狂飙,2027奇点加速

刚刚,Claude Mythos打爆AI评测天花板,超指数狂飙,2027奇点加速

一句话看懂:Claude Mythos Preview在权威评测机构METR的长期任务测试中,能力突破16小时量级,直接“撑爆”现有评测框架。这是首次有AI系统在复杂工程任务上,达到人类需连续工作半天才能完成的水平,且增长曲线呈超指数形态,引发行业对2027年AGI(通用人工智能)奇点提前到来的讨论。

事件核心:发生了什么

国际AI评测机构METR在最新测试中发现,Claude Mythos Preview在“50%成功率时间线”指标上,已能独立完成人类需要16小时才能完成的复杂编码任务——例如阅读代码库、理解架构、制定方案、编写实现、调试测试。而此前最强的模型仅能触及1小时量级。METR坦言,其228个测试任务中,只有5个被归类为“16小时及以上”,超出该范围后,测试样本不足,数据“不稳定且失去意义”。这意味着人类现有的难题库已被AI“掏空”,评测工具首次彻底“失效”。

为什么重要

这幅趋势图揭示了一个比“指数增长”更陡峭的现象:AI的能力跃升幅度一次比一次大,间隔一次比一次短。从2021年的8秒级任务,到2023年的1分钟,再到2024年的1小时,乃至现在的16小时,增速本身在加速。多家机构此前联合预测AGI门槛在2027年前后,而Mythos的数据点已经落在该预测趋势线的上方。此外,Palo Alto Networks在实战测试中发现,利用Mythos进行漏洞分析,3周时间完成的工作量相当于一支顶级渗透团队1年的产出,且能将以往需数周的攻击链压缩至25分钟。这标志着AI已从“辅助工具”跨越到“自主攻击者”阶段,安全防御节奏必须从“小时级”压缩到“分钟级”。

对用户/开发者/创作者的影响

对开发者:AI的自主代码能力逼近中级工程师水平,可独立完成完整子项目。开发者需重新定义人机协作分工,从“写代码”转向“审核与架构设计”。同时,安全编码压力急剧增大——AI不仅能找到漏洞,还能自动串联攻击链。

对普通用户:短期内,AI助手完成复杂任务的可靠性和速度将大幅提升,例如从“帮我写一个脚本”升级为“帮我开发一个完整的小程序”。但伴随而来的网络安全风险也在升级,个人设备和服务器的自动化攻击门槛将降低。

对创作者与产品经理:模型的能力已超出大多数评测标准,评估AI工具时不能再依赖传统benchmark。产品设计中应预设AI具备16小时连续自主工作的能力,从而设计更长的任务链条。

值得关注的后续

1. 评测体系的重构:METR已无法继续使用现有框架评测旗舰模型,行业需要建立针对“天级”甚至“周级”任务的新评测标准。

2. 安全与管控博弈:Anthropic曾因“太危险”拒绝全面发布Mythos,如今Palo Alto、Mozilla等已开始用同一模型进行防御性扫描。预计会有更多企业要求提前获取模型访问权,监管机构也可能介入设立分级使用规则。

3. 算力与资本加速:英伟达在过去5个月向客户注资约400亿美元(300亿给OpenAI、20亿给CoreWeave、32亿给康宁),形成“投资换取订单”的循环。若能力曲线不减速,算力军备竞赛将进入白热化阶段。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 5903

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注